JP2023029751A - 音声情報処理装置、及びプログラム - Google Patents
音声情報処理装置、及びプログラム Download PDFInfo
- Publication number
- JP2023029751A JP2023029751A JP2022131253A JP2022131253A JP2023029751A JP 2023029751 A JP2023029751 A JP 2023029751A JP 2022131253 A JP2022131253 A JP 2022131253A JP 2022131253 A JP2022131253 A JP 2022131253A JP 2023029751 A JP2023029751 A JP 2023029751A
- Authority
- JP
- Japan
- Prior art keywords
- script
- voice data
- data
- speech
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】比較的簡便な構成で、ユーザが聴取した音声のどこを聞き取り損ねたかの評価を行うことができる音声情報処理装置、及びプログラムを提供する。【解決手段】スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続され、予め定められたフローに従って、モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、モデル音声データを対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、を少なくとも一つずつ含む処理を順次実行し、モデル音声データと記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データの対応する時点での特徴量の相関、ないしその統計値を演算する音声情報処理装置である。【選択図】図1
Description
本発明は、音声情報処理装置、及びプログラムに関する。
音声コミュニケーションでは、相手の音声を聞き、音声が表す語を特定し、その内容を理解し、応答を用意して、発話するという一連の処理を同時的に実行することとなる。一般的に人は、母語であれば、音声を聞いて語を特定したり、発話したりという点に認知的困難がないが、母語以外の言語ではこれらにも認知的負荷がかかる。
すなわち音声コミュニケーションにおいて、(A)相手の音声のどこを聞き取り損なっているか、(B)聞き取った音声を正しく概念化できたか、(C)発声の際に適切に発音(調音制御)できたかといった事柄は、重要である。しかしながら従来、これらを個別に評価する技術は見出されていなかった。
C.Zhu, Z.Lin, N.Minematsu, N.Nakanishi, "Analyses on instantaneous perception of Japanese English by listeners with various language profiles," Proc. The Phonetic Society of Japan General Meeting, pp.26-31, 2020
従来、音声聴取中の人の表情や、脳活動等を計測する例などを用いて、聞き取りの評価を行うものもあるが、特殊な装置を要するため、容易に計測できない。
本発明は上記実情に鑑みて為されたもので、比較的簡便な構成で、ユーザが聴取した音声のどこを聞き取り損ねたかの評価を行うことができる音声情報処理装置、及びプログラムを提供することを、その目的の一つとする。
上記従来例の問題点を解決するための本発明の一態様は、スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続される音声情報処理装置であり、予め定められたフローに従って、前記モデル音声データを提示して、ユーザから対応する音声データの入力を受け入れて記憶するシャドーイング処理と、前記モデル音声データを前記対応するスクリプトとともに提示して、ユーザから対応する音声データの入力を受け入れて記憶するスクリプトシャドーイング処理と、を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、を含み、当該特徴量の相関ないしその統計値の少なくとも一方を提示することとしたものである。
本発明によると、比較的簡便な構成により、ユーザが聴取した音声の部分ごとに、ユーザによる聞き間違いを予測可能となる。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る音声情報処理装置1は、図1に例示するように、制御部11と、記憶部12と、操作部13と、音声出力部14と、音声入力部15と、表示部16とを含んで構成され、さらに通信部17を含んでもよい。ここで制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態では、この制御部11は、音声データの識別情報と、予め用意された音声データと、この音声データで発音されている単語を記載したスクリプトデータとを関連付けたコーパスデータベースを参照し、予め定めたフローにしたがってシャドーイング(音声データを鳴動し、ユーザから対応する音声の入力を受ける)、スクリプトシャドーイング(音声データを鳴動するとともに対応するスクリプトデータを表示して、ユーザから対応する音声の入力を受ける)、等の処理を実行する。
そして制御部11は、シャドーイングやスクリプトシャドーイング等で得られたユーザの音声を所定の方法で評価し、当該評価の結果を出力する。この制御部11の動作については後に述べる。
記憶部12は、メモリデバイス等であり、制御部11によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読かつ非一時的な記録媒体に格納されて提供され、この記憶部12に格納されることとしてよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。この記憶部12には、さらに、コーパスデータベースが格納されていてもよい。
操作部13は、キーボードやマウス等であり、ユーザの操作を受け入れて、当該操作の内容を表す情報を、制御部11に出力する。音声出力部14は、制御部11から入力される指示に従い、音声を鳴動する。音声入力部15は、マイクを含み、ユーザが発話した音声のデータを、制御部11に出力する。表示部16は、制御部11から入力される指示に従って、文字列や画像などの情報を表示する。
通信部17は、ネットワークインタフェース等であり、ネットワークを介して受信した要求等を制御部11に出力する。またこの通信部17は、制御部11から入力される指示に従い、ネットワークを介して種々のデータを送出する。
次に制御部11の動作について説明する。本実施の形態の一例では、この制御部11は、機能的に、図2に例示するように、フロー実行部21と、シャドーイング処理部22と、スクリプトシャドーイング処理部23と、リーディング処理部24と、比較部25と、スコアリング部26とを含んで構成される。
フロー実行部21は、シャドーイングの訓練に関し、予め定められたフロー設定情報を取得する。ここでフロー設定情報は、時系列順に、どのような訓練を行うかを定めたものであり、一例として、
(1)第1回シャドーイング
(2)第2回シャドーイング
(3)第3回シャドーイング
(4)スクリプトシャドーイング
(5)第1回リーディング、
(6)2週間のインターバル
(7)第2回リーディング
というように定められる。フロー実行部21は、コーパスデータベースに格納された音声データの一つをモデル音声データMとして選択し、当該音声データに関連する音声データの識別情報を、選択識別情報として記憶部12に格納する。またフロー実行部21は、ここで定められたフロー設定情報に従ってシャドーイング処理部22、スクリプトシャドーイング処理部23、リーディング処理部24の各部を制御して、上記フローを順次実行する。
(1)第1回シャドーイング
(2)第2回シャドーイング
(3)第3回シャドーイング
(4)スクリプトシャドーイング
(5)第1回リーディング、
(6)2週間のインターバル
(7)第2回リーディング
というように定められる。フロー実行部21は、コーパスデータベースに格納された音声データの一つをモデル音声データMとして選択し、当該音声データに関連する音声データの識別情報を、選択識別情報として記憶部12に格納する。またフロー実行部21は、ここで定められたフロー設定情報に従ってシャドーイング処理部22、スクリプトシャドーイング処理部23、リーディング処理部24の各部を制御して、上記フローを順次実行する。
シャドーイング処理部22は、フロー実行部21から入力される指示に従い、シャドーイングの処理を実行する。このシャドーイング処理部22は、記憶部12に格納された選択識別情報を読み出し、さらに当該読み出した選択識別情報に関連付けてコーパスデータベースに格納されたモデル音声データMを読み出して、音声出力部14に当該モデル音声データMを鳴動させる。そしてシャドーイング処理部22は、当該モデル音声データMの鳴動時にユーザから入力される音声データSを音声入力部15から受け入れて、当該音声データSを、選択識別情報に関連付けて記憶部12に蓄積して格納する。なお、複数回のシャドーイングが行われる場合には、このシャドーイング処理部22は、各回ごとの音声データSi(i=1,2,…)を、選択識別情報に関連付けて蓄積して格納する。
スクリプトシャドーイング処理部23は、フロー実行部21から入力される指示に従い、スクリプトシャドーイングの処理を実行する。このスクリプトシャドーイング処理部23は、記憶部12に格納された識別情報に関連付けてコーパスデータベースに格納されたモデル音声データMとスクリプトデータとを読み出して、音声出力部14に当該モデル音声データMを鳴動させるとともに、表示部16にスクリプトデータの文字列を表示させる。そしてスクリプトシャドーイング処理部23は、当該モデル音声データMの鳴動時にユーザから入力される音声データを音声入力部15から受け入れ、当該音声データSSを、選択識別情報に関連付けて記憶部12に蓄積して格納する。
リーディング処理部24は、フロー実行部21から入力される指示に従い、記憶部12に格納された識別情報に関連付けてコーパスデータベースに格納されたモデル音声データMとスクリプトデータとを読み出す。リーディング処理部24は、スクリプトデータの文字列を表示部16に表示させ、ユーザに当該スクリプトデータの文字列を発音するよう求める。このとき、リーディング処理部24は、スクリプトデータの文字列だけでなく、モデル音声データMの波形を表す画像を併せて表示部16に表示させる。そしてリーディング処理部24は、モデル音声データMを鳴動することなく、モデル音声データMの波形上に、鳴動している位置を表すカーソルを表示する。ユーザはこの画像を参照することで、モデル音声データMを聞くことなく、その発話のタイミングや、長さを調整する。なお、この表示は、シャドーイング処理部22や、スクリプトシャドーイング処理部23においても行われてよい。
リーディング処理部24は、ユーザから入力される音声データを音声入力部15から受け入れ、当該音声データRを、選択識別情報に関連付けて記憶部12に蓄積して格納する。なお、複数回のリーディングが行われる場合には、このリーディング処理部24は、各回ごとの音声データRj(j=1,2,…)を、選択識別情報に関連付けて蓄積して格納する。
比較部25は、記憶部12に格納された音声データSi,SS,Rj及び、それらに関連付けられた選択識別情報で識別されるモデル音声データMから選択された一対の音声データを比較する。
この比較部25の処理は、一対の音声データXとYとを時系列データとして対応づけて両者の相違を「ズレの時系列」として求める、いわゆるDynamic Time Warping(動的時間伸縮)法を用いて行われる。すなわち比較部25は、互いに対応する音が発音されているべき時点のデータ部分をDTWパスにて関連付ける。そして比較部25は、音の質に関わる音素事後確率(Phoneme Posterior Probability)、音の高さであるピッチ(pitch)、音の強さ(intensity)、母音の長さ(vowel duration)などの観点で、対応する時間ごとのズレの時系列情報|Y-X|をそれぞれ求める。なお、ピッチの時系列情報がイントネーションであり、音の強さ、及び母音の長さの時系列情報は、リズムに関係する。
具体的に、この比較部25は、一対の音声データX,Yをそれぞれ特徴量時系列に変換し、両者を時系列データとして比較する。ここで特徴量としては、例えば、音素事後確率(Phoneme Posterior Probability)を用いることができる。この特徴量の時系列データは、Phoneme-based PosteriorGram(PPG)となる。比較部25は、一方の音声データに係るPPG(X)と、他方の音声データに基づくPPG(Y)とを動的時間伸縮法を用いて比較し、両者の時間対応を求める。また、比較部25は、一方の音声データXに対して音声認識処理を適用し、音素境界を検出する。比較部25は、得られた音素境界の時間情報を、上記の時間対応を利用して他方の音声データの音素境界を得る。
また動的時間伸縮法では、一対の音声データの、互いに対応する部分(同じ発音がされるべき部分)の局所距離が演算されるので、比較部25は、この局所距離の時間変化をそのままズレの時系列情報とする。この情報は、調音制御におけるズレの時系列そのものとなる。
比較部25は、また、各音声データX,Yをそれぞれ音素境界で分割し、対応する音素ごとの局所距離の平均を、音素あたりのズレ量(phoneme-based DTW)として演算する。
比較部25は、さらに、強勢・弱勢の情報を取得するため、音節連鎖が聞こえ度(sonority)のうねりとして解釈されることを考慮して、聞こえ度の推定技術を用いる。具体的にこの処理を行う比較部25は、音声データX,Yのそれぞれの波形振幅の重みづけ平均(波形包絡)を用いる(Mermelstein, P.(1975) “Automatic segmentation of speech into syllabic units.” Acoustical Society of America, 58, 880-883)。すなわち、100ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の聞こえ度として、その時系列により強さ制御の状況を得る。
比較部25は、各音声データX,Yの音の高さ(以下ピッチという)をそれぞれ求め、イントネーションパターンとする。本実施の形態のここでの例では、比較部25は、ここで求めた各音声データX,Yについての強さ制御の時系列の情報と、ピッチの時系列の情報とを、DTWパスを用いて時間的に対応付ける。
さらに比較部25は、音素境界の情報を用いて各音声データX,Yにおける対応する母音の発音されている時間の長さの相関を、リズム類似性として演算する。
比較部25は、これらの処理により、一対の音声データX,Yの、互いに対応する部分についての音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関を求め、さらにそれらの局所距離や相関値の統計値(平均値や中央値、最大値、最小値等、以下では一例として平均値を求めるものとする)を演算する。
スコアリング部26は、所定のタイミングで、比較部25を制御し、予め定めたスコアを演算する。本実施の形態のある例では、このスコアリング部26は、フロー実行部21から指示されたタイミングで、所定のスコアを演算する。ここで所定のスコアは、例えばモデル音声データMに対するユーザの(A)聞き取りや、(B)音韻表象、(C)調音制御に関するスコア等である。
すなわちスコアリング部26は、スクリプトシャドーイングを終了し、スクリプトシャドーイング処理部23が音声データSSを記憶部12に蓄積して格納したタイミングで、それまでに得られているシャドーイング処理部22が記憶部12に蓄積した音声データSi(i=1,2…)のそれぞれと、スクリプトシャドーイングの音声データSSとの組を比較部25に出力し、音声データSi(i=1,2…)のそれぞれと、スクリプトシャドーイングの音声データSSとの音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを求める。
この時系列変化の局所距離や相関は、内容を理解しながら発音したスクリプトシャドーイングの音声データSS(内容に誤りはないがユーザごとの癖や訛りが含まれる)と、内容を理解する前に聴取しただけで発音したシャドーイングの音声データSi(i=1,2…)とを比較したものであるので、「聞き取りの崩れ」を時系列として表したものとなる。またその平均値は、どれほどの「聞き取りの崩れ」が生じたかを表す。そこでスコアリング部26は、これらの時系列変化の局所距離や相関と、それらの平均とを、聞き取りスコアとして出力し、表示部16に表示するなどの処理を行う。
またスコアリング部26は、初回のリーディングが終了し、リーディング処理部24が音声データR1を記憶部12に蓄積して格納したタイミングで、スクリプトシャドーイングの音声データSSと、対応するモデル音声データMとを比較部25に出力し、モデル音声データMとスクリプトシャドーイングの音声データSSとの音素事後確率、ピッチ、音の強さ、母音の長さの時系列変化の局所距離や相関と、それらの平均とを得る。スコアリング部26は、また、音声データR1と、対応するモデル音声データMとを比較部25に出力し、モデル音声データMと音声データR1との音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得る。
この時系列変化と平均とは、内容を理解しながら発音したスクリプトシャドーイングの音声データSS(あるいはその直後に収録するリーディング音声データR1)をモデル音声データMと比較したものとなる。この場合ユーザは、内容を把握し、かつ、モデル音声データMの模範的な音声の心的イメージ(音韻表象)を使って発声を試みることになるが、それをユーザが声として実現するに十分な調音制御ができているのかがスコア化される。このスコアは、モデル音声データが例えば外国語であれば、その訛りの強さを定量化したものとなる。スコアリング部26は、これらの時系列変化の局所距離や相関と、それらの平均とを、調音制御スコアとして出力し、表示部16に表示するなどの処理を行う。
スコアリング部26は、このほか、複数回のリーディングが終了した段階で、例えば2回目のリーディングの音声データR2と1回目のリーディングの音声データR1と、あるいは、2回目のリーディングの音声データR2とスクリプトシャドーイングの音声データSSとを比較部25に出力し、これらの音声データの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得る。
スクリプトを流暢に読み上げるには、スクリプトを見て音韻表象(音声を聞いた時や,テキストを見た時に心的に形成される音声イメージ(内的音声))が心的に形成される必要がある。そこで、モデル音声データとシャドーイング等でモデル音声データMを聴取しつつ行なわれたスクリプトシャドーイングの音声データSSや、リーディングの音声データR1(いずれもモデル音声データMによる流暢な音韻表象に基づいて発音される)と、最後にモデル音声データMを聴取してから十分な時間を置いて発音されたリーディングの音声データR2(ユーザ自身の音韻表象に基づいて発音される)とを比較し、モデル音声データMによる流暢な音韻表象に基づいて発音された音声データと、ユーザ自身の音韻表象に基づいて発音された音声データとの時系列変化の局所距離や相関とそれらの平均とは、直接的に観測できないユーザの音韻表象能力を表すものとなる。そこでスコアリング部26は、これらの時系列変化の局所距離や相関と、平均とを、音韻表象スコアとして出力し、表示部16に表示するなどの処理を行う。
また、スコアリング部26は、少なくともシャドーイングが終了したタイミングで、シャドーイング処理部22が記憶部12に蓄積した音声データSi(i=1,2…)のそれぞれと、対応するモデル音声データMとの組を比較部25に出力し、音声データSi(i=1,2…)のそれぞれと、モデル音声データMとの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関と、それらの平均とを得て、シャドースコアとして出力し、表示部16に表示するなどの処理を行う。
[動作]
本発明の実施の形態に係る音声情報処理装置1は基本的に以上の構成を備えており、次のように動作する。以下では、この音声情報処理装置1を英語学習に利用する場合を例として説明する。もっとも本実施の形態は、このような外国語学習に限られるものではない。
本発明の実施の形態に係る音声情報処理装置1は基本的に以上の構成を備えており、次のように動作する。以下では、この音声情報処理装置1を英語学習に利用する場合を例として説明する。もっとも本実施の形態は、このような外国語学習に限られるものではない。
モデル音声データMとして、一般的な英語教科書の英文テキスト(スクリプト)を、標準的な米国母語話者が読み上げたものを用いる。ここではモデル音声データMを複数用意するものとし、それぞれ対応するスクリプトに関連付けてコーパスデータベースを作成しておく。
またフロー設定情報として、
(1)第1回シャドーイング
(2)第2回シャドーイング
(3)第3回シャドーイング
(4)スクリプトシャドーイング
(5)第1回リーディング、
(6)2週間のインターバル
(7)第2回リーディング
といったフローを設定しておく。なお、(3)第3回シャドーイングの後でシャドースコアの演算を行い、(4)スクリプトシャドーイングの後で聞き取りスコアを演算させ、(5)第1回リーディングの後で、調音制御スコアを演算させ、(7)第2回リーディングの終了後、音韻表象スコアを演算させることとする。
(1)第1回シャドーイング
(2)第2回シャドーイング
(3)第3回シャドーイング
(4)スクリプトシャドーイング
(5)第1回リーディング、
(6)2週間のインターバル
(7)第2回リーディング
といったフローを設定しておく。なお、(3)第3回シャドーイングの後でシャドースコアの演算を行い、(4)スクリプトシャドーイングの後で聞き取りスコアを演算させ、(5)第1回リーディングの後で、調音制御スコアを演算させ、(7)第2回リーディングの終了後、音韻表象スコアを演算させることとする。
音声情報処理装置1の制御部11は、コーパスデータベースに格納された音声データの一つをモデル音声データMとして選択する。そして先のフロー設定情報に従って、まず、シャドーイングの処理を実行する。すなわち制御部11は、選択されたモデル音声データMを読み出して、音声出力部14に当該モデル音声データMを鳴動させ、英語学習者であるユーザ(以下学習者と呼ぶ)に対し、聴取している音声が表す語列をそのまま追唱して発声するよう求める。なお、鳴動された音声が表す語を、その音声の鳴動中に、聞き取ったままに、追いかけるように発声することを追唱(シャドーイング)と呼ぶ。
制御部11は、学習者が発声した音声データS1を音声入力部15から受け入れて、当該音声データS1を、選択したモデル音声データを識別する選択識別情報に関連付けて記憶部12に蓄積して格納する。
以下、制御部11は、選択されたモデル音声データMを読み出して鳴動し、学習者に対し、聴取した音声をそのまま真似て発声するよう求めて、学習者が発声した音声データSi(i=2,3…)を受け入れて、当該音声データSiを、選択したモデル音声データを識別する選択識別情報に関連付けて記憶部12に蓄積して格納する処理を3回まで(i=3まで)繰り返す。
制御部11は、この段階で記憶部12に蓄積した音声データSi(i=1,2…)のそれぞれと、対応するモデル音声データMとの組について、当該組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。
すなわち制御部11は、当該組に含まれる一対の音声データ(S1,M)、(S2,M)、(S3,M)に含まれる各音声データについて、それぞれ音素事後確率の時系列データ(Phoneme-based PosteriorGram(PPG))を求める。
そして制御部11は、各組の一方の音声データ(学習者の音声)に係るPPG(Si)と、他方の音声データ(モデル音声データ)に基づくPPG(M)とを動的時間伸縮法を用いて比較し、両者の時間対応を求める。また制御部11は、一方の音声データSiに対して音声認識処理を適用し、音素境界を検出し、得られた音素境界の時間情報を、上記の時間対応を利用して他方の音声データSSの音素境界を得る。
さらに制御部11は、各音声データの100ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の聞こえ度として、その時系列により強さ制御の状況を得るとともに、各音声データのピッチの時系列変化の情報を得る。制御部11は、また、音素境界の情報を用いて各音声データにおける母音の発音されている時間の長さの情報を得る。
制御部11は、動的時間伸縮法によって対応付けられた各音声データの互いに対応する時間(スクリプトの同じ部分に対応し、同じ発音がされているべき時間)の情報を用い、対応する部分における上記聞こえ度やピッチの相関を求め、強勢・弱勢及びイントネーションの相関の時間変化を得る。制御部11は、また、対応する母音の発音されている時間の相関の情報を求め、リズムに関係する相関を得る。
こうして制御部11は、学習者の音声データSi(i=1,2…)のそれぞれと、モデル音声データMとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関と、それらの平均とを得て、音声データSi(i=1,2…)のそれぞれと、モデル音声データMとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均を求め、シャドースコアとして表示出力する。
制御部11は、さらにフロー設定情報に従ってスクリプトシャドーイングの処理を実行する。すなわち制御部11は、選択されたモデル音声データMとそれに対応するスクリプトデータとをコーパスデータベースから読み出して、音声出力部14に当該モデル音声データMを鳴動させるとともに、表示部16にスクリプトデータの文字列を表示させる。そして制御部11は、当該モデル音声データMの鳴動時に、当該モデル音声データMを聴取しつつ、表示されたスクリプトを見て、その内容を発声する(追唱する)ように、学習者に求める。制御部11は、この求めに応じて学習者が入力する音声データSSを、記憶部12に格納する。
制御部11は、この段階で記憶部12に蓄積した学習者の音声データSi(i=1,2…)のそれぞれと、スクリプトシャドーイングで得られた学習者の音声データSSとの組について、当該組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、音声データSi(i=1,2…)のそれぞれと、音声データSSとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均を求め、聞き取りスコアとして表示出力する。
制御部11は、さらにフロー設定情報に従って第1回目のリーディングの処理を実行する。制御部11は、選択されたモデル音声データMを鳴動することなく(その波形を表す画像を提示してもよい)、スクリプトを学習者に提示して、読み上げるように求める。制御部11は、この求めに応じて学習者から入力される音声データを受け入れて、当該音声データR1を記憶部12に蓄積して格納する。
この段階で制御部11は、記憶部12に蓄積されている、スクリプトシャドーイングで得た学習者の音声データSSとモデル音声データMとの組、及び、第1回目のリーディングで得た学習者の音声データR1とモデル音声データMとの組について、これら組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、学習者の音声データSSとモデル音声データMとの間、及び学習者の音声データR1とモデル音声データMとの間の音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、平均を求め、調音制御スコアとして表示出力する。
さらに制御部11は、フロー設定情報に従って2週間のタイマーを設定し、このタイマーがタイムアップし、学習者の音声データR1を取得してから2週間を過ぎてから、再度、選択されたモデル音声データMに対応するスクリプトを学習者に提示し、読み上げるように学習者に求める(第2回目のリーディングの処理)。制御部11は、この求めに応じて学習者から入力される音声データを受け入れて、当該学習者の音声データR2を記憶部12に蓄積して格納する。
制御部11は、記憶部12に蓄積されている、音声データR2と音声データR1との組や音声データR2と音声データSSとの組について、これら組に含まれる一対の音声データを、特徴量の時系列情報に変換して比較する。この場合も上述と同様の処理により、音声データR2と音声データR1との間や、音声データR2と音声データSSとの間の音素事後確率、ピッチ、音の強さ、及び母音の長さ等についての時系列変化の局所距離や相関、平均を求める。制御部11は、これらの情報を、音韻表象スコアとして表示出力する。
ユーザは、各段階で表示出力されたシャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアを参照して、これらのスコアを向上させるように学習を続けることとなる。
[難易度順]
また本実施の形態の音声情報処理装置1では、複数のユーザ(学習者)のそれぞれに複数のモデル音声データMに基づく上記の処理を行って、モデル音声データMごとに各学習者のスコア(シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアのいずれか、またはその組み合わせ)の平均値などの統計値(中央値、最大値、最小値等でもよいし、分散や標準偏差等の情報を併せて求めてもよい)など、スコアに基づいて得られる順序が規定可能な値を演算し、モデル音声データMごとの難易度の情報として保持してもよい。
また本実施の形態の音声情報処理装置1では、複数のユーザ(学習者)のそれぞれに複数のモデル音声データMに基づく上記の処理を行って、モデル音声データMごとに各学習者のスコア(シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアのいずれか、またはその組み合わせ)の平均値などの統計値(中央値、最大値、最小値等でもよいし、分散や標準偏差等の情報を併せて求めてもよい)など、スコアに基づいて得られる順序が規定可能な値を演算し、モデル音声データMごとの難易度の情報として保持してもよい。
一例として音声情報処理装置1は、モデル音声データMごとに過去にこのモデル音声データMについて複数の学習者から得た聞き取りスコアである、音素事後確率、ピッチ、音の強さ、母音の長さ等の時系列変化の局所距離や相関、それらの平均Avの平均値(各学習者のAvの平均値)A及び当該平均Avの標準偏差sを難易度の情報として関連付けて保持しておく。
この例では、例えばある学習者から、選択したモデル音声データ(上記平均値A、標準偏差sとする)についてのスクリプトシャドーイングの音声データSSを取得し、聞き取りスコアの情報を得たときに、その平均値AvがAv-A>sであるとき(いわば学習者間の平均より有意にスコアが低いと判断されるとき)に、音声情報処理装置1は、当該選択したモデル音声データよりも平均値の低い他のモデル音声データを選択しなおして、再度最初からフローを実行してもよい。
これによると、学習者であるユーザは、自己の現在の能力に合ったモデル音声データを利用することが可能となる。
同様に、ある学習者から、選択したモデル音声データ(上記平均値A、標準偏差sとする)についてのスクリプトシャドーイングの音声データSSを取得し、聞き取りスコアの情報を得たときに、その平均値AvがA-Av>sであるとき(いわば学習者間の平均より有意にスコアが高いと判断されるとき)に、音声情報処理装置1は、当該選択したモデル音声データよりも平均値の高い他のモデル音声データを選択しなおして、再度最初からフローを実行してもよい。
[尺度予測]
音声情報処理装置1は、シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアを得るだけでなく、さらにこれらに基づいて例えば外国語学習等においてより一般的な尺度の情報を予測して出力してもよい。
音声情報処理装置1は、シャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアを得るだけでなく、さらにこれらに基づいて例えば外国語学習等においてより一般的な尺度の情報を予測して出力してもよい。
このような尺度には、流暢さ(fluency)や、明瞭性(intelligibility)、了解性(comprehensibility)、アクセント度(accentedness)等が含まれる。ここでアクセント度は、訛りの度合い、母語の訛りの度合いを意味する。音声情報処理装置1は、例えばシャドースコアや、聞き取りスコア、調音制御スコア、音韻表象スコアの加重平均等によりこれらの値を求めることとしてよい。その際の重みの値は経験的、実験的に定め得る。
[再入力]
また本実施の形態の音声情報処理装置1は、スコアの演算の基準となるスクリプトシャドーイングによる音声データSSや、リーディングの音声データRについてはユーザの要求により再度の入力を許諾してもよい。この場合は音声情報処理装置1は、新たに入力された音声データを、記憶部12に格納して、後の処理に供する。
また本実施の形態の音声情報処理装置1は、スコアの演算の基準となるスクリプトシャドーイングによる音声データSSや、リーディングの音声データRについてはユーザの要求により再度の入力を許諾してもよい。この場合は音声情報処理装置1は、新たに入力された音声データを、記憶部12に格納して、後の処理に供する。
ただし、シャドーイングによる音声データSiについては再入力を許諾しないこととするのが好ましい。
[オーバーラッピング]
さらに本実施の形態の一例では、音声情報処理装置1の制御部11は、既に説明したシャドーイングの処理や、スクリプトシャドーイングの処理、リーディングの処理に加えて、オーバーラッピングの処理を実行してもよい。
さらに本実施の形態の一例では、音声情報処理装置1の制御部11は、既に説明したシャドーイングの処理や、スクリプトシャドーイングの処理、リーディングの処理に加えて、オーバーラッピングの処理を実行してもよい。
この処理を行う音声情報処理装置1は、モデル音声データMの再生に先立ってオーバーラッピングの方法を案内する。すなわち音声情報処理装置1は、モデル音声データMの再生中に、聞き取った内容を、モデル音声データMと可能な限り重なるように発声するようユーザに求める表示を行う。その後音声情報処理装置1は、モデル音声データMの再生を開始する。音声情報処理装置1は、モデル音声データMの再生開始とともにユーザが入力した音声データを取得してオーバーラッピングの音声データLとして記憶部12に蓄積して格納する。なお、このようなオーバーラッピングのシャドーイングでは、ユーザの負担も大きくなるので、モデル音声データMが比較的長い(例えば10秒を超える)場合には、所定の時間(例えば10秒)ごとに区切ってオーバーラッピングを行わせることとしてもよい。
音声情報処理装置1は、得られた学習者であるユーザの音声データLとモデル音声データMとを比較部25の処理として比較するが、この例では音声データLとモデル音声データMとの時系列は一致しているものとして(動的時間伸縮法を用いることなく)比較することとしてもよい。
具体的に音声情報処理装置1は、学習者のオーバーラッピングの音声データLとモデル音声データMとの100ミリ秒ごとの波形振幅の絶対値の移動平均を、対応する時間の発声の相関として、その時系列により強さ制御の状況を得る。また学習者の音声データLとモデル音声データMとのピッチの時系列変化の情報を得る。そして音声情報処理装置1は、これらの学習者の音声データLとモデル音声データについて得た、互いに対応する時系列の情報を、それぞれ重ね合わせてユーザに提示する(図3)。
学習者であるユーザは、この提示された情報により、強弱の一致や、高さ制御の一致、さらにはリズムの一致の状況を知ることができ、発音の修正に役立てることが可能となる。
このオーバーラッピングの処理は、例えば上述の例のフロー設定情報において、第1回目のリーディングの後に行うこととしてもよい。これによりモデル音声データMの内容や、スクリプトを把握させた状態でオーバーラッピングを行うことが可能となる。
[サーバとしての実装例]
また本実施の形態の音声情報処理装置1は、ウェブサーバとして機能し、ネットワークを介してユーザ側の端末(音声データの入出力が可能なデバイスを備えるならば一般的なパーソナルコンピュータやタブレット、スマートフォンなどでよい)に対してモデル音声データMやスクリプトを提示し、また、ネットワークを介してユーザ側の端末からシャドーイングやスクリプトシャドーイング等の音声データを取得して記憶部12に格納してもよい。この場合、音声情報処理装置1は、ユーザを認証し、ユーザごとに音声データを区別して蓄積しておくものとし、ユーザごとにスコアの演算などの処理を行って、対応するユーザの端末に提示することとなる。
また本実施の形態の音声情報処理装置1は、ウェブサーバとして機能し、ネットワークを介してユーザ側の端末(音声データの入出力が可能なデバイスを備えるならば一般的なパーソナルコンピュータやタブレット、スマートフォンなどでよい)に対してモデル音声データMやスクリプトを提示し、また、ネットワークを介してユーザ側の端末からシャドーイングやスクリプトシャドーイング等の音声データを取得して記憶部12に格納してもよい。この場合、音声情報処理装置1は、ユーザを認証し、ユーザごとに音声データを区別して蓄積しておくものとし、ユーザごとにスコアの演算などの処理を行って、対応するユーザの端末に提示することとなる。
[その他の特徴等]
(関連技術)
音声コミュニケーションは、1)聞いて、2)語を同定し、3)内容・意図を理解し、4)返事を考え、5)話す(調音する)、という処理をほぼ同時に走らせる必要がある。この中で認知負荷の高い処理は3),4)である。母語で会話する場合1),2),5)はほぼ自動化・無意識化され、ここに労力を割くことは稀である。しかし外国語の場合、ここにも認知負荷が割かれることとなり、3),4)の処理が疎かとなる。シャドーイングは「モデル音声を聞きながら同時に復唱するタスク」であるが、1),2),5)の自動化・無意識化を目的としている。
(関連技術)
音声コミュニケーションは、1)聞いて、2)語を同定し、3)内容・意図を理解し、4)返事を考え、5)話す(調音する)、という処理をほぼ同時に走らせる必要がある。この中で認知負荷の高い処理は3),4)である。母語で会話する場合1),2),5)はほぼ自動化・無意識化され、ここに労力を割くことは稀である。しかし外国語の場合、ここにも認知負荷が割かれることとなり、3),4)の処理が疎かとなる。シャドーイングは「モデル音声を聞きながら同時に復唱するタスク」であるが、1),2),5)の自動化・無意識化を目的としている。
外国語を用いた音声コミュニケーションを円滑に行うためには、様々な基礎体力が必要である。しかし、個別の基礎体力を磨いても、それを同時進行できなければ、意味がない。シャドーイングは複合的な基礎体力トレーニングと位置づけられるが、聞き取り能力、音韻表象能力、調音制御能力など、どこに弱点があるのかは学習者によって異なる。故に、複合的なトレーニングを行いながら、各種能力のスコア化技術が求められてきた。本実施の形態ではそれを可能としている。
なお、調音制御能力のスコア化は、従来の発音評価技術そのものであるが、聞き取り能力や、音韻表象能力のスコア化は、自動化されたことはない。更に、得られた各種スコアに基づいて次課題を自動選択し、循環型・完全自動でシャドーイングを行う教材は存在しない。
(本発明の実施の形態の一例)
外国語の音声評価技術は学習者音声(例えば読み上げ音声)とモデル音声(母語話者音声)を比較し、その差異をスコア化する技術である。学習者音声に対して、a)音素事後確率、b)ピッチ、c)音の強さ、d)母音の長さなどの要素の差異をスコア化するのが一般的である。この技術をシャドーイング音声とモデル音声とに適用すれば、それは1),2),5)全体に対するスコア化となる。しかし、1),2),5)の処理別にその能力をスコア化する技術は存在しない。本発明の実施の形態の音声情報処理装置1はこれを可能にする。即ち、シャドーイング課題を通して、A)モデル音声のどこで聞き取りが崩れたのか、B)聞いた音声を(適切に)音韻表象化することができていたのか、C)適切な調音制御による発声が行われていたのか、を個別にスコア化する。本実施の形態の音声情報処理装置1によって、各学習者がどこで困難を抱えているのかが明確となり、より適切な教示を、人為的操作なく生成したり、より適した次課題を選択することが可能となる(循環型シャドーイング)。なお、発音評価技術は元来C)を目的として提案された技術であるが、本発明では、シャドーイング課題を改良しA),B)をも可能としている。
外国語の音声評価技術は学習者音声(例えば読み上げ音声)とモデル音声(母語話者音声)を比較し、その差異をスコア化する技術である。学習者音声に対して、a)音素事後確率、b)ピッチ、c)音の強さ、d)母音の長さなどの要素の差異をスコア化するのが一般的である。この技術をシャドーイング音声とモデル音声とに適用すれば、それは1),2),5)全体に対するスコア化となる。しかし、1),2),5)の処理別にその能力をスコア化する技術は存在しない。本発明の実施の形態の音声情報処理装置1はこれを可能にする。即ち、シャドーイング課題を通して、A)モデル音声のどこで聞き取りが崩れたのか、B)聞いた音声を(適切に)音韻表象化することができていたのか、C)適切な調音制御による発声が行われていたのか、を個別にスコア化する。本実施の形態の音声情報処理装置1によって、各学習者がどこで困難を抱えているのかが明確となり、より適切な教示を、人為的操作なく生成したり、より適した次課題を選択することが可能となる(循環型シャドーイング)。なお、発音評価技術は元来C)を目的として提案された技術であるが、本発明では、シャドーイング課題を改良しA),B)をも可能としている。
例えば日本人の英語学習を考えた場合、英語の聞き取りに困難を抱える場合が多い(上記A))。一般に「聞き取りテスト」は意味理解を問うことが多い。シャドーイングは1),2),5)、即ち意味理解処理以外を対象としており、本発明でいう「聞き取り」の評価は、外国語音声の聴取中に、どのような音声パターンに対して聞き取り(語の同定)の弱点があるのか、を対象としている。なお「聞き取り」の弱点を「書き取り」の精度で検討する例もあるが、これは聴取後の推測作業を許可しているため、本実施の形態における「聞き取り」とは評価の対象が異なる。音声の聴取中の表情(表情筋)、瞳孔サイズ、脳活動を計測する例もあるが、いずれも特殊な装置が必要である。本実施の形態では、シャドーイングの音声を使って計測しており、PCとイヤホン、マイクで計測が可能となり、安価に実現できる。
すなわち本実施の形態では、
A)モデル音声のどこで聞き取りが崩れたのか(以下、聞き取り)、
B)聞いた音声を(適切に)音韻表象化することができていたのか(以下、音韻表象)、
C)適切な調音制御による発声が行われていたのか(以下、調音制御)、
の各々についてスコア化することが可能となっている。
A)モデル音声のどこで聞き取りが崩れたのか(以下、聞き取り)、
B)聞いた音声を(適切に)音韻表象化することができていたのか(以下、音韻表象)、
C)適切な調音制御による発声が行われていたのか(以下、調音制御)、
の各々についてスコア化することが可能となっている。
このために準備する音源(シャドーイング用モデル音声)は、自動計測できるreadability score(RS)に基づいて、意味的な難易度別に収集されたシャドーイング用、モデル音声コーパスを用いる。モノローグでもダイアローグでもよい。意味的な難易度の各レベル(RS=1,…,5、数値が高いほど難易度が高い)ごとに実験的に十分と言える量を用意しておく。必要に応じて、英語、米語などの別に用意する。
聞き取り、音韻表象、調音制御に対するスコア化を可能とするシャドーイングタスクの設計(フローの設定)では、次の要素を組み合わせる。
S:シャドーイング(モデル音声Mのみ提示して復唱させる)
シャドーイングは複数回行われてよく、i回目のシャドーイングで取得した音声データをSiと表記する。
SS:モデル音声Mの聴覚提示、モデル音声Mが読み上げているテキストの提示を同時に行うシャドーイング(スクリプト・シャドーイング)。このスクリプトシャドーイングは、読み上げられた内容を完全に理解しながら行うシャドーイング音声に相当する。
R1:音源Mの内容(テキスト)だけを提示して読み上げさせる。音源の提示は行わない。SSの直後に行う。
R2:R1の収録後、時間をおいて(モデル音声Mの聴覚イメージが消失するに十分な時間、数週間おいて)テキストだけを提示して読み上げを行わせる。音源の提示は行わない。
S:シャドーイング(モデル音声Mのみ提示して復唱させる)
シャドーイングは複数回行われてよく、i回目のシャドーイングで取得した音声データをSiと表記する。
SS:モデル音声Mの聴覚提示、モデル音声Mが読み上げているテキストの提示を同時に行うシャドーイング(スクリプト・シャドーイング)。このスクリプトシャドーイングは、読み上げられた内容を完全に理解しながら行うシャドーイング音声に相当する。
R1:音源Mの内容(テキスト)だけを提示して読み上げさせる。音源の提示は行わない。SSの直後に行う。
R2:R1の収録後、時間をおいて(モデル音声Mの聴覚イメージが消失するに十分な時間、数週間おいて)テキストだけを提示して読み上げを行わせる。音源の提示は行わない。
一例として、複数回S1,S2…を行い、その後SS,R1を行い、数週間後に、R2を行う(各タスクの回数や実施間隔は適宜調整してよい)。これを1セッションとする。S1,S2…は音源Mのみ提示、SSは音源Mとテキスト提示、R1,R2はテキスト提示のみである。
これら音声素材を使って提示音声Mに対する当該学習者の、A)聞き取り、B)音韻表象、C)調音制御に対するスコアを個別に導出する。比較する一対の発声xと発声yとを時系列として対応づけ、両者の違いを「ズレの時系列」として求める。Dynamic Time Warping(DTW)を用いる。このDTWは広く知られた技術であるので、その詳細な説明は省略する。ズレの様子を|x-y|と表記する。このズレは時系列の情報であるため、その平均値も計算しておく。|x-y|の具体的な計算手順は後述するが、a)音素事後確率、b)ピッチ、c)音の強さ、d)母音の長さの各々について「ズレの時系列」を計算できるため、|x-y|は4種類求められることとなる。図4は、一例としてS1とSSとの時間的な対応付けの例を表す概略説明図である。
次に、各種要素スコアの計算について説明する。
・聞き取り能力のスコア化(A)
完全に内容を理解しながら行うシャドーイング音声がSS(学習者故の癖、訛りは存在)であるので、Si(i=1,2,…)のそれぞれをSSと比較すれば、調音制御の不備を無視した「聞き取りの崩れ」が時系列として得られる。
|S1-SS|,|S2-SS|,|S3-SS|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さ(リズムに関係する)のそれぞれについて、時系列データと、平均とを求める)
完全に内容を理解しながら行うシャドーイング音声がSS(学習者故の癖、訛りは存在)であるので、Si(i=1,2,…)のそれぞれをSSと比較すれば、調音制御の不備を無視した「聞き取りの崩れ」が時系列として得られる。
|S1-SS|,|S2-SS|,|S3-SS|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さ(リズムに関係する)のそれぞれについて、時系列データと、平均とを求める)
・調音制御能力のスコア化(C)
完全に内容を理解しながら行うシャドーイング音声SSや、その直後に収録した読み上げ音声R1を、Mと比較する。この場合、内容を把握し、かつ、Mの流暢な英語音声の心的イメージ(音韻表象)を使って発声を試みることになるが、それを声として実現するに十分な調音制御ができているのか、がスコア化対象である(外国語訛りの強さの定量化)。従来の発音評価技術を適用してよい。
|SS-M|,|R1-M|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
完全に内容を理解しながら行うシャドーイング音声SSや、その直後に収録した読み上げ音声R1を、Mと比較する。この場合、内容を把握し、かつ、Mの流暢な英語音声の心的イメージ(音韻表象)を使って発声を試みることになるが、それを声として実現するに十分な調音制御ができているのか、がスコア化対象である(外国語訛りの強さの定量化)。従来の発音評価技術を適用してよい。
|SS-M|,|R1-M|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
・音韻表象能力のスコア化(B)
音韻表象とは「音声を聞いた時や、テキストを見た時に心的に形成される音声イメージ(内的音声)」であり、直接的には観測できない。英語テキストを流暢に読み上げるには、テキストを見ることで(流暢な)音韻表象が心的に形成される必要がある。S1,S2,S3,SSと、Mを聴取した直後の読み上げR1とは「Mによる(流暢な)音韻表象(1)」に基づいて行われ、一方、十分な時間を置いた読み上げR2は「学習者自身の音韻表象(2)」に基づいた発声となる。この両者の差異|R2-R1|を、(2)学習者自身の音韻表象が、どのくらい(1)Mによる(流暢な)音韻表象に近いのか、に相当するスコアと解釈する。R1とSSとは非常に類似した発声となると期待できるため、|R2-SS|も評価に含める。
|R2-R1|,|R2-SS|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
母語話者であれば、|R2-R1|,|R2-SS|は極めて小さくなるが、学習者では|R2-R1|,|R2-SS|は無視できない大きさとなると考えられる。
音韻表象とは「音声を聞いた時や、テキストを見た時に心的に形成される音声イメージ(内的音声)」であり、直接的には観測できない。英語テキストを流暢に読み上げるには、テキストを見ることで(流暢な)音韻表象が心的に形成される必要がある。S1,S2,S3,SSと、Mを聴取した直後の読み上げR1とは「Mによる(流暢な)音韻表象(1)」に基づいて行われ、一方、十分な時間を置いた読み上げR2は「学習者自身の音韻表象(2)」に基づいた発声となる。この両者の差異|R2-R1|を、(2)学習者自身の音韻表象が、どのくらい(1)Mによる(流暢な)音韻表象に近いのか、に相当するスコアと解釈する。R1とSSとは非常に類似した発声となると期待できるため、|R2-SS|も評価に含める。
|R2-R1|,|R2-SS|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
母語話者であれば、|R2-R1|,|R2-SS|は極めて小さくなるが、学習者では|R2-R1|,|R2-SS|は無視できない大きさとなると考えられる。
また、[|R2-M|-|R1-M|]や[|R2-M|-|SS-M|]を得てもよい。この例では、R2とMとのズレが、R1やSSとMのズレと比べて、どれだけ大きいのかを評価することとなり、音韻表象能力を表すものとなる。
・さらに本実施の形態の音声情報処理装置1は、シャドーイング能力の総括的なスコア化を行ってもよい。
すなわち、テキストを提示しないシャドーイング(S1,S2…)とMとのズレはシャドーイング全体の能力をスコア化することになる(従来のシャドーイング音声評価技術はこれに相当する)。そこで、次のズレを求める。
|S1-M|,|S2-M|,|S3-M|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
すなわち、テキストを提示しないシャドーイング(S1,S2…)とMとのズレはシャドーイング全体の能力をスコア化することになる(従来のシャドーイング音声評価技術はこれに相当する)。そこで、次のズレを求める。
|S1-M|,|S2-M|,|S3-M|
(音素事後確率、ピッチ、音の強さ(強弱勢)、母音の長さのそれぞれについて、時系列データと、平均とを求める)
次に、2つの発話間のズレ|x-y|の定量化のための処理について説明する。本実施の形態では、二つの発声x,yを特徴量時系列に変換し、両者を時系列として比較する。特徴量としては、例えば、音素事後確率(Phoneme Posterior Probability)を用いる。この例では、その時系列は、Phoneme-based PosteriorGram (PPG)となる。このPPG(x), PPG(y)をDynamic Time Warping(DTW)で比較すれば、図4に例示したように、両者の時間対応をとることができる。さらに、x,yのいずれかの発声に対して音声認識技術を用いて音素境界を検出すれば、得られた時間対応を利用して、音素境界情報を他方へ転写することもできる。この時間対応(DTW path)には、対応する音声フレーム対の局所距離が計算されており、DTW path は「ズレの時系列」として解釈できる。これが音素生成における(即ち、調音制御における)x,yのズレの時系列である。当然、音素単位でズレを平均し、音素数で正規化すれば1音素当たりのズレが計算できる(phoneme-based DTW, pDTWスコアとなる)。
音素生成(調音制御)に基づく発声x,yの対応付けが求まれば、x,yに対して計算した両者のイントネーション(ピッチの時系列変化)パターン、強弱勢(パワー)パターンを、各々対応づけることができ、両者の相関係数(類似度に相当)をイントネーション、強弱勢に対して計算できる。またx,y中の母音対に対して、その長さを計測すれば、長さにおける両者の相関係数(リズムの類似性)も計算できる。このようにして、2つの発声x,yに対して、a)音素事後確率、b)ピッチ、c)音の強さ、d)母音の長さの4つの要素の差異を時系列として計測でき、その平均値も計算できる。なお、この差異の計算自体は、広く知られた技術の組み合わせにより実現できるものである。
本実施の形態において特徴的なことの一つは、A)聞き取り、B)音韻表象、C)調音制御を個別にスコア化するために、発声タスクを設計し直したうえで、この差異の計算を行うこと、並びに、それを用いて循環型・学習者適応型の教材(システム)を実現した点にある。
さらに本実施の形態では、学習者適応型の次課題の選択処理を実行してもよい。日本人の英語学習においては、聞き取りに大きな弱点があるのは周知の事実である。「聞き取り能力のスコア化(A)」で示したスコア化ができれば、当該学習者がどのような音声パターン(音素連鎖、韻律パターン)に対して聞き取りが弱くなるのか、その傾向をモデル化する。これを使い、用意されているシャドーイング音源コーパスを、当該学習者にとって聞き取り易い順に並び替えることができる。なお、聞き取り易さは意味内容にも依存するが、readability score的に等価な音源セットに対して、並び替え操作を行う。次課題として学習者に提示する音源は、当該学習者のレベルに応じて、適応的に行う。
なお、調音制御/音韻表象スコアに基づいた次課題選択も同様に実現可能である。実施の形態である「外国語音声の知覚と調音に関する多角的評価のための循環型シャドーイング教材」の全体の概略の一例を図5に示す。
本実施の形態の音声情報処理装置1を用いて、42日間続けて、20名の学習者に対して設定したフローを実行しつつ、X=S1,S2,S3,R1またはR2としたときのPPG-DTW(X,SS)(以下|X-SS|と表記する。つまりスクリプトシャドーイングと他のシャドーイングないしリーディングとのPPGのズレの時系列)を調べた。
この結果は、スクリプトを理解しながら行われるスクリプトシャドーイングの結果SSに対して、例えばスクリプトを理解する前に行われるシャドーイングの結果S1を比較したもので、学習者の聞き取りの崩れを表すものとなる。
この結果、初日(D=1)での|S1-SS|ではズレの時系列の平均が1.41であったものが、23日目(D=23)では、ズレの時系列の平均が1.09まで減少し、学習の効果が顕著であることが確認された。
1 音声情報処理装置、11 制御部、12 記憶部、13 操作部、14 音声出力部、15 音声入力部、16 表示部、17 通信部、21 フロー実行部、22 シャドーイング処理部、23 スクリプトシャドーイング処理部、24 リーディング処理部、25 比較部、26 スコアリング部。
Claims (6)
- スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続され、
予め定められたフローに従って、
前記モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、
前記モデル音声データを前記対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、
を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、
前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、
を含み、当該特徴量の相関ないしその統計値の少なくとも一方を提示する音声情報処理装置。 - 請求項1記載の音声情報処理装置であって、
前記比較手段は、前記所定の特徴量として、前記音声データを、当該音声データの強勢・弱勢に係る特徴量、ピッチに係る特徴量、音素に係る特徴量、リズムに係る特徴量の少なくとも一つの特徴量の時系列データに変換する音声情報処理装置。 - 請求項1記載の音声情報処理装置であって、
前記フロー実行手段は、前記スクリプトシャドーイング処理の後に実行され、前記モデル音声データに対応するスクリプトを提示して、ユーザから当該スクリプトを読み上げる音声データの入力を受け入れて記憶するリーディング処理を、さらに少なくとも一度実行する音声情報処理装置。 - 請求項3に記載の音声情報処理装置であって、
前記フロー実行手段は、少なくとも所定の期間をおいて、複数回のリーディング処理を実行する音声情報処理装置。 - 請求項1に記載の音声情報処理装置であって、
前記コーパスデータベースは、スクリプトと、当該スクリプトを読み上げたモデル音声データとを互いに関連付けた組を複数保持し、
前記比較手段が、前記フロー実行手段がシャドーイング処理にて記憶した音声データと、スクリプトシャドーイング処理にて記憶した音声データとの一対の音声データについて、前記対応する時点での特徴量の相関、ないしその統計値を聞き取りスコアとして得て、当該聞き取りスコアを参照して、前記コーパスデータベースが保持するモデル音声データのうちから次に提示するべきモデル音声データを選択する音声情報処理装置。 - スクリプトと、当該スクリプトを読み上げたモデル音声データとを関連付けて保持するコーパスデータベースにアクセス可能に接続されるコンピュータを、
予め定められたフローに従って、
前記モデル音声データを提示して、対応する音声データの入力をユーザから受け入れて記憶するシャドーイング処理と、
前記モデル音声データを前記対応するスクリプトとともに提示して、対応する音声データの入力をユーザから受け入れて記憶するスクリプトシャドーイング処理と、
を少なくとも一つずつ含む処理を順次実行するフロー実行手段と、
前記モデル音声データと、前記フロー実行手段が記憶した音声データとのうちから選択される一対の音声データについて、それぞれの音声データを、所定の特徴量の時系列データに変換し、各音声データにおいてスクリプトの同じ部分に対応すると推定される時系列上の位置を互いに一致させて、対応する時点での前記特徴量の相関、ないしその統計値を演算する比較手段と、
として機能させ、当該特徴量の相関ないしその統計値の少なくとも一方を提示させるプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163235683P | 2021-08-21 | 2021-08-21 | |
US63/235,683 | 2021-08-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023029751A true JP2023029751A (ja) | 2023-03-06 |
Family
ID=85413603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022131253A Pending JP2023029751A (ja) | 2021-08-21 | 2022-08-19 | 音声情報処理装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023029751A (ja) |
-
2022
- 2022-08-19 JP JP2022131253A patent/JP2023029751A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kartushina et al. | The effect of phonetic production training with visual feedback on the perception and production of foreign speech sounds | |
US20030182111A1 (en) | Speech training method with color instruction | |
US20180137778A1 (en) | Language learning system, language learning support server, and computer program product | |
JPS63157184A (ja) | 発音訓練装置 | |
JP2002040926A (ja) | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 | |
WO2021074721A2 (en) | System for automatic assessment of fluency in spoken language and a method thereof | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
JP4587854B2 (ja) | 感情解析装置、感情解析プログラム、プログラム格納媒体 | |
JP6729923B1 (ja) | 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法 | |
Niebuhr et al. | Virtual reality as a digital learning tool in entrepreneurship: How virtual environments help entrepreneurs give more charismatic investor pitches | |
JP3701850B2 (ja) | 音声言語の韻律表示装置および記録媒体 | |
Hinterleitner | Quality of Synthetic Speech | |
Kabashima et al. | Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
KR20070103095A (ko) | 주파수 대역폭을 이용한 영어 학습 방법 | |
JP2023029751A (ja) | 音声情報処理装置、及びプログラム | |
Scarborough et al. | Out of sight, out of mind: The influence of communicative load and phonological neighborhood density on phonetic variation in real listener-directed speech | |
Marcoux et al. | Acoustic characteristics of non-native Lombard speech in the DELNN corpus | |
Babel | Selective vowel imitation in spontaneous phonetic accommodation | |
JP2001051580A (ja) | 音声学習装置 | |
JP2001051587A (ja) | 外国語学習装置、外国語学習方法、及び外国語学習用プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007071904A (ja) | 地域別発音学習支援装置 | |
Kawai et al. | A system for learning the pronunciation of Japanese Pitch Accent | |
JPS616732A (ja) | 発声訓練装置 |