JP2005308992A - 学習支援システム - Google Patents

学習支援システム Download PDF

Info

Publication number
JP2005308992A
JP2005308992A JP2004124399A JP2004124399A JP2005308992A JP 2005308992 A JP2005308992 A JP 2005308992A JP 2004124399 A JP2004124399 A JP 2004124399A JP 2004124399 A JP2004124399 A JP 2004124399A JP 2005308992 A JP2005308992 A JP 2005308992A
Authority
JP
Japan
Prior art keywords
pitch
voice
noise
short
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004124399A
Other languages
English (en)
Inventor
Etsuko Ebara
枝津子 江原
Yasuo Yomogida
康雄 蓬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004124399A priority Critical patent/JP2005308992A/ja
Publication of JP2005308992A publication Critical patent/JP2005308992A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】 正確なピッチ波形をリアルタイムに表示することのできる学習支援システムを提供する。
【解決手段】 音声抽出演算処理部102は、学習者または教材の音声からピッチを抽出する。音声抽出演算処理部102は、ピッチ抽出のとき、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去する。また、音声抽出演算処理部102は、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する。さらに、音声抽出演算処理部102は、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する。
【選択図】 図1

Description

本発明は、音声からピッチ波形を抽出して表示する機能を備えた学習支援システムに関する。
従来より、マルチメディア技術を応用した語学学習用の学習支援システムが提案されている(例えば特許文献1)。従来の学習支援システムは、視覚的に教材の音声と学習者の音声を比較するための便利な機能として、音圧波形およびピッチ波形の表示機能を備えている。この場合、教材の音声から音圧波形およびピッチ波形が抽出される。学習者の入力音声からも音圧波形およびピッチ波形が抽出される。これらの波形が、学習者の操作に従って画面に表示される。
ここでは、ピッチ波形の表示機能に着目する。音声中のピッチは、主に発話のイントネーションに関する情報を持っており、FFTまたは自己相関処理のなどの解析技術によって抽出される。ピッチ抽出技術は例えば特許文献2に開示されている。
特開2002−23613号公報(第3−4ページ、図1) 特開平6−282296号公報(第3−5ページ、図17)
しかしながら、従来の学習支援システムにおいては、既に録音された音声ファイルからのピッチ波形表示は可能であっても、以下に説明するように、リアルタイムなピッチ波形表示は困難であった。
リアルタイムに音声信号からピッチ波形を抽出して、表示したとする。この場合、学習環境における周囲雑音が音声に混じってしまう。そのため、本来のピッチではないデータが、高い確率でピッチ波形に混在する。
また、市販教材などでは、ある場面を想定した状況での会話が使われており、場面を想定しやすいように周囲雑音が意図的に加えられている。このような雑音も、音声に混じってしまい、ピッチ波形に表れてしまう。
さらに、音声が本来もっているゆらぎとピッチ抽出アルゴリズム(FFT等)の精度の限界に起因して、ピッチの誤検出が生じる。具体的には、倍音(ダブルピッチ)および半音(半ピッチ)を誤検出する可能性が高い。この精度の限界は、音声ファイルからのピッチ抽出のように音声処理時間に制限がなければ、パラメータの変更によって改善可能である。しかし、リアルタイム処理では、発声からピッチ表示までの遅れを抑える必要があり、精度の向上には限界がある。
上記のように、リアルタイムにピッチ波形を表示しようとすると、ノイズの影響があり、また、ピッチ抽出の精度の限界があるために、ピッチ波形の正確さを保つのが容易ではない。ユーザは、ピッチ波形表示をみても、どの部分が真実で、どの部分が間違いかを容易に判別できず、間違った結果を用いて学習する可能性がある。そのため、従来は、リアルタイムなピッチ波形表示は困難であった。そして、学習者は、発声中にピッチ波形をみて、教材に自分の声を合わせる、といった臨場感のある学習も困難であった。
本発明は、上記課題を解決するためになされたもので、その目的は、リアルタイムに正確なピッチ波形を表示することのできる学習支援システムを提供することにある。
本発明の学習支援システムは、音声からピッチを抽出するピッチ抽出手段と、前記ピッチ抽出手段に設けられ、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するノイズピッチ除去手段と、前記ノイズピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段とを備えている。
この構成により、ノイズピッチを除去するノイズピッチ除去手段を設けたので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。
また、本発明の学習支援システムは、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段を備えている。
この構成により、表示対象の音声に含まれないと考えられる短音のピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。
また、本発明の学習支援システムは、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段を備えている。
この構成により、表示対象の音声に含まれないと考えられる急変動ピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。
また、本発明の学習支援システムにおいて、前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去する。この構成により、ピッチ波形の精度のさらなる向上が図れる。
また、本発明の学習支援システムにおいて、前記急変動ピッチ除去手段は、各時点までのピッチに対して、直近のピッチを重くする重み付けを行った重付け平均ピッチを基準に各時点のピッチが急変動ピッチであるか否かを判定する。この構成により、ピッチの平均と直近のピッチの両方を考慮して、急変動ピッチを精度よく検出および除去できる。
また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。
また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。
また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップと、前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。
また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させる。この構成によっても、上述した本発明の利点が得られる。
また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させさせる。この構成によっても、上述した本発明の利点が得られる。
また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させる。この構成によっても、上述した本発明の利点が得られる。
本発明は、表示対象の音声に対応しないと考えられるピッチを除去することにより、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上できるという効果を有する学習支援システムを提供することができるものである。
以下、本発明の実施の形態の学習支援システムについて、図面を用いて説明する。
本発明の実施の形態の学習支援システムを図1に示す。以下の説明では、教材の音声の波形を教材波形といい、学習者の音声の波形を学習者波形という。波形としては、ピッチ波形と音圧波形が用いられる。また、教材と学習者の波形を比較する画像を波形比較画像という。
図1において、学習支援システム1は、学習者端末10とサーバ端末20を備え、これらはネットワークで接続されている。図示されないが、同様の構成を有する複数の学習者端末10がネットワークに接続されている。学習者端末10およびサーバ端末20はコンピュータで構成され、各端末の処理機能は、コンピュータにインストールされたプログラムをCPUが実行することによって実現される。ネットワークは、学校内等のLANでもよく、また、インターネットでもよい。本システムをWeb上で稼働することで、e−learning上で、発音矯正可能なシステムを実現できる。
また、図示されないが、サーバ端末20を制御する先生用の端末もネットワークに接続されている。先生用の端末が設けられず、サーバ端末20が直接先生によって操作されてもよい。
図1に示すように、学習者端末10は、音声入出力部101、音声抽出演算処理部102、波形表示処理部103、表示部104、認証処理部105、音声関連情報記憶部106、音圧計算処理部107、音声教材データ記憶部108、学習者音声記録部109および操作部110で構成されている。
音声入出力部101は、ヘッドホンおよびマイクで構成されており、教材や学習者の音声を出力し、かつ、学習者の音声を入力する機能をもつ。
音声抽出演算処理部102は、音声からピッチを抽出する演算機能を有すると共に、音声教材データ記憶部108、音声関連情報記憶部106および学習者音声記録部109に関するデータ入出力の制御機能をもつ。ピッチ抽出演算機能は、FFTの処理を行うように構成されている。ピッチは、教材音声と学習者音声の両方から抽出される。また、音声抽出演算処理部102は、教材や学習者の音声を音声入出力部101のヘッドホンに供給し、音声入出力部101のマイクに入力された学習者音声を取得する。ここで、ピッチ抽出演算機能としては、FFT処理ではなく自己相関などにより求めてもよい。
音圧計算処理部107は、音声抽出演算処理部102から供給された音声データから音圧を算出する。音圧も教材音声と学習者音声の両方から算出される。波形表示処理部103は、ピッチ波形および音圧波形を表示するための処理を行う。波形表示処理部103は、音声抽出演算処理部102から供給されるピッチを用いて、ピッチ波形の画像を生成し、また、音圧計算処理部107から供給される音圧を用いて、音圧波形の画像を生成する。ピッチ波形および音圧波形は表示部104に表示される。表示部104は、ディスプレイで構成されている。
また、音声教材データ記憶部108には、音声教材データが格納されている。音声教材データは、サーバ端末20の音声教材データ記憶部204から学習者端末10に供給され、音声抽出演算処理部102によって音声教材データ記憶部108に格納される。また、学習者音声記録部109には、音声入出力部101に入力された学習者音声が、音声ファイルのかたちで格納される。
また、音声関連情報記憶部106には、学習者の過去の学習で得られた情報(以下、音声関連情報という)が記憶される。音声関連情報には、「音圧(音声の強度)」、「ピッチ検出値(平均値、最高値、最低値)」、「母音および子音の周波数特性」、「マイク入力レベル」、「学習評価結果」などが含まれる。これらは、学習者ごとの情報であり、使用環境にも依存した情報である。学習評価結果は、教材波形と学習者波形の差分の計測値の情報である。音声関連情報は、下記の認証処理部105を介してサーバ端末20から入手され、音声抽出演算処理部102により音声関連情報記憶部106に書き込まれる。そして、学習者端末10を使った学習を反映するように、音声関連情報が音声抽出演算処理部102により更新される。
認証処理部105は、認証要求をサーバ端末20の認証処理部201に送り、サーバ端末20から認証結果を受信する。そして、認証処理部105は、認証対象の学習者の音声関連情報をサーバ端末20から入手し、音声抽出演算処理部102に供給する。
また、操作部110は、キーボード、マウス等のデバイスで構成されており、学習者の各種の操作を入力する。学習者の指示は、操作部110から入力され、関連する処理部へと伝えられる。
前述したように、学習者端末10は、コンピュータで構成されている。そして、上記の各種処理部を実現するプログラムが用意され、それらプログラムがコンピュータにインストールされている。そして、CPUがメモリ等の構成を用いてプログラムを実行し、これにより学習者端末10が実現される。
サーバ端末20は、図示のように、認証処理部201、音声関連情報データベース202、学習者情報データベース203および音声教材データベース204を備えている。音声教材データベース204には、各種の音声教材が格納されている。音声教材は、ネットワークを経由して学習者端末10に配信される。
学習者情報データベース203には、各学習者の情報が格納されており、学習者の情報は、氏名、番号、認証のためのIDおよびパスワードを含んでいる。さらに、学習者情報データベース203は、各学習者の出席情報および学習履歴情報を記憶している。また、音声関連情報データベース202には、各学習者の音声関連情報が格納されている。音声関連情報の内容は、学習者端末10の音声関連情報記憶部106に関連して説明した通りである。
認証処理部201は、学習者端末10から認証要求を受信し、認証処理を行い、認証結果を学習者端末10に送信する。認証が成功したとき、認証処理部201は、音声関連情報データベース202および学習者情報データベース203に格納された情報を学習者端末10に提供する。
サーバ端末20も、前述したように、コンピュータで構成されている。そして、認証処理部201および他の情報提供機能を実現するプログラムが用意され、それらプログラムがコンピュータにインストールされている。そして、CPUがメモリ等の構成を用いてプログラムを実行し、これによりサーバ端末20が実現される。
学習支援システム1の全体的な動作の例について説明すると、図2に示すように、システム起動時は、認証処理が行われる。ID、パスワード等の情報が操作部110に入力されると、認証処理部105からサーバ端末20の認証処理部201に認証要求が送られる(S10)。認証処理部201は、学習者情報データベース203を参照して認証処理を行い、認証結果を学習者端末10の認証処理部105へ通知する(S12)。
認証が成功すると、サーバ端末20の認証処理部201は、音声関連情報データベース202に記憶された音声関連情報を、学習者端末10の認証処理部105へ送信する(S14)。ここでは、認証対象になった学習者の情報が送られる。そして、音声抽出演算処理部102が認証処理部105から音声関連情報のデータを取得して、音声関連情報記憶部106に保存する(S16)。さらに、音声抽出演算処理部102は、音声関連情報記憶部106から音声関連情報を読み出す。読み出された情報は、学習者端末10での処理に必要に応じて利用される。
認証処理後の学習時の動作例としては、サーバ端末20が、音声教材データベース204に記憶された音声教材データを読み出して、学習者端末10に供給する。音声教材データは、音声抽出演算処理部102により音声教材データ記憶部108に記憶される。音声抽出演算処理部102は、音声教材データ記憶部108または音声教材データベース204から得た教材の音声を音声入出力部101に供給する。
教材音声が音声入出力部101から出力され、そして、学習者音声が音声入出力部101に入力され、音声抽出演算処理部102に供給される。音声抽出演算処理部102は、学習者音声を学習者音声記録部109に保存する。また、音声抽出演算処理部102は、学習者音声からピッチを抽出する。また、音声抽出演算処理部102は、教材音声からもピッチを抽出する。抽出されたピッチは、波形表示処理部103に送られる。
波形表示処理部103では、ピッチ波形の画像が生成される。このとき、教材と学習者のピッチ波形を一画面に表示する波形比較画像が生成される。そして、ピッチ波形比較画像が表示部104に表示される。
また、教材および学習者の音声データは、音声抽出演算処理部102から音圧計算処理部107に供給される。音圧計算処理部107では、音声から音圧が計算される。音圧の情報も波形表示処理部103に送られ、そして、波形表示処理部103では音圧波形の画像が生成される。ピッチ波形と同様に、教材と学習者の音圧波形を一画面に表示する波形比較画像が生成される。音圧波形比較画像も表示部104に表示される。
システム終了時の処理としては、図3に示すように、音声抽出演算処理部102が、音声関連情報記憶部106から音声関連情報を読み出し、認証処理部105へ供給する(S20)。音声関連情報は、認証処理部105からサーバ端末20の認証処理部201へ送られる(S22)。そして、認証処理部201が、音声関連情報データベース202に音声関連情報のデータを保存する。
以上のように、学習支援システム1では、音圧およびピッチについて、教材および学習者の波形を比較する波形比較画像が表示される。これにより、学習者は、教材と自分の発音の違いを視覚的に認識しながら、発音を矯正することができ、そして、ネイティブスピーカに近い発話技術を獲得することができる。
また、学習支援システム1では、複数の学習者の音声関連情報がサーバ端末20に一括保存される。そして、音声関連情報は、認証機能と連動して、学習者端末10に提供される。すなわち、ログイン時に、ログインを行った学習者の音声関連情報が、学習者端末10にダウンロードされる。学習者端末10では音声関連情報が使用される。音声関連情報は例えば上記の波形表示に使われる。そして、ログアウト時には音声関連情報が更新される。例えば、今回の学習の音声関連情報と、過去の学習の音声関連情報とが比較され、差分が求められる。この差分の情報が、サーバ端末20にアップロードされ、保存される。
したがって、学習者は、どの学習者端末10で学習をするときでも、自分の音声関連情報を利用した学習ができる。学習者ごとの特性に応じた機器設定作業を少なくできる。また、音声関連情報を更新していくので、より正確な音声波形表示へと音声関連情報が寄与できる。
この点に関し、従来システムでも、学習者の音声特性に合わせた波形を表示するためのパラメータ設定機能が備えられている。しかし、どのパラメータをどのように設定すると、学習者自身の特性に合った適切な波形を表示できるかは、学習者には分かり難い。また、仮にパラメータを適切に設定できたとしても、その日に使う学習者端末10が変わるたびにパラメータの再設定するという煩雑な作業が求められる。これに対して、本実施の形態では、学習者関連情報がデータベースに一括保存され、学習者端末10にダウンロードされる。学習者関連情報を使って学習者に適した端末機能の設定が可能になり、また、どの学習者端末10を使うときでも学習者関連情報を反映できる。
図4は、波形表示処理部103を示している。データ蓄積処理部1031は、音声抽出演算処理部102から教材および学習者のピッチ波形の情報を取得する。また、データ蓄積処理部1031は、音圧計算処理部107から教材および学習者の音圧波形の情報を取得する。ピッチ波形および音圧波形の情報は、メモリ1035に書き込まれる。また、データ蓄積処理部1031は、音圧、ピッチ帯域に加えて、母音の周波数特性、マイク入力レベルといった情報を取得し、メモリ1035に書き込む。
波形表示処理部103は、メモリ1035を使用し、データ蓄積処理部1031が取得したピッチ波形および音圧波形の情報を基に、前述したように、表示部104に表示されるべき波形画像を生成する。波形表示処理部103において、ピッチ抽出波形描画位置処理部1032は、ピッチ波形(ピッチ抽出波形)の描画位置を設定および調整する処理を行う。音圧波形描画位置処理部1033は、音圧波形の描画位置を設定および調整する処理を行う。時間軸波形描画位置処理部1034は、ピッチ波形および音圧波形の時間軸方向の描画位置を設定および調整する処理を行う。これら処理部により、ピッチ波形および音圧波形は、波形高さ方向および時間軸方向に変形される。
また、波形表示処理部103は、学習者により操作部110に入力された可変速再生設定パラメータを受け付ける。可変速再生設定パラメータは、教材の可変速再生モードでの再生速度を表すパラメータである。これにより、教材の再生速度の変更が受け付けられる。可変速再生設定パラメータは、メモリ1035に書き込まれる。
図5は、音声抽出演算処理部102の構成を示している。音声抽出演算処理部102は、既に説明したように、音声入出力部101または学習者音声記録部109から学習者音声を取得し、また、音声教材データ記憶部108および音声教材データベース204から教材音声を取得する。
音声抽出演算処理部102において、A/D変換部1021は、入力音声をデジタルデータに変換する。ピッチ抽出処理部1022は、音声データにFFTの解析処理を施してピッチ波形の情報を抽出する。ピッチはステップ単位で抽出される。1ステップの時間の長さは予め設定されている。平均化処理部1023は、ピッチ波形に平均化処理を施し、ピッチ波形をなめらかにする。さらに、継続時間カウント処理部1024は、ピッチの継続時間をカウントする。ここでは、ピッチが継続するときのステップの数がカウントされる。
A/D変換部1021で変換された音声データは、音圧計算処理部107および音声再生処理部1025にも供給される。音圧計算処理部107では、前述したように、音圧が計算される。また、音声再生処理部1025は、音声を再生する処理を行う。再生された音声は、音声再生処理部1025から音声入出力部101に供給される。
また、音声再生処理部1025には、音声抽出演算処理部102から可変速再生設定パラメータが供給される。この可変速再生設定パラメータは、操作部110から音声抽出演算処理部102を介して波形表示処理部103に供給されている。音声再生処理部1025は、可変速再生設定パラメータが示す再生速度に従って再生音声の速度を調整する。これによって、可変速再生パラメータが示す再生速度で音声が再生される。
以上に、音声抽出演算処理部102および波形表示処理部103について説明した。次に、本実施の形態のピッチ波形処理に関する特徴的構成について説明する。
本実施の形態の学習支援システム1は、リアルタイムでピッチ波形を表示可能に構成されている。すなわち、学習者が発声を開始し、音声入力が開始すると、音声抽出演算処理部102もピッチの抽出を開始する。ピッチはステップ単位で抽出される。1ステップの長さは10msecである。各ステップのピッチが順次波形表示処理部103に供給される。波形表示処理部103では、入力されるピッチが、次々と、ピッチ波形画像に継ぎ足される。このようにして、学習者の音声の進行と同時に、画面上ではピッチ波形が延びていく。リアルタイム表示により、視覚的フィードバック効果を高められる。そして、視覚的フィードバックが聴覚フィードバックを補強し、これによる学習のモチベーションの向上と学習効果の向上が期待できる。
ところが、リアルタイムなピッチ表示を行う場合、音声ファイルからのピッチ表示と比べて、処理時間が制限されてしまい、ピッチ波形の精度が低下してしまう。そこで、本実施の形態では、下記のように、発声者の声ではないと考えられる部分のピッチを除去する処理によって、リアルタイム表示を行う場合でも、ピッチ波形の精度を向上する。本実施の形態では、下記のように、(1)ノイズピッチ、(2)短音ピッチ、(3)急変動ピッチが除去される。
(1)ノイズピッチの除去
学習者音声には、学習環境における周囲雑音が混じってしまう。また、市販教材などでは、ある場面を想定した状況での会話が使われており、場面を想定しやすいように周囲雑音が意図的に加えられている。このような雑音から抽出されるピッチを、以下、ノイズピッチという。本実施の形態では、下記のように、ノイズピッチを除去するために、音声に混入するノイズの音圧レベルに応じてノイズしきい音圧が設定される。そして、ノイズしきい以下の音声から得られるノイズピッチが除去され、この処理を経たピッチ抽出波形が表示される。ノイズピッチの除去は、音声抽出演算処理部102のピッチ抽出処理部1022によって、ピッチ抽出時に行われる。
図6は、ノイズしきい音圧設定画面50を示している。この設定画面50は、学習者端末10により表示部104に表示される。ノイズしきい音圧設定画面50には、教材または録音音声の音圧波形52が表示される。例えば、テスト用の録音が行われ、録音音声から音圧波形画像が生成される。学習者は、操作部110を操作して、音圧波形52の横に設けられた画像上の操作レバーを上下に動かし、ノイズしきい音圧54を指定する。このノイズしきい音圧54が、操作部110に入力され、音声抽出演算処理部102に供給され、ピッチ抽出処理部1022に受け付けられる。
ピッチ抽出処理部1022は、ノイズしきい音圧を、ピッチ抽出時の有音/無音判定のしきい値に反映する。すなわち、ピッチ抽出処理部1022は、各ステップ(10msec)でパワースペクトラムを算出し、ピーク構造を持つ周波数のうち一番低い周波数をピッチとして抽出する。このとき、ノイズしきい音圧より算出されたパワー以下のピーク構造は、処理対象から削除される。これにより、ピッチ抽出処理部1022で抽出されるピッチからノイズピッチが除去される。
図7は、ノイズピッチの除去処理の例を示している。図7の上段は、本実施の形態のノイズピッチ除去が適用されないときの学習者音声のピッチ波形である。本実施の形態では、元々、人間の音声を考慮して80kHz〜500kHzの音声が処理されている。しかし、この帯域内でも、パソコンノイズ、電源ノイズおよびマイクから拾う周囲雑音が周期的に発生しており、そのために図示のようにノイズピッチが表れてしまう。ただし、ノイズピッチを生じている雑音の音圧は小さい。したがって、図7の下段に示すように、ノイズしきい音圧以下の音を削除してからピッチを抽出することで、ノイズピッチが好適に除去される。
なお、図7の例では、周囲雑音のピッチ周波数が比較的低く、これにより周囲雑音が分かりやすく示されている。これに対して、例えば、教材で使われる環境音を考えると、周囲雑音のピッチが広い範囲に散在する。しかし、この場合でも、周囲雑音の音圧が音声の音圧より低い場合、音圧を基準にすることで雑音のピッチを除去できる。
このようにして、本実施の形態では、ピッチ抽出段階の適切な処理により、騒音に起因するノイズピッチを効果的に除去できる。そして、使用する教材の種類や学習環境(周囲雑音の有無とそのレベル)などに起因するピッチの誤検出を簡単な操作で抑えられ、誤検出の少ないわかりやすいピッチ抽出波形を得られる。
(2)短音ピッチの除去
人間の発声は、音韻学に基づくと、最低でも一定の継続時間をもっている。したがって、極端に短い時間のピッチは、人間の音声から得られたピッチでないと考えられる。そこで、本実施の形態では、非音声の短音に応じて短音しきい時間が設定される。そして、短音しきい時間以下の長さの短音ピッチが除去される。
上記の短音ピッチ除去処理は、音声抽出演算処理部102の継続時間カウント処理部1024によって行われる。継続時間カウント処理部1024は、ピッチ抽出処理部1022により抽出されたピッチの継続時間を監視して、短音しきい時間以下の長さのピッチを除去する。本実施の形態では、短音しきい時間は30msecに設定されている。
短音ピッチ除去処理は、実際には、ステップを基準に行われる。前述のように、ピッチ抽出処理部1022は、ステップ単位でピッチを抽出しており、ステップの長さ(間隔)は10msecである。継続時間カウント処理部1024は、ピッチが連続して抽出されるステップ数をカウントする。そして、3つ以下のステップでしかピッチが連続しないとき、それらピッチが除去される。
図8は、短音ピッチ除去処理の例を示している。図8の上段は、本実施の形態の短音ピッチ除去処理(単発ピッチ除去処理)を行う前の学習者音声のピッチ波形である。図中に丸印を付した部分には、発声とは見なせないような極短いピッチ抽出値が存在している。このような短音ピッチが、本実施の形態によれば、図8の下段に示すようにして削除される。
このようにして、本実施の形態は、音声から検出されたピッチの値に、さらに、音韻学的な特徴を当てはめており、より語学学習に適したピッチ抽出波形が得られる。
なお、図8は、本発明をわかりやすくするために、平均化処理が適用されないピッチ波形を示している。実際には、下記の平均化処理後に短音ピッチが除去されてよい。
(3)急変動ピッチの除去
発話時の人間の音声のピッチは、発声者固有のピッチ周波数を中心として、ある程度の周波数帯域の範囲で変動する。そして、瞬間的には限られた範囲のピッチ変動しか発生し得ない。本実施の形態は、このような人間の音声の特性に着目して、発話時の人間の音声には見られないような急変動ピッチを除去する。この急変動ピッチ除去処理は、音声抽出演算処理部102の平均化処理部1023によって行われる。
ここでは、まず、急変動ピッチ除去処理を説明する前に、図9を参照し、平均化処理部1023の平均化処理を説明する。平均化処理は、ピッチが連続する部分で行われる。n番目のステップのピッチをPnとする。Pnに対して下記の平均化処理が施され、平均ピッチPMn(ピッチ平均値)が算出され、蓄積される。
PMn=((P1からPn-1の平均ピッチ)×5+Pn)/6
例えば、100番目の平均ピッチPM100は、
PM100=((P1からP99の平均ピッチ)×5+P100)/6
である。このような処理により、最後のステップ(今回のステップ)のピッチが重み付けされる。この平均ピッチPMnが以降の処理で使われ、そして、波形画像生成に使われる。
次に、本実施の形態の急変動ピッチ除去処理を説明する。本実施の形態では、各ステップのピッチが、一つ前のステップの平均ピッチと比較される。そして、しきい変動量以上の変動が検出されたときのピッチは除去され、同一ステップ内で、次に大きなピーク構造を持つ周波数にて同様の計算を行い、変動幅がしきい変動量より小さければピッチとして検出される。これによりピッチの変動幅に制限が設けられる。この処理は、下記の式で表される。
(PMn×0.75)<Pn+1<(PMn×1.5)
上記の式において、Pn+1は、第n+1番目(今回)のステップのピッチである。また、PMnは、第n番目(一つ前)のピッチの平均化後の値である。上記の式に従って、ピッチPn+1が、平均ピッチPn+1の0.75倍より大きく、1.5倍より小さければ、ピッチPn+1は変動許容範囲にあり、削除されない。しかし、ピッチPn+1は、変動許容範囲からはずれると削除され、同一ステップ内で変動許容範囲に入るまで、最も大きなピーク構造をもつ周波数から次に大きなピーク構造をもつものへと順次変更しながらピッチを検出する。
また、前述したように、ステップの幅は10msecに設定されている。したがって、上記の処理では、10msecの間にしきい値以上の変動量が発生したとき、ピッチが再検出される。
図10および図11は、本実施の形態の急変動ピッチ除去処理と平均化処理の例を示している。図10の上段に示すように、急変動ピッチが除去される前は、丸印で示された部分において、ピッチが突然に大幅に変化している。しかし、本実施の形態では、図10の下段に示すように、急変動ピッチが効果的に除去される。図10に示されるように、1つの急変動ピッチが見つかると、その後に連続するピッチも除去される。また、図11に示すように、平均化されたピッチが画像生成に使われるので、ピッチ波形がなめらかになる。
このようにして、本実施の形態は、音声から検出されたピッチの値に、さらに、音韻学的な特徴を当てはめており、より語学学習に適したピッチ抽出波形が得られる。
また、本実施の形態は、平均ピッチを基準に使っており、発声者固有のピッチ周波数から生じ得ないピッチを除去できている。さらに、平均ピッチでは直近のピッチが重み付けされているので、直近のピッチからの変動量が判断されており、これにより、人間の音声で瞬間的には生じ得ないピッチを除去できている。このようにして、本実施の形態は、発声者固有のピッチ変動幅と、人間の声という観点でのピッチ変動幅とを考慮した適切なピッチ除去処理を実現可能にしている。
また、上記の処理は、下記の点でも有利である。すなわち、一般的なピッチ平均値は、男性で125Hz、女性で250Hzというように男女間で違いがある。しかし、本実施の形態の処理は、単純に男女の平均ピッチの違いに基づいてピッチ変動幅を制限しているのではない。本実施の形態は、実際の発声者すなわち学習者のピッチを基準に変動幅を制限している。これにより、ピッチ抽出帯域を事前に設定しなくても、変動幅を適切に制限して、ダブルピッチおよび半ピッチを適切に除去できる。男女の性別の違いに頼るような処理と比べて高い精度が得られる。
また、急変動ピッチの除去と関連して、平均化処理を行っており、波形がきれいに描画される。このとき、最後のステップの解析結果に重みを付けている。これにより、過度な平均化が回避され、次のステップのピッチの変動落差を適切に判定できる。
なお、平均化処理を行うことで、発声からの描画の遅れが生じ得る。遅延時間は例えば数十msecである。しかし、このような遅延はユーザには殆ど分からないので、遅延が生じても十分に満足できるリアルタイム表示が行われる。
また、図10および図11の例では、前述した短音ピッチが既に削除されている。しかし、短音ピッチは、急変動ピッチ除去処理と平均化処理を経た後に削除されてよい。
以上、本発明の好適な実施の形態の学習支援システム1を説明した。本実施の形態によれば、ノイズピッチを除去するノイズピッチ除去手段を設けたので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。
また、本実施の形態の学習支援システム1によれば、表示対象の音声に含まれないと考えられる短音のピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。短音ピッチを判定するしきい時間は、上記の例では、3ステップに相当し、すなわち、30msecである。
また、本実施の形態の学習支援システム1によれば、表示対象の音声に含まれないと考えられる急変動ピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。
さらに、本実施の形態の学習支援システム1によれば、急変動判定のためのしきい変化時間内にしきい変化量以上に変化した急変動ピッチを除去する。この構成により、ピッチ波形の精度のさらなる向上が図れる。しきい変化時間は、上記の例では、1ステップに相当し、すなわち、10msecである。
また、本実施の形態の学習支援システム1によれば、急変動ピッチを除去するときに、重付けピッチ平均を用いている。重付けピッチ平均を基準にして、ピッチがしきい変動量以上に変動したか否かが判定される。これにより、ピッチの平均と直近のピッチの両方を考慮して、急変動ピッチを精度よく検出および除去できる。
なお、上記の実施の形態では、学習支援システム1が、ノイズピッチ除去と、短音ピッチ除去と、急変動ピッチ除去のすべてを行った。しかし、本発明の範囲内で、これらの処理の一部が行われてもよい。
また、本実施の形態は、リアルタイム表示処理に限定されず、録音音声ファイルの波形表示処理に適用されてもよい。
また、上記の実施の形態では、学習支援システム1が、ネットワークで接続された学習者端末10とサーバ端末20で構成された。しかし、本発明はこれに限定されず、例えば、単独のコンピュータで学習支援システムが構成されてもよい。
また、本実施の形態では、音声教材データ記憶部108と音声教材データベース204とが音声教材である場合について説明したが、音声を含む動画教材であってもよい。この動画教材も音声を含むので音声教材であり、また、動画教材(MPEGなど)から抽出された音声も音声教材であり、音声の抽出は音声抽出演算処理部102で行われてよい。
その他、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。
以上のように、本発明にかかる学習支援システムは、リアルタイムにピッチ波形を表示するときのピッチ波形の精度を向上できるという効果を有し、マルチメディアを利用した学習支援システム等として有用である。
本発明の実施の形態における学習支援システムのブロック図 学習支援システムの起動時のフロー図 学習支援システムの終了時のフロー図 波形表示処理部のブロック図 音声抽出演算処理部のブロック図 ノイズピッチ除去のためのノイズしきい音圧の受付処理を示す図 ノイズピッチ除去処理の例を示す図 短音ピッチ除去処理の例を示す図 平均化処理を示す図 短音ピッチ除去処理の例を示す図 平均化処理の例を示す図
符号の説明
10 学習者端末
20 サーバ端末
101 音声入出力部
102 音声抽出演算処理部
103 波形表示処理部
104 表示部
105 認証処理部
106 音声関連情報記憶部
107 音圧計算処理部
108 音声教材データベース
109 学習者音声記録部
110 操作部

Claims (14)

  1. 音声からピッチを抽出するピッチ抽出手段と、
    前記ピッチ抽出手段に設けられ、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するノイズピッチ除去手段と、
    前記ノイズピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
    を備えたことを特徴とする学習支援システム。
  2. 非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段を備えたことを特徴とする請求項1に記載の学習支援システム。
  3. 急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段を備えたことを特徴とする請求項1に記載の学習支援システム。
  4. 前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去することを特徴とする請求項3に記載の学習支援システム。
  5. 音声からピッチを抽出するピッチ抽出手段と、
    非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段と、
    前記短音ピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
    を備えたことを特徴とする学習支援システム。
  6. 音声からピッチを抽出するピッチ抽出手段と、
    急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段と、
    前記急変動ピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
    を備えたことを特徴とする学習支援システム。
  7. 前記急変動ピッチ除去手段は、各時点までのピッチに対して、直近のピッチを重くする重み付けを行った重付け平均ピッチを基準に各時点のピッチが急変動ピッチであるか否かを判定することを特徴とする請求項6に記載の学習支援システム。
  8. 前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去することを特徴とする請求項6に記載の学習支援システム。
  9. 音声からピッチを抽出するステップと、
    音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、
    前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    を備えたことを特徴とする学習支援のための音声情報処理方法。
  10. 音声からピッチを抽出するステップと、
    非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、
    前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    を備えたことを特徴とする学習支援のための音声情報処理方法。
  11. 音声からピッチを抽出するステップと、
    急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、
    前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    を備えたことを特徴とする学習支援のための音声情報処理方法。
  12. 音声からピッチを抽出するステップと、
    音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、
    前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。
  13. 音声からピッチを抽出するステップと、
    非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、
    前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。
  14. 音声からピッチを抽出するステップと、
    急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、
    前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
    をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。
JP2004124399A 2004-04-20 2004-04-20 学習支援システム Pending JP2005308992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004124399A JP2005308992A (ja) 2004-04-20 2004-04-20 学習支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004124399A JP2005308992A (ja) 2004-04-20 2004-04-20 学習支援システム

Publications (1)

Publication Number Publication Date
JP2005308992A true JP2005308992A (ja) 2005-11-04

Family

ID=35437869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004124399A Pending JP2005308992A (ja) 2004-04-20 2004-04-20 学習支援システム

Country Status (1)

Country Link
JP (1) JP2005308992A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system

Similar Documents

Publication Publication Date Title
Yamada et al. A rhythm practice support system with annotation-free real-time onset detection
US6358054B1 (en) Method and apparatus for teaching prosodic features of speech
US8484035B2 (en) Modification of voice waveforms to change social signaling
US20020086269A1 (en) Spoken language teaching system based on language unit segmentation
JP4882899B2 (ja) 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US20120116772A1 (en) Method and System for Providing Speech Therapy Outside of Clinic
US7050978B2 (en) System and method of providing evaluation feedback to a speaker while giving a real-time oral presentation
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
KR20150024180A (ko) 발음 교정 장치 및 방법
US10553240B2 (en) Conversation evaluation device and method
JP2017519255A (ja) 楽譜の追従方法及びそれに関連したモデル化方法
JP2023081946A (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
US20210118329A1 (en) Diagnosis and treatment of speech and language pathologies by speech to text and natural language processing
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP7383943B2 (ja) 制御システム、制御方法、及びプログラム
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
JP3701850B2 (ja) 音声言語の韻律表示装置および記録媒体
US20230186782A1 (en) Electronic device, method and computer program
KR20150024295A (ko) 발음 교정 장치
KR101907276B1 (ko) 악기연주 연습 시스템 및 악기연주 지원 방법
US20140074468A1 (en) System and Method for Automatic Prediction of Speech Suitability for Statistical Modeling
JP2005308992A (ja) 学習支援システム
CN111128237B (zh) 语音评测方法、装置、存储介质和电子设备
JP2005309172A (ja) 学習支援システム
JP2006139162A (ja) 語学学習装置