JP2005308992A

JP2005308992A - 学習支援システム

Info

Publication number: JP2005308992A
Application number: JP2004124399A
Authority: JP
Inventors: Etsuko Ebara; 枝津子江原; Yasuo Yomogida; 康雄蓬田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-04-20
Filing date: 2004-04-20
Publication date: 2005-11-04

Abstract

【課題】正確なピッチ波形をリアルタイムに表示することのできる学習支援システムを提供する。
【解決手段】音声抽出演算処理部１０２は、学習者または教材の音声からピッチを抽出する。音声抽出演算処理部１０２は、ピッチ抽出のとき、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去する。また、音声抽出演算処理部１０２は、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する。さらに、音声抽出演算処理部１０２は、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する。
【選択図】図１

Description

本発明は、音声からピッチ波形を抽出して表示する機能を備えた学習支援システムに関する。

従来より、マルチメディア技術を応用した語学学習用の学習支援システムが提案されている（例えば特許文献１）。従来の学習支援システムは、視覚的に教材の音声と学習者の音声を比較するための便利な機能として、音圧波形およびピッチ波形の表示機能を備えている。この場合、教材の音声から音圧波形およびピッチ波形が抽出される。学習者の入力音声からも音圧波形およびピッチ波形が抽出される。これらの波形が、学習者の操作に従って画面に表示される。

ここでは、ピッチ波形の表示機能に着目する。音声中のピッチは、主に発話のイントネーションに関する情報を持っており、ＦＦＴまたは自己相関処理のなどの解析技術によって抽出される。ピッチ抽出技術は例えば特許文献２に開示されている。
特開２００２−２３６１３号公報（第３−４ページ、図１）特開平６−２８２２９６号公報（第３−５ページ、図１７）

しかしながら、従来の学習支援システムにおいては、既に録音された音声ファイルからのピッチ波形表示は可能であっても、以下に説明するように、リアルタイムなピッチ波形表示は困難であった。

リアルタイムに音声信号からピッチ波形を抽出して、表示したとする。この場合、学習環境における周囲雑音が音声に混じってしまう。そのため、本来のピッチではないデータが、高い確率でピッチ波形に混在する。

また、市販教材などでは、ある場面を想定した状況での会話が使われており、場面を想定しやすいように周囲雑音が意図的に加えられている。このような雑音も、音声に混じってしまい、ピッチ波形に表れてしまう。

さらに、音声が本来もっているゆらぎとピッチ抽出アルゴリズム（ＦＦＴ等）の精度の限界に起因して、ピッチの誤検出が生じる。具体的には、倍音（ダブルピッチ）および半音（半ピッチ）を誤検出する可能性が高い。この精度の限界は、音声ファイルからのピッチ抽出のように音声処理時間に制限がなければ、パラメータの変更によって改善可能である。しかし、リアルタイム処理では、発声からピッチ表示までの遅れを抑える必要があり、精度の向上には限界がある。

上記のように、リアルタイムにピッチ波形を表示しようとすると、ノイズの影響があり、また、ピッチ抽出の精度の限界があるために、ピッチ波形の正確さを保つのが容易ではない。ユーザは、ピッチ波形表示をみても、どの部分が真実で、どの部分が間違いかを容易に判別できず、間違った結果を用いて学習する可能性がある。そのため、従来は、リアルタイムなピッチ波形表示は困難であった。そして、学習者は、発声中にピッチ波形をみて、教材に自分の声を合わせる、といった臨場感のある学習も困難であった。

本発明は、上記課題を解決するためになされたもので、その目的は、リアルタイムに正確なピッチ波形を表示することのできる学習支援システムを提供することにある。

本発明の学習支援システムは、音声からピッチを抽出するピッチ抽出手段と、前記ピッチ抽出手段に設けられ、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するノイズピッチ除去手段と、前記ノイズピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段とを備えている。

この構成により、ノイズピッチを除去するノイズピッチ除去手段を設けたので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。

また、本発明の学習支援システムは、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段を備えている。

この構成により、表示対象の音声に含まれないと考えられる短音のピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。

また、本発明の学習支援システムは、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段を備えている。

この構成により、表示対象の音声に含まれないと考えられる急変動ピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。

また、本発明の学習支援システムにおいて、前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去する。この構成により、ピッチ波形の精度のさらなる向上が図れる。

また、本発明の学習支援システムにおいて、前記急変動ピッチ除去手段は、各時点までのピッチに対して、直近のピッチを重くする重み付けを行った重付け平均ピッチを基準に各時点のピッチが急変動ピッチであるか否かを判定する。この構成により、ピッチの平均と直近のピッチの両方を考慮して、急変動ピッチを精度よく検出および除去できる。

また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。

また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。

また、本発明の音声情報処理方法は、音声からピッチを抽出するステップと、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップと、前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップとを備えている。この構成によっても、上述した本発明の利点が得られる。

また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させる。この構成によっても、上述した本発明の利点が得られる。

また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させさせる。この構成によっても、上述した本発明の利点が得られる。

また、本発明の音声情報処理プログラムは、音声からピッチを抽出するステップと、急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップとをコンピュータに実行させる。この構成によっても、上述した本発明の利点が得られる。

本発明は、表示対象の音声に対応しないと考えられるピッチを除去することにより、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上できるという効果を有する学習支援システムを提供することができるものである。

以下、本発明の実施の形態の学習支援システムについて、図面を用いて説明する。

本発明の実施の形態の学習支援システムを図１に示す。以下の説明では、教材の音声の波形を教材波形といい、学習者の音声の波形を学習者波形という。波形としては、ピッチ波形と音圧波形が用いられる。また、教材と学習者の波形を比較する画像を波形比較画像という。

図１において、学習支援システム１は、学習者端末１０とサーバ端末２０を備え、これらはネットワークで接続されている。図示されないが、同様の構成を有する複数の学習者端末１０がネットワークに接続されている。学習者端末１０およびサーバ端末２０はコンピュータで構成され、各端末の処理機能は、コンピュータにインストールされたプログラムをＣＰＵが実行することによって実現される。ネットワークは、学校内等のＬＡＮでもよく、また、インターネットでもよい。本システムをＷｅｂ上で稼働することで、ｅ−ｌｅａｒｎｉｎｇ上で、発音矯正可能なシステムを実現できる。

また、図示されないが、サーバ端末２０を制御する先生用の端末もネットワークに接続されている。先生用の端末が設けられず、サーバ端末２０が直接先生によって操作されてもよい。

図１に示すように、学習者端末１０は、音声入出力部１０１、音声抽出演算処理部１０２、波形表示処理部１０３、表示部１０４、認証処理部１０５、音声関連情報記憶部１０６、音圧計算処理部１０７、音声教材データ記憶部１０８、学習者音声記録部１０９および操作部１１０で構成されている。

音声入出力部１０１は、ヘッドホンおよびマイクで構成されており、教材や学習者の音声を出力し、かつ、学習者の音声を入力する機能をもつ。

音声抽出演算処理部１０２は、音声からピッチを抽出する演算機能を有すると共に、音声教材データ記憶部１０８、音声関連情報記憶部１０６および学習者音声記録部１０９に関するデータ入出力の制御機能をもつ。ピッチ抽出演算機能は、ＦＦＴの処理を行うように構成されている。ピッチは、教材音声と学習者音声の両方から抽出される。また、音声抽出演算処理部１０２は、教材や学習者の音声を音声入出力部１０１のヘッドホンに供給し、音声入出力部１０１のマイクに入力された学習者音声を取得する。ここで、ピッチ抽出演算機能としては、ＦＦＴ処理ではなく自己相関などにより求めてもよい。

音圧計算処理部１０７は、音声抽出演算処理部１０２から供給された音声データから音圧を算出する。音圧も教材音声と学習者音声の両方から算出される。波形表示処理部１０３は、ピッチ波形および音圧波形を表示するための処理を行う。波形表示処理部１０３は、音声抽出演算処理部１０２から供給されるピッチを用いて、ピッチ波形の画像を生成し、また、音圧計算処理部１０７から供給される音圧を用いて、音圧波形の画像を生成する。ピッチ波形および音圧波形は表示部１０４に表示される。表示部１０４は、ディスプレイで構成されている。

また、音声教材データ記憶部１０８には、音声教材データが格納されている。音声教材データは、サーバ端末２０の音声教材データ記憶部２０４から学習者端末１０に供給され、音声抽出演算処理部１０２によって音声教材データ記憶部１０８に格納される。また、学習者音声記録部１０９には、音声入出力部１０１に入力された学習者音声が、音声ファイルのかたちで格納される。

また、音声関連情報記憶部１０６には、学習者の過去の学習で得られた情報（以下、音声関連情報という）が記憶される。音声関連情報には、「音圧（音声の強度）」、「ピッチ検出値（平均値、最高値、最低値）」、「母音および子音の周波数特性」、「マイク入力レベル」、「学習評価結果」などが含まれる。これらは、学習者ごとの情報であり、使用環境にも依存した情報である。学習評価結果は、教材波形と学習者波形の差分の計測値の情報である。音声関連情報は、下記の認証処理部１０５を介してサーバ端末２０から入手され、音声抽出演算処理部１０２により音声関連情報記憶部１０６に書き込まれる。そして、学習者端末１０を使った学習を反映するように、音声関連情報が音声抽出演算処理部１０２により更新される。

認証処理部１０５は、認証要求をサーバ端末２０の認証処理部２０１に送り、サーバ端末２０から認証結果を受信する。そして、認証処理部１０５は、認証対象の学習者の音声関連情報をサーバ端末２０から入手し、音声抽出演算処理部１０２に供給する。

また、操作部１１０は、キーボード、マウス等のデバイスで構成されており、学習者の各種の操作を入力する。学習者の指示は、操作部１１０から入力され、関連する処理部へと伝えられる。

前述したように、学習者端末１０は、コンピュータで構成されている。そして、上記の各種処理部を実現するプログラムが用意され、それらプログラムがコンピュータにインストールされている。そして、ＣＰＵがメモリ等の構成を用いてプログラムを実行し、これにより学習者端末１０が実現される。

サーバ端末２０は、図示のように、認証処理部２０１、音声関連情報データベース２０２、学習者情報データベース２０３および音声教材データベース２０４を備えている。音声教材データベース２０４には、各種の音声教材が格納されている。音声教材は、ネットワークを経由して学習者端末１０に配信される。

学習者情報データベース２０３には、各学習者の情報が格納されており、学習者の情報は、氏名、番号、認証のためのＩＤおよびパスワードを含んでいる。さらに、学習者情報データベース２０３は、各学習者の出席情報および学習履歴情報を記憶している。また、音声関連情報データベース２０２には、各学習者の音声関連情報が格納されている。音声関連情報の内容は、学習者端末１０の音声関連情報記憶部１０６に関連して説明した通りである。

認証処理部２０１は、学習者端末１０から認証要求を受信し、認証処理を行い、認証結果を学習者端末１０に送信する。認証が成功したとき、認証処理部２０１は、音声関連情報データベース２０２および学習者情報データベース２０３に格納された情報を学習者端末１０に提供する。

サーバ端末２０も、前述したように、コンピュータで構成されている。そして、認証処理部２０１および他の情報提供機能を実現するプログラムが用意され、それらプログラムがコンピュータにインストールされている。そして、ＣＰＵがメモリ等の構成を用いてプログラムを実行し、これによりサーバ端末２０が実現される。

学習支援システム１の全体的な動作の例について説明すると、図２に示すように、システム起動時は、認証処理が行われる。ＩＤ、パスワード等の情報が操作部１１０に入力されると、認証処理部１０５からサーバ端末２０の認証処理部２０１に認証要求が送られる（Ｓ１０）。認証処理部２０１は、学習者情報データベース２０３を参照して認証処理を行い、認証結果を学習者端末１０の認証処理部１０５へ通知する（Ｓ１２）。

認証が成功すると、サーバ端末２０の認証処理部２０１は、音声関連情報データベース２０２に記憶された音声関連情報を、学習者端末１０の認証処理部１０５へ送信する（Ｓ１４）。ここでは、認証対象になった学習者の情報が送られる。そして、音声抽出演算処理部１０２が認証処理部１０５から音声関連情報のデータを取得して、音声関連情報記憶部１０６に保存する（Ｓ１６）。さらに、音声抽出演算処理部１０２は、音声関連情報記憶部１０６から音声関連情報を読み出す。読み出された情報は、学習者端末１０での処理に必要に応じて利用される。

認証処理後の学習時の動作例としては、サーバ端末２０が、音声教材データベース２０４に記憶された音声教材データを読み出して、学習者端末１０に供給する。音声教材データは、音声抽出演算処理部１０２により音声教材データ記憶部１０８に記憶される。音声抽出演算処理部１０２は、音声教材データ記憶部１０８または音声教材データベース２０４から得た教材の音声を音声入出力部１０１に供給する。

教材音声が音声入出力部１０１から出力され、そして、学習者音声が音声入出力部１０１に入力され、音声抽出演算処理部１０２に供給される。音声抽出演算処理部１０２は、学習者音声を学習者音声記録部１０９に保存する。また、音声抽出演算処理部１０２は、学習者音声からピッチを抽出する。また、音声抽出演算処理部１０２は、教材音声からもピッチを抽出する。抽出されたピッチは、波形表示処理部１０３に送られる。

波形表示処理部１０３では、ピッチ波形の画像が生成される。このとき、教材と学習者のピッチ波形を一画面に表示する波形比較画像が生成される。そして、ピッチ波形比較画像が表示部１０４に表示される。

また、教材および学習者の音声データは、音声抽出演算処理部１０２から音圧計算処理部１０７に供給される。音圧計算処理部１０７では、音声から音圧が計算される。音圧の情報も波形表示処理部１０３に送られ、そして、波形表示処理部１０３では音圧波形の画像が生成される。ピッチ波形と同様に、教材と学習者の音圧波形を一画面に表示する波形比較画像が生成される。音圧波形比較画像も表示部１０４に表示される。

システム終了時の処理としては、図３に示すように、音声抽出演算処理部１０２が、音声関連情報記憶部１０６から音声関連情報を読み出し、認証処理部１０５へ供給する（Ｓ２０）。音声関連情報は、認証処理部１０５からサーバ端末２０の認証処理部２０１へ送られる（Ｓ２２）。そして、認証処理部２０１が、音声関連情報データベース２０２に音声関連情報のデータを保存する。

以上のように、学習支援システム１では、音圧およびピッチについて、教材および学習者の波形を比較する波形比較画像が表示される。これにより、学習者は、教材と自分の発音の違いを視覚的に認識しながら、発音を矯正することができ、そして、ネイティブスピーカに近い発話技術を獲得することができる。

また、学習支援システム１では、複数の学習者の音声関連情報がサーバ端末２０に一括保存される。そして、音声関連情報は、認証機能と連動して、学習者端末１０に提供される。すなわち、ログイン時に、ログインを行った学習者の音声関連情報が、学習者端末１０にダウンロードされる。学習者端末１０では音声関連情報が使用される。音声関連情報は例えば上記の波形表示に使われる。そして、ログアウト時には音声関連情報が更新される。例えば、今回の学習の音声関連情報と、過去の学習の音声関連情報とが比較され、差分が求められる。この差分の情報が、サーバ端末２０にアップロードされ、保存される。

したがって、学習者は、どの学習者端末１０で学習をするときでも、自分の音声関連情報を利用した学習ができる。学習者ごとの特性に応じた機器設定作業を少なくできる。また、音声関連情報を更新していくので、より正確な音声波形表示へと音声関連情報が寄与できる。

この点に関し、従来システムでも、学習者の音声特性に合わせた波形を表示するためのパラメータ設定機能が備えられている。しかし、どのパラメータをどのように設定すると、学習者自身の特性に合った適切な波形を表示できるかは、学習者には分かり難い。また、仮にパラメータを適切に設定できたとしても、その日に使う学習者端末１０が変わるたびにパラメータの再設定するという煩雑な作業が求められる。これに対して、本実施の形態では、学習者関連情報がデータベースに一括保存され、学習者端末１０にダウンロードされる。学習者関連情報を使って学習者に適した端末機能の設定が可能になり、また、どの学習者端末１０を使うときでも学習者関連情報を反映できる。

図４は、波形表示処理部１０３を示している。データ蓄積処理部１０３１は、音声抽出演算処理部１０２から教材および学習者のピッチ波形の情報を取得する。また、データ蓄積処理部１０３１は、音圧計算処理部１０７から教材および学習者の音圧波形の情報を取得する。ピッチ波形および音圧波形の情報は、メモリ１０３５に書き込まれる。また、データ蓄積処理部１０３１は、音圧、ピッチ帯域に加えて、母音の周波数特性、マイク入力レベルといった情報を取得し、メモリ１０３５に書き込む。

波形表示処理部１０３は、メモリ１０３５を使用し、データ蓄積処理部１０３１が取得したピッチ波形および音圧波形の情報を基に、前述したように、表示部１０４に表示されるべき波形画像を生成する。波形表示処理部１０３において、ピッチ抽出波形描画位置処理部１０３２は、ピッチ波形（ピッチ抽出波形）の描画位置を設定および調整する処理を行う。音圧波形描画位置処理部１０３３は、音圧波形の描画位置を設定および調整する処理を行う。時間軸波形描画位置処理部１０３４は、ピッチ波形および音圧波形の時間軸方向の描画位置を設定および調整する処理を行う。これら処理部により、ピッチ波形および音圧波形は、波形高さ方向および時間軸方向に変形される。

また、波形表示処理部１０３は、学習者により操作部１１０に入力された可変速再生設定パラメータを受け付ける。可変速再生設定パラメータは、教材の可変速再生モードでの再生速度を表すパラメータである。これにより、教材の再生速度の変更が受け付けられる。可変速再生設定パラメータは、メモリ１０３５に書き込まれる。

図５は、音声抽出演算処理部１０２の構成を示している。音声抽出演算処理部１０２は、既に説明したように、音声入出力部１０１または学習者音声記録部１０９から学習者音声を取得し、また、音声教材データ記憶部１０８および音声教材データベース２０４から教材音声を取得する。

音声抽出演算処理部１０２において、Ａ／Ｄ変換部１０２１は、入力音声をデジタルデータに変換する。ピッチ抽出処理部１０２２は、音声データにＦＦＴの解析処理を施してピッチ波形の情報を抽出する。ピッチはステップ単位で抽出される。１ステップの時間の長さは予め設定されている。平均化処理部１０２３は、ピッチ波形に平均化処理を施し、ピッチ波形をなめらかにする。さらに、継続時間カウント処理部１０２４は、ピッチの継続時間をカウントする。ここでは、ピッチが継続するときのステップの数がカウントされる。

Ａ／Ｄ変換部１０２１で変換された音声データは、音圧計算処理部１０７および音声再生処理部１０２５にも供給される。音圧計算処理部１０７では、前述したように、音圧が計算される。また、音声再生処理部１０２５は、音声を再生する処理を行う。再生された音声は、音声再生処理部１０２５から音声入出力部１０１に供給される。

また、音声再生処理部１０２５には、音声抽出演算処理部１０２から可変速再生設定パラメータが供給される。この可変速再生設定パラメータは、操作部１１０から音声抽出演算処理部１０２を介して波形表示処理部１０３に供給されている。音声再生処理部１０２５は、可変速再生設定パラメータが示す再生速度に従って再生音声の速度を調整する。これによって、可変速再生パラメータが示す再生速度で音声が再生される。

以上に、音声抽出演算処理部１０２および波形表示処理部１０３について説明した。次に、本実施の形態のピッチ波形処理に関する特徴的構成について説明する。

本実施の形態の学習支援システム１は、リアルタイムでピッチ波形を表示可能に構成されている。すなわち、学習者が発声を開始し、音声入力が開始すると、音声抽出演算処理部１０２もピッチの抽出を開始する。ピッチはステップ単位で抽出される。１ステップの長さは１０ｍｓｅｃである。各ステップのピッチが順次波形表示処理部１０３に供給される。波形表示処理部１０３では、入力されるピッチが、次々と、ピッチ波形画像に継ぎ足される。このようにして、学習者の音声の進行と同時に、画面上ではピッチ波形が延びていく。リアルタイム表示により、視覚的フィードバック効果を高められる。そして、視覚的フィードバックが聴覚フィードバックを補強し、これによる学習のモチベーションの向上と学習効果の向上が期待できる。

ところが、リアルタイムなピッチ表示を行う場合、音声ファイルからのピッチ表示と比べて、処理時間が制限されてしまい、ピッチ波形の精度が低下してしまう。そこで、本実施の形態では、下記のように、発声者の声ではないと考えられる部分のピッチを除去する処理によって、リアルタイム表示を行う場合でも、ピッチ波形の精度を向上する。本実施の形態では、下記のように、（１）ノイズピッチ、（２）短音ピッチ、（３）急変動ピッチが除去される。

（１）ノイズピッチの除去
学習者音声には、学習環境における周囲雑音が混じってしまう。また、市販教材などでは、ある場面を想定した状況での会話が使われており、場面を想定しやすいように周囲雑音が意図的に加えられている。このような雑音から抽出されるピッチを、以下、ノイズピッチという。本実施の形態では、下記のように、ノイズピッチを除去するために、音声に混入するノイズの音圧レベルに応じてノイズしきい音圧が設定される。そして、ノイズしきい以下の音声から得られるノイズピッチが除去され、この処理を経たピッチ抽出波形が表示される。ノイズピッチの除去は、音声抽出演算処理部１０２のピッチ抽出処理部１０２２によって、ピッチ抽出時に行われる。

図６は、ノイズしきい音圧設定画面５０を示している。この設定画面５０は、学習者端末１０により表示部１０４に表示される。ノイズしきい音圧設定画面５０には、教材または録音音声の音圧波形５２が表示される。例えば、テスト用の録音が行われ、録音音声から音圧波形画像が生成される。学習者は、操作部１１０を操作して、音圧波形５２の横に設けられた画像上の操作レバーを上下に動かし、ノイズしきい音圧５４を指定する。このノイズしきい音圧５４が、操作部１１０に入力され、音声抽出演算処理部１０２に供給され、ピッチ抽出処理部１０２２に受け付けられる。

ピッチ抽出処理部１０２２は、ノイズしきい音圧を、ピッチ抽出時の有音／無音判定のしきい値に反映する。すなわち、ピッチ抽出処理部１０２２は、各ステップ（１０ｍｓｅｃ）でパワースペクトラムを算出し、ピーク構造を持つ周波数のうち一番低い周波数をピッチとして抽出する。このとき、ノイズしきい音圧より算出されたパワー以下のピーク構造は、処理対象から削除される。これにより、ピッチ抽出処理部１０２２で抽出されるピッチからノイズピッチが除去される。

図７は、ノイズピッチの除去処理の例を示している。図７の上段は、本実施の形態のノイズピッチ除去が適用されないときの学習者音声のピッチ波形である。本実施の形態では、元々、人間の音声を考慮して８０ｋＨｚ〜５００ｋＨｚの音声が処理されている。しかし、この帯域内でも、パソコンノイズ、電源ノイズおよびマイクから拾う周囲雑音が周期的に発生しており、そのために図示のようにノイズピッチが表れてしまう。ただし、ノイズピッチを生じている雑音の音圧は小さい。したがって、図７の下段に示すように、ノイズしきい音圧以下の音を削除してからピッチを抽出することで、ノイズピッチが好適に除去される。

なお、図７の例では、周囲雑音のピッチ周波数が比較的低く、これにより周囲雑音が分かりやすく示されている。これに対して、例えば、教材で使われる環境音を考えると、周囲雑音のピッチが広い範囲に散在する。しかし、この場合でも、周囲雑音の音圧が音声の音圧より低い場合、音圧を基準にすることで雑音のピッチを除去できる。

このようにして、本実施の形態では、ピッチ抽出段階の適切な処理により、騒音に起因するノイズピッチを効果的に除去できる。そして、使用する教材の種類や学習環境（周囲雑音の有無とそのレベル）などに起因するピッチの誤検出を簡単な操作で抑えられ、誤検出の少ないわかりやすいピッチ抽出波形を得られる。

（２）短音ピッチの除去
人間の発声は、音韻学に基づくと、最低でも一定の継続時間をもっている。したがって、極端に短い時間のピッチは、人間の音声から得られたピッチでないと考えられる。そこで、本実施の形態では、非音声の短音に応じて短音しきい時間が設定される。そして、短音しきい時間以下の長さの短音ピッチが除去される。

上記の短音ピッチ除去処理は、音声抽出演算処理部１０２の継続時間カウント処理部１０２４によって行われる。継続時間カウント処理部１０２４は、ピッチ抽出処理部１０２２により抽出されたピッチの継続時間を監視して、短音しきい時間以下の長さのピッチを除去する。本実施の形態では、短音しきい時間は３０ｍｓｅｃに設定されている。

短音ピッチ除去処理は、実際には、ステップを基準に行われる。前述のように、ピッチ抽出処理部１０２２は、ステップ単位でピッチを抽出しており、ステップの長さ（間隔）は１０ｍｓｅｃである。継続時間カウント処理部１０２４は、ピッチが連続して抽出されるステップ数をカウントする。そして、３つ以下のステップでしかピッチが連続しないとき、それらピッチが除去される。

図８は、短音ピッチ除去処理の例を示している。図８の上段は、本実施の形態の短音ピッチ除去処理（単発ピッチ除去処理）を行う前の学習者音声のピッチ波形である。図中に丸印を付した部分には、発声とは見なせないような極短いピッチ抽出値が存在している。このような短音ピッチが、本実施の形態によれば、図８の下段に示すようにして削除される。

このようにして、本実施の形態は、音声から検出されたピッチの値に、さらに、音韻学的な特徴を当てはめており、より語学学習に適したピッチ抽出波形が得られる。

なお、図８は、本発明をわかりやすくするために、平均化処理が適用されないピッチ波形を示している。実際には、下記の平均化処理後に短音ピッチが除去されてよい。

（３）急変動ピッチの除去
発話時の人間の音声のピッチは、発声者固有のピッチ周波数を中心として、ある程度の周波数帯域の範囲で変動する。そして、瞬間的には限られた範囲のピッチ変動しか発生し得ない。本実施の形態は、このような人間の音声の特性に着目して、発話時の人間の音声には見られないような急変動ピッチを除去する。この急変動ピッチ除去処理は、音声抽出演算処理部１０２の平均化処理部１０２３によって行われる。

ここでは、まず、急変動ピッチ除去処理を説明する前に、図９を参照し、平均化処理部１０２３の平均化処理を説明する。平均化処理は、ピッチが連続する部分で行われる。ｎ番目のステップのピッチをＰnとする。Ｐnに対して下記の平均化処理が施され、平均ピッチＰＭn（ピッチ平均値）が算出され、蓄積される。
ＰＭn＝（（Ｐ1からＰn-1の平均ピッチ）×５＋Ｐn）／６
例えば、１００番目の平均ピッチＰＭ100は、
ＰＭ100＝（（Ｐ1からＰ99の平均ピッチ）×５＋Ｐ100）／６
である。このような処理により、最後のステップ（今回のステップ）のピッチが重み付けされる。この平均ピッチＰＭｎが以降の処理で使われ、そして、波形画像生成に使われる。

次に、本実施の形態の急変動ピッチ除去処理を説明する。本実施の形態では、各ステップのピッチが、一つ前のステップの平均ピッチと比較される。そして、しきい変動量以上の変動が検出されたときのピッチは除去され、同一ステップ内で、次に大きなピーク構造を持つ周波数にて同様の計算を行い、変動幅がしきい変動量より小さければピッチとして検出される。これによりピッチの変動幅に制限が設けられる。この処理は、下記の式で表される。
（ＰＭｎ×０．７５）＜Ｐｎ＋１＜（ＰＭｎ×１．５）

上記の式において、Ｐｎ＋１は、第ｎ＋１番目（今回）のステップのピッチである。また、ＰＭｎは、第ｎ番目（一つ前）のピッチの平均化後の値である。上記の式に従って、ピッチＰｎ＋１が、平均ピッチＰｎ＋１の０．７５倍より大きく、１．５倍より小さければ、ピッチＰｎ＋１は変動許容範囲にあり、削除されない。しかし、ピッチＰｎ＋１は、変動許容範囲からはずれると削除され、同一ステップ内で変動許容範囲に入るまで、最も大きなピーク構造をもつ周波数から次に大きなピーク構造をもつものへと順次変更しながらピッチを検出する。

また、前述したように、ステップの幅は１０ｍｓｅｃに設定されている。したがって、上記の処理では、１０ｍｓｅｃの間にしきい値以上の変動量が発生したとき、ピッチが再検出される。

図１０および図１１は、本実施の形態の急変動ピッチ除去処理と平均化処理の例を示している。図１０の上段に示すように、急変動ピッチが除去される前は、丸印で示された部分において、ピッチが突然に大幅に変化している。しかし、本実施の形態では、図１０の下段に示すように、急変動ピッチが効果的に除去される。図１０に示されるように、１つの急変動ピッチが見つかると、その後に連続するピッチも除去される。また、図１１に示すように、平均化されたピッチが画像生成に使われるので、ピッチ波形がなめらかになる。

また、本実施の形態は、平均ピッチを基準に使っており、発声者固有のピッチ周波数から生じ得ないピッチを除去できている。さらに、平均ピッチでは直近のピッチが重み付けされているので、直近のピッチからの変動量が判断されており、これにより、人間の音声で瞬間的には生じ得ないピッチを除去できている。このようにして、本実施の形態は、発声者固有のピッチ変動幅と、人間の声という観点でのピッチ変動幅とを考慮した適切なピッチ除去処理を実現可能にしている。

また、上記の処理は、下記の点でも有利である。すなわち、一般的なピッチ平均値は、男性で１２５Ｈｚ、女性で２５０Ｈｚというように男女間で違いがある。しかし、本実施の形態の処理は、単純に男女の平均ピッチの違いに基づいてピッチ変動幅を制限しているのではない。本実施の形態は、実際の発声者すなわち学習者のピッチを基準に変動幅を制限している。これにより、ピッチ抽出帯域を事前に設定しなくても、変動幅を適切に制限して、ダブルピッチおよび半ピッチを適切に除去できる。男女の性別の違いに頼るような処理と比べて高い精度が得られる。

また、急変動ピッチの除去と関連して、平均化処理を行っており、波形がきれいに描画される。このとき、最後のステップの解析結果に重みを付けている。これにより、過度な平均化が回避され、次のステップのピッチの変動落差を適切に判定できる。

なお、平均化処理を行うことで、発声からの描画の遅れが生じ得る。遅延時間は例えば数十ｍｓｅｃである。しかし、このような遅延はユーザには殆ど分からないので、遅延が生じても十分に満足できるリアルタイム表示が行われる。

また、図１０および図１１の例では、前述した短音ピッチが既に削除されている。しかし、短音ピッチは、急変動ピッチ除去処理と平均化処理を経た後に削除されてよい。

以上、本発明の好適な実施の形態の学習支援システム１を説明した。本実施の形態によれば、ノイズピッチを除去するノイズピッチ除去手段を設けたので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。

また、本実施の形態の学習支援システム１によれば、表示対象の音声に含まれないと考えられる短音のピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。短音ピッチを判定するしきい時間は、上記の例では、３ステップに相当し、すなわち、３０ｍｓｅｃである。

また、本実施の形態の学習支援システム１によれば、表示対象の音声に含まれないと考えられる急変動ピッチを除去するので、リアルタイムにピッチ波形を表示しても、ピッチ波形の精度を向上することができる。

さらに、本実施の形態の学習支援システム１によれば、急変動判定のためのしきい変化時間内にしきい変化量以上に変化した急変動ピッチを除去する。この構成により、ピッチ波形の精度のさらなる向上が図れる。しきい変化時間は、上記の例では、１ステップに相当し、すなわち、１０ｍｓｅｃである。

また、本実施の形態の学習支援システム１によれば、急変動ピッチを除去するときに、重付けピッチ平均を用いている。重付けピッチ平均を基準にして、ピッチがしきい変動量以上に変動したか否かが判定される。これにより、ピッチの平均と直近のピッチの両方を考慮して、急変動ピッチを精度よく検出および除去できる。

なお、上記の実施の形態では、学習支援システム１が、ノイズピッチ除去と、短音ピッチ除去と、急変動ピッチ除去のすべてを行った。しかし、本発明の範囲内で、これらの処理の一部が行われてもよい。

また、本実施の形態は、リアルタイム表示処理に限定されず、録音音声ファイルの波形表示処理に適用されてもよい。

また、上記の実施の形態では、学習支援システム１が、ネットワークで接続された学習者端末１０とサーバ端末２０で構成された。しかし、本発明はこれに限定されず、例えば、単独のコンピュータで学習支援システムが構成されてもよい。

また、本実施の形態では、音声教材データ記憶部１０８と音声教材データベース２０４とが音声教材である場合について説明したが、音声を含む動画教材であってもよい。この動画教材も音声を含むので音声教材であり、また、動画教材（ＭＰＥＧなど）から抽出された音声も音声教材であり、音声の抽出は音声抽出演算処理部１０２で行われてよい。

その他、本発明は上述の実施の形態に限定されず、当業者が本発明の範囲内で上述の実施の形態を変形可能なことはもちろんである。

以上のように、本発明にかかる学習支援システムは、リアルタイムにピッチ波形を表示するときのピッチ波形の精度を向上できるという効果を有し、マルチメディアを利用した学習支援システム等として有用である。

本発明の実施の形態における学習支援システムのブロック図学習支援システムの起動時のフロー図学習支援システムの終了時のフロー図波形表示処理部のブロック図音声抽出演算処理部のブロック図ノイズピッチ除去のためのノイズしきい音圧の受付処理を示す図ノイズピッチ除去処理の例を示す図短音ピッチ除去処理の例を示す図平均化処理を示す図短音ピッチ除去処理の例を示す図平均化処理の例を示す図

符号の説明

１０学習者端末
２０サーバ端末
１０１音声入出力部
１０２音声抽出演算処理部
１０３波形表示処理部
１０４表示部
１０５認証処理部
１０６音声関連情報記憶部
１０７音圧計算処理部
１０８音声教材データベース
１０９学習者音声記録部
１１０操作部

Claims

音声からピッチを抽出するピッチ抽出手段と、
前記ピッチ抽出手段に設けられ、音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するノイズピッチ除去手段と、
前記ノイズピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
を備えたことを特徴とする学習支援システム。
非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段を備えたことを特徴とする請求項１に記載の学習支援システム。
急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段を備えたことを特徴とする請求項１に記載の学習支援システム。
前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去することを特徴とする請求項３に記載の学習支援システム。
音声からピッチを抽出するピッチ抽出手段と、
非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去する短音ピッチ除去手段と、
前記短音ピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
を備えたことを特徴とする学習支援システム。
音声からピッチを抽出するピッチ抽出手段と、
急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去する急変動ピッチ除去手段と、
前記急変動ピッチ除去手段の処理を経たピッチ抽出波形を表示する表示手段と、
を備えたことを特徴とする学習支援システム。
前記急変動ピッチ除去手段は、各時点までのピッチに対して、直近のピッチを重くする重み付けを行った重付け平均ピッチを基準に各時点のピッチが急変動ピッチであるか否かを判定することを特徴とする請求項６に記載の学習支援システム。
前記急変動ピッチ除去手段は、急変動判定のためのしきい変化時間内に前記しきい変化量以上に変化した急変動ピッチを除去することを特徴とする請求項６に記載の学習支援システム。
音声からピッチを抽出するステップと、
音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、
前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップと、
を備えたことを特徴とする学習支援のための音声情報処理方法。
音声からピッチを抽出するステップと、
非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、
前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
を備えたことを特徴とする学習支援のための音声情報処理方法。
音声からピッチを抽出するステップと、
急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、
前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
を備えたことを特徴とする学習支援のための音声情報処理方法。
音声からピッチを抽出するステップと、
音声に混入するノイズの音圧レベルに応じて設定されたノイズしきい音圧以下の音声から得られるノイズピッチを除去するステップと、
前記ノイズピッチの除去処理を経たピッチ抽出波形を表示するステップと、
をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。
音声からピッチを抽出するステップと、
非音声の短音に応じて設定された短音しきい時間以下の長さの短音ピッチを除去するステップと、
前記短音ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。
音声からピッチを抽出するステップと、
急変動判定のためのしきい変化量以上に変化した急変動ピッチを除去するステップ、
前記急変動ピッチの除去処理を経たピッチ抽出波形を表示するステップと、
をコンピュータに実行させることを特徴とする学習支援のための音声情報処理プログラム。