JPH065451B2

JPH065451B2 - 発音訓練装置

Info

Publication number: JPH065451B2
Application number: JP61303772A
Authority: JP
Inventors: 定明江澤; 宏昭高野; 良一遠藤
Original assignee: Kawai Musical Instrument Manufacturing Co Ltd
Current assignee: Kawai Musical Instrument Manufacturing Co Ltd
Priority date: 1986-12-22
Filing date: 1986-12-22
Publication date: 1994-01-19
Anticipated expiration: 2009-01-19
Also published as: US4969194A; JPS63157184A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、外国語などの発音の訓練を行なう発音訓練装
置に関する。

（従来の技術）外国語の発音訓練の場合、外国語を母国語とする人（以
下ネイテイブという）に発音評価を頼る方法がある。ま
た、市販されているカセツトテープ、ビデオテープ、レ
コード、本等によつて自己訓練する方法とがある。

（発明が解決しようとする問題点）上述のネイテイブに発音評価を頼る方法は、ネイテイブ
が訓練者に微妙な発音の違いを説明するのが困難であ
り、また身近にネイテイブがいる場合が少ないという不
都合がある。カセツトテープ等による方法は、いずれも
訓練の主体が聴覚判断にもとづく反復練習であり、ビデ
オテープによる映像は、英文のつづりや発音記号，口の
形，舌の位置等の説明、風景等が主で、発音にとつて付
属的な役割を持つだけであつて、訓練者の聴覚にのみ評
価をたよつている。結局、カセツトテープ等による方法
では、どのようにしたら正確な発音ができるようになる
のかのノウ・ハウについてあまり説明されていず、ま
た、訓練者は自己の発音が正確な発音に近づいているか
どうかを把えることが困難で、学習に不可欠な学ぶ喜び
も起りにくいのが普通であつた。

本発明は、従来の上述のような不都合を解消する発音訓
練装置を提供することをその目的とするものである。

（問題点を解決するための手段）本発明は、上述の目的を達成するために、学習すべき音
声の音声パラメータのパターン上で前記発音の正確さを
特定付ける要素である着眼点及びその特徴を説明する手
段と、訓練者が発音した音声を分析して音声パラメータ
のパターンを表示する音声分析手段と、訓練者の音声パ
ラメータのパターン上で前記着眼点を数値化して得られ
た発音特徴データと対応する手本の発音に関してあらか
じめ前記着眼点を数値化しておいた手本の発音特徴デー
タとを比較する手段と、該比較手段の結果に応じて発音
を矯正するためのコメントを選択し、表示する手段とか
ら成ることを特徴とする。

（作用）発音の矯正を効率よく実行するには、日本人の発音の欠
点を熟知した上で、発音訓練の矯正ポイントを明らかに
しておく必要がある。

発音の矯正ポイントは、英語の場合、次のような訓練モ
ードである。

日本語が胸式呼吸なのに対して英語は腹式呼吸を使つて
ストレスアクセント（音の強弱）で発音される。手をお
腹の上に置き、発声するたびに振動が感じられる時は、
腹式呼吸の発声である。主に名詞、動詞、形容詞、副詞
を強く発音する。例えば、下記のようにアクセントマー
ク（′印）が強く発音される。

Ｉ fund your pn．訓練モードＥ２…イントネーシヨンイントネーシヨンはピツチ（声の高低）の組み合わせで
あり、相互の関係は下記のようになる。

文章においては、下記のように２のレベルで始まり、３
のレベルになり、終りは１のレベルになる。

文章が長くなつてもこの２→３→１というイントネーシ
ヨンのレベル変化となる。疑問文になると下記のように
２のレベルで始まり３のレベルの終りでピツチが持ち上
がる。

訓練モードＥ３…母音母音を標準化出来る持続時間、音の強さ（音声のパワー
を意味し、以下では単にパワーという）の特徴をとり出
す。又、この持続時間、パワーに加えるにあごの開閉、
唇の丸み、舌の前後および上下の動きがある。これらは
第１、第２、第３ホルマントの表われ方によつて評価で
きる。この中で特に大切な矯正ポイントは、持続時間で
ある。日本語は音節単位であり、下記のように子音と母
音が一つになつてほとんど同じ持続時間で発音される。

これに対し英語は、下記のように語尾に有声音が来た時
の方が無声音が来た時よりもその前の母音が長く発音さ
れる。

又、語尾が母音で終る場合もその前の母音が長く発音さ
れる。

訓練モードＥ４…子音単語の語頭（例part）や語尾（例stop）など位置により
下記のように矯正ポイントが異なつてくる。

子音で無声の破裂音は、帯気が大切で、帯気の持続時間
が長ければ音が強く、短かければ弱く発音されているこ
とになる。

摩擦音に関しては、持続時間が大切である。やはり強く
発音するには持続時間が長い方がよい。

以上説明したような複数の訓練モードのそれぞれについ
て、先ず、学習すべき発音の音声パラメータのパターン
上で前記発音の正確さを特定付ける要素である着眼点
の、帯気の時間等の特徴の説明を表示し、次いで音声分
析手段により訓練者が発音した音声を分析して音声パラ
メータのパターンを表示する。訓練者が、このパターン
上で得られた前記着眼点を数値化した発音特徴データを
入力すると、比較手段は、該発音特徴データと、対応す
る手本の発音に関してあらかじめ前記着眼点を数値化し
ておいた手本の発音特徴データとを比較する。この比較
結果により表示手段は発音を矯正するためのコメントを
選択し表示する。かくて訓練者はこのコメントに基づい
て発音訓練を行なう。

以下本発明の実施例を図面につき説明する。

第１図は、本発明の１実施例のブロツク図を示す。

同図において、ビデオデイスク１には、主に発音の特徴
解説やネイテイブの発音の実演を映像化して格納されて
いる。ビデオデイスクプレーヤ２は、訓練者の進度や目
的に応じてビデオデイスク中に任意の場面をアクセスし
たり、ある場面を繰返して再生するためにバスＬ₁を介
してパーソナルコンピュータ３で制御されるようになつ
ている。

パーソナルコンピュータ３は、画像メモリ３１１等を有
するコンピュータ本体３１、キーボード３２及びデイス
プレイ３３で精製されている。コンピュータ本体３１に
バスＬ₄を介して接続される音声メモリ４は、訓練者が
発声した音声やビデオ音声の録音と再生に使われるもの
で、そのメモリ容量は１サンプル点当り２バイトを使用
すれば、音声帯域６KHzとした時サンプリング周波数１
２KHzで2×12000＝24000バイト／秒（12000サンプル
点）となる。１０秒間の音声の記録が可能であれば十分
であるので240000バイト（120000サンプル点）を用意す
る。

コンピユータ本体３１にバスＬ₄を介して接続される濃
淡画像メモリ５は、サウンドスペクトログラフのような
濃淡画像１画面分をデイスプレイ３３に表示するために
使用されるものである。サウンドスペクトログラフは、
後記する第３−２図(Ｂ)に示すように、横軸を時間軸と
し、縦軸を周波数軸とした平面上において、周波数強度
が濃淡で表示されたいわゆる声紋であり、ホルマントの
表われ方を見るのに適している。その容量は周波数方向
２５０点、時間方向1000点、濃淡階調１６（４ビツト）
とすれば、（250×1000×４）／８＝125000バイトとな
る。

信号制御部６は、各種の訓練を実行する際に信号の流れ
を制御するもので、Ａ−Ｄ変換器７及びＤ−Ａ変換器８
を介して音声メモリ４に接続され、またバスＬ₃を介し
てビデオデイスクプレーヤ２に接続され、更にマイクロ
フオン９及びスピーカ１０に接続されており、バスＬ₂
を介してコンピユータ本体３１によつて制御される。ビ
デオデイスプレイ１１はビデオデイスク１の映像信号を
映像化するもの、ミラー１２はビデオデイスプレイ１１
に近接配置し、これに映し出されるネイテイブの発音の
際の唇、舌、あごなどの形態と比較するために訓練者が
自己の同様の形態を映し出すためのものである。

前記信号制御部６を更に詳細に説明すると、該信号制御
部６は、第２図示のような回路構成を有し、表１に示す
動作モードを実行する際に信号の流れを制御する。

第２図示の回路において、リレー１３、１４、１５、１
６は、コンピユータ本体３１の出力ポートからバスＬ₂
上に動作モードＭ１〜Ｍ４に応じて送出される４ビツト
並列信号で制御される。動作モードＭ１のときは、リレ
ー１３だけが閉となり、マイクロフオン９からの音声信
号は、ローパスフイルタ１７、増幅器１８を経てＡ−Ｄ
変換器７でデジタル信号化され、音声メモリ４に書き込
まれる。

動作モードＭ２のときは、リレー１４だけが閉となり、
バスＬ₃に送出されるビデオデイスク１の音声信号はロ
ーパスフイルタ１７、増幅器１８を経てＡ−Ｄ変換器７
でデジタル信号化され、音声メモリ４に書込まれる。

動作モードＭ３のときは、リレー１５だけが閉となり、
音声メモリ４から読出された内容がＤ−Ａ変換器８でア
ナログ信号化され、ローパスフイルタ１９及び増幅器２
０を経てスピーカ１０から放音される。

こゝで、音声メモリ４は、バスＬ₄上に、動作モードＭ
１〜Ｍ３に応じてコンピユータ本体31内の中央処理装置
から送出されるアドレスバス信号、データバス信号、書
込み信号及び読出し信号等のバス信号で制御されて書込
まれあるいは読出される。

動作モードＭ４のときは、リレー１６だけが閉となり、
ビデオデイスク１の音声信号がローパスフイルタ１９及
び増幅器２０を経てスピーカ１０から放音される。

動作モードＭ５のときは、パーソナルコンピユータ３
は、図示しないインターフエース（例えば周知のRS-232
Cを使用する）からバスＬ₁を経てビデオデイスクプレー
ヤ２を制御する。その結果、ビデオデイスク１の映像信
号がビデオデイスプレイ１１へ送出され、映像化され
る。ビデオデイスクプレーヤ２に対する代表的な制御命
令コマンドは表２に示す通りである。

動作モードＭ５は、表２の制御命令コマンドで構成され
る。その内容は表３に示す。

動作モードＭ５５は、指定されたフレーム番号ｎ１から
ｎ２迄を再生してｎ２で静止画にする制御命令コマンド
である。

動作モードＭ５を実行する場合、パーソナルコンピユー
タ３の要求に応じてビデオデイスクプレーヤ２から動作
状態、再生中のフレーム番号がバスＬ₁上に送られてく
るので、それらを確認した上で発音矯正過程での訓練内
容に従つて動作モードを表３から選択し、対応する制御
命令コマンドをバスＬ₁上に送り返してビデオデイスク
プレーヤ２を制御していく。

動作モードＭ６のときは、パーソナルコンピユータ３は
バスＬ₄上のバス信号を介して音声メモリ４から記録し
た音声信号を取り込み、音声分析し、その結果得られた
音声パターンの各音声パラメータをデイスプレイ３３上
に表示する。

音声パラメータは、波形、パワー、ピツチ、サウンドス
ペクトログラフの４種類とし、発音矯正の訓練モードに
応じて、そのうちの幾つかの組合せを表示する。表４は
この組合せによつて細分された動作モードＭ６１〜Ｍ６
３を示す。

第３−１図、第３−２図及び第３−３図はそれぞれ動作
モードＭ６１，Ｍ６２及びＭ６３を実行した場合のデイ
スプレイ３３の表示例である。

パーソナルコンピユータ３により音声分析された結果得
られたサウンドスペクトログラフの画像データは、バス
Ｌ₄上のバス信号を介して濃淡画像メモリ５に格納し、
波形、パワー、ピツチの画像データは、コンピユータ本
体３内に通常有している画像メモリ３１１に格納する。
したがつて、第３−２図の(Ａ)と(Ｂ)に図示するように
パワーとサウンドスペクトログラフとを同時に表示する
ときは画像メモリ３１１の画像データと濃淡画像メモリ
５の画像データとを適切切換えてデイスプレイ３３へ送
出する。

発音矯正ポイントとして重要なストレスアクセント、イ
ントネーシヨン、持続時間及びホルマントなどを見るた
めには、第３−１図〜第３−３図に示すように、発音の
全体像を把握できるように表示する必要がある。

音声メモリ４は、前述のように、１０秒間の音声の記録
が可能で、120000サンプル点を格納する。一方、デイス
プレイ３３の時間方向の分解能を前記した濃淡画像メモ
リ５の説明と同様に1000点とすれば、最も全体像を把握
しやすい表示である一段だけの表示のとき全体の1/120
のサンプル点した表示できない。そこでこのような表示
制限を考慮して音声パラメータを処理する必要がある。

以下、音声パラメータの算出法の概要と表示制限を考慮
した音声パラメータ処理法を説明する。

波形処理波形の全体像を表示するには、音声メモリ４のサンプル
点を間引く必要があり、間引くにしても自然な印象を与
えることが重要である。

第４図は波形間引きのフローチヤート、第５図はその説
明図を示す。

第５図の(Ａ)は、音声メモリ４の初めの部分の内容をア
ナログ信号化して示したものである。

第４図示のフロー(1)において、第５図の(Ａ)に示す音
声メモリ４の内容であるアナログ音声信号を、第５図
(Ｂ)に示すようにＳｉ（ｉ＝１，２，３…ｎ）のグルー
プに分割する。デイスプレイ３３の表示位置に対応して
画像メモリ３１１のメモリ領域内にＸ座標、Ｙ座標を設
定するが、フロー(2)では、波形データを格納する時間
方向の範囲を決めるＸ座標の初期値と終了値を設定す
る。フロー(3)のｉはグループ指定を進めるためのカウ
ンタであり、ｉ＝１としてＳ₁グループから指定する。
フロー(4)でグループ内の最大値Ｒ_i、最小値Ｑ_iを求め
る。ｉ＝１のときはＳ₁グループのＲ₁，Ｑ₁が求められ
る。

フロー(5)、(6)は後で説明する。フロー(7)でＲ₁、Ｑ₁
を画像メモリ３１１のＹ座標の値Ｒ₁、₁に変換す
る。フロー(8)で画像メモリ３１１１の座標（Ｘ，₁）
と（Ｘ，₁）とを結線するように処理する。これが第
５図(Ｃ)におけるLINE1である。フロー(9)でＸ座標が終
了値に達しているならば波形データの格納を終了する。
終了値でなければフロー(10)でＸ座標の値を１だけ進
め、フロー(11)でｉ＝２とする。今度はＳ₂グループが
指定され、フロー(4)〜(8)で同様に処理した結果がLINE
２である。

この様にしてフロー(9)でＸ座標＝終了値と判定される
迄グループの処理が続行される。第５図(Ａ)を間引き表
示した結果を第５図(Ｄ)に示す。第５図(Ｃ)は第５図
(Ｄ)の始めの部分を拡大したものに相当する。フロー
(5)、(6)は分割数ｎが大きくなり間引きの割合いが低下
したとき有効となる。すなわち分割数ｎが大きくなりグ
ループ内のサンプル点数が少なくなるとＳ₃グループの
Ｒ₃、Ｑ₃のように双方が同符号になる場合が数多く発生
する。なにもしないでフロー(8)で結線処理すると中心
線付近が空白となり波形の全体像としては不自然にな
る。そこでフロー(5)でＲ₃、Ｑ₃が同符号と判定されれ
ば、フロー(6)で絶対値の小さい方の値を強制的に０に
して、LINE3のように中心線迄結線を延長するように配
慮している。

次に画像メモリ３１１で波形データを格納するＸ座標の
範囲をｍ点としてその一段だけの波形表示可能時間をｔ
としたとき、分割数ｎとの関係を求める。音声メモリ４
は１０秒間の音声の記録が可能であり、これをｎ分割し
た各グループは１０／ｎ〔秒〕の記録時間に相当する。
これがｍ点だけ表示可能であるからｔ〔秒〕＝１０ｍ／
ｎとなる。今ｍ＝８００点とすれば、ｎ＝８００でｔ＝
１０〔秒〕となり、音声メモリ４の全部が表示される。
又、ｎ＝１６００ならｔ＝５〔秒〕で最初の1/2が表示
され、ｎ＝3200ならｔ＝2.5〔秒〕で最初の1/4が表示さ
れる。

以上のように記録した音声の秒数に応じて適宜分割数ｎ
を設定すると、デイスプレイ３３上に波形の全体像を良
好に表示することが可能となる。

パワー処理パワー処理は、第６図示のフローチヤートにより行なわ
れる。

これは、音声メモリ４の全サンプル点を分割数ｎに従つ
てＳ₁，Ｓ₂，……，Ｓ_nのグループに分割し、各グルー
プの平均パワーを求め、その平均パワーを基に表示パワ
ーデータを算出する方式である。

フロー(1)において、第５図に例示したように、音声メ
モリ４の内容である第５図(Ａ)を第５図(Ｂ)に示すよう
にグループに分割する。デイスプレイ３３の表示位置に
対応して画像メモリ３１１内にＸ座標、Ｙ座標を設定す
るが、フロー(2)では表示パワーデータを格納する時間
方向の範囲を決めるＸ座標の初期値と終了値を設定す
る。フロー(3)におけるｉはグループ指定を進めるため
のカウンターであり、ｉ＝１としてＳ₁グループから指
定する。ｊは後記するフロー(7)で求める重み付け平均
パワーPWjのためのカウンターである。このPWjが表示パ
ワーデータとなる。フロー(4)でＳ_iグループの平均パワ
ーPiを求める。Piの算出は次式による。

ここではＳ₁グループのＰ₁が求められる。フロー(5)で
ＮＯとなりＦ１を回る。フロー(6)でｉ＝２となりフロ
ー(4)でＰ₂が求められる。再びＦ１を回つてフロー(6)
でｉ＝３となりフロー(4)でＰ₃が求められる。今度はｉ
＝３なのでフロー(5)でＹＥＳとなりフロー(7)へ進む。
以後は後記するフロー(11)でＹＥＳと判定される迄Ｆ２
を回る。フロー(7)では重み付け平均パワーPWjを求め
る。PWjは連続するいくつかのグループの平均パワー
に、さらに重み付けして平均を求めたものであり、表示
上のピツチの影響による目障りな微細な変化分を取り除
き、なめらかな曲線に変換する効果がある。

PWjの算出は次式による。

通常Ｗ₁＝0.2，Ｗ₂＝0.8，Ｗ₃＝1.0，Ｗ₄＝0.8，Ｗ₅＝
0.2程度にするとよい。又Ｐ₁〜Ｐ_nの範囲外となる平均
パワーとそれに乗算されるＷ_kはすべて０とする。

ここではｊ＝１なので次式のようにＰＷ₁が求められ
る。

フロー(8)でＰＷ₁を画像メモリ３１１のＹ座標の値▲
▼₁に変換する。

フロー(9)で画像メモリ３１１の座標（Ｘ，▲▼₁）
に打点処理する。

フロー(10)でｊ＝２とする。フロー(11)でＸ座標が終了
値に達しているならば、フロー(12)で打点処理した表示
の内側を縦線処理して終了する。終了値でなければフロ
ー(13)へ向かう。フロー(13)ではＸ座標の値を１だけ進
める。今度はフロー(6)でｉ＝４となり、フロー(4)でＰ
₄が求められる。フロー(7)ではｊ＝２なので次式のよう
にPW₂が求められる。

以後フロー(11)でＸ座標＝終了値と判定される迄Ｆ２を
回り続け、処理が続行される。その処理推移を表５に示
し、フロー(7)で重み付けする平均パワーの範囲を矢印
で示す。

表５においてPW_n-1，PW_nを算出するとき、フロー(4)で
はＳ₁〜Ｓ_nグループの範囲外であるＳ_n+1、Ｓ_n+2からＰ
_n+1、Ｐ_n+2を求めることになるが、これは実行してもし
なくてもどちらでもよい。どちらにしてもフロー(7)のP
W_jの算出ではＰ₁〜Ｐ_nの範囲外として無視される。

画像メモリ３１１で▲▼_jを格納するＸ座標の範囲
をｍ点としてその一段だけのパワー表示可能時間をｔと
したとき、分割数ｎとの関係は前記と同様にｔ〔秒〕＝
１０ｍ／ｎとなる。結局、第３−１図のようにパワーと
波形とを同じ時間軸で表示するときはｎの値を同じに設
定すればよい。

ピツチ処理ピツチ処理のフローチヤートを第７図に示す。音声メモ
リの全サンプル点を分割数ｎに従つてＳ₁、Ｓ₂、…、Ｓ
_nのグループに分割し、各グループ毎に有声音ならば平
均ピツチを求めていく方式である。フロー(1)において
第５図に例示したように、音声メモリ４の内容である第
５図(Ａ)を第５図(Ｂ)に示すようなグループに分割す
る。デイスプレイ３３の表示位置に対応して画像メモリ
３１１内にＸ座標、Ｙ座標を設定するが、フロー(2)で
は表示ピツチデータを格納する時間方向の範囲を決める
Ｘ座標の初期値と終了値を設定する。フロー(3)におけ
るｉはグループ指定を進めるためのカウンターであり、
ｉ＝１としてＳ_iグループから指定する。フロー(4)で前
記と同様にＳ_iグループの平均パワーＰ_iを求める。ここ
ではＳ_iグループのＰ_iが求められる。フロー(5)ではＰ_i
により無音か有音かが判定される。Ｐ_iが一定値以上で
なければ無音とし、ピツチが存在しないので次のグルー
プの処理のために直接フロー(11)へ向かう。一定値以上
であれば有音とし、フロー(6)でグルーフ内での自己相
関値Ｈ_iを求める。ここではＨ₁が求められる。フロー
(7)ではＨ₁により無声音か有声音かが判定される。Ｈ₁
が一定値以上でなければ摩擦音や破裂音のようにピツチ
を有しない無声音とし、次のグループの処理のために直
接フロー(11)へ向かう。一定値以上であれば有声音と
し、フロー(8)で男、女、子供別にピツチ周期の範囲を
仮定して相関をとつてグループ内の平均ピツチＰＴｉを
求める。ここではＰＴ₁が求められる。フロー(9)でPT₁
を画像メモリ３１１のＹ座標の値▲▼₁に変換す
る。フロー(10)で画像メモリ３１１の座標（Ｘ，▲
▼₁）に打点処理する。フロー(11)でＸ座標が終了値に
達しているならばピツチデータの格納を終了する。終了
値でなければフロー(12)でＸ座標の値を１だけ進め、フ
ロー(13)でｉ＝２とする。今度はＳ₂グループが指定さ
れる。以後フロー(11)でＸ座標＝終了値と判定される
迄、各グループの処理が続行される。画像メモリ３１１
で▲▼₁を格納するＸ座標の範囲をｍ点としてその
一段だけのピツチ表示可能時間をｔとしたとき、分割数
ｎとの関係は前記と同様にｔ〔秒〕＝１０ｍ／ｎとな
る。結局、第３−３図のようにパワーとピツチと波形と
を同じ時間軸上で表示するときはｎの値をすべて同じに
設定すればよい。

サウンドスペクトログラフ処理サウンドスペクトログラフ処理のフローチヤートを第８
図に示す。音声メモリの全サンプル点を分割数ｎに従つ
てＳ₁、Ｓ₂、…、Ｓ_nのグループに分割し、各グループ
毎に高速フーリエ変換してパワースペクトルを求めてい
く方式である。フロー(1)において第５図に例示したよ
うに、音声メモリ４の内容である第５図(Ａ)を第５図
(Ｂ)に示すようなグループに分割する。デイスプレイ３
３の表示位置に対応して濃淡画像メモリ５内にＸ座標、
Ｙ座標を設定するが、フロー(2)では表示パワースペク
トルデータを格納する時間方向の範囲を決めるＸ座標の
初期値と終了値を設定する。フロー(3)におけるｉはグ
ループ指定を進めるためのカウンターであり、ｉ＝１と
してＳ₁グループから指定する。フロー(4)で高域周波数
を強調するが、これは次のフロー(5)で算出するパワー
スペクトルの高域成分のレベルが低域成分よりも小さく
なるのを防止し、表示が高域迄一様にするためのもので
ある。

フロー(4)で求めた_ｉをフロー(5)で高速フーリエ変換
してパワースペクトルPS₁(f)を求める。ここではＳ₁グ
ループのPS₁(f)が求められる。フロー(6)でPS₁(f)を濃
淡階調に対応した値▲▼_１(f)に変換する。

フロー(7)で▲▼_１(f)のスペクトル周波数ｆを濃淡
画像メモリ５のＹ座標の値に変換して▲▼
_１（）とする。フロー(8)で濃淡画像メモリ５の座標
（Ｘ，▲▼_１（））に濃淡を有する打点処理をす
る。フロー(9)でＸ座標が終了値に達しているならばパ
ワースペクトルデータの格納を終了する。終了値でなけ
ればフロー(10)でＸ座標の値を１だけ進め、フロー(11)
でｉ＝２とする。今度はＳ₂グループが指定される。以
後フロー(9)でＸ座標＝終了値と判定される迄、各グル
ープの処理が続行される。

濃淡画像メモリ５で▲▼_１（）を格納するＸ座標
の範囲をｍ点としてその一段だけの表示可能時間をｔと
したとき、分割数ｎとの関係は前記と同様にｔ〔秒〕＝
１０ｍ／ｎとなる。結局、第３−２図のようにパワーと
サウンドスペクトログラフとを同じ時間軸上で表示する
ときはｎの値を同じに設定すればよい。Ｘ座標に時間10
00点、Ｙ座標に周波数２５０点をとり、堪能階調１６
（４ピツト）に対応して変換した▲▼_１（）を、
Ｌ４のバス信号を介して濃淡画像メモリ５に格納して表
示した始めの部分が第３−２図のサウンドスペクトログ
ラフである。

次に本発明の１実施例による発音矯正を、第９−１図の
フローチヤートに基づいて説明する。このフローチヤー
トでは、実施例のステツプ（ステツプ(2)）の前に、訓
練者がネイテイブと自己の発音とを、“自身の耳”によ
る聴感と、唇、舌、あごなどの“形態”による視覚で比
較・評価するステツプ(1)を行ない、発音の矯正を効率
的に行なうように構成している。

そこで、先ず、ステップ(1)について説明すると、フロ
ー(1)で動作モーダＭ５１を実行してビデオデイスク１
の再生を開始すると、ビデオデイスプレイ１１に例えば
導入部のタイトル等の映像が再生される。フロー(2)で
動作モードＭ５４を実行するとビデオデイスプレイ１１
の映像は図のフロー(2)の右側に示すように、例えば訓
練モードＥ１〜Ｅ４等の訓練モードを示す静止画が表示
される。

訓練が終了し、上記画像からＥＸを選択するとフロー
(3)で動作モードＭ５２を実行してビデオデイスク１の
回転が停止して終了する。訓練モードＥ１〜Ｅ４のどれ
かを選択すると、フロー(4)でＥ１〜Ｅ４に応じた映像
が格納されているビデオデイスク１の対応する訓練モー
ドの先頭フレーム番号を選択し、フロー(5)で動作モー
ドＭ５３を実行し選ばれた訓練モードのタイトルが静止
画で表示される。図のモード(5)の右側には、訓練モー
ドＥ４の子音が選ばれた場合の映像例を示す。フロー
(6)は細分化した訓練項目がある場合に実行し、項目メ
ニューの静止画が表示される。例えばＥ４の子音のとき
は／ｐ／音、／ｔ／音、／ｋ／音…から１つを選ぶ。フ
ロー(7)で動作モードＭ４を実行してビデオデイスク１
の音声信号をスピーカから放音するようにセットする。
こゝで、フロー(1)の前に動作モードＭ４を実行して、
導入部のタイトル等の映像のバツク音楽を流したり、静
止画にする前にその内容を説明したりしてもよい。フロ
ー(8)で動作モードＭ５５を実行し、日本人とネイテイ
ブとの発音の違いを発声の仕方（唇、舌、あご等の形
態）を中心に説明する。このフロー(8)は繰返すことが
できる。フロー(9)でネイテイブの発音の仕方を視聴
し、このフロー(9)は繰返すことができる。こゝで音声
だけならば動作モードＭ２を実行してネイテイブの発音
を音声メモリ４に格納した御動作モードＭ３を実行して
音声メモリ４の内容を繰返しスピーカから放音させても
よい。

フロー(10)で訓練者は満足がいくまでミラー１２で唇、
舌、あご等の動きを比較し、発音練習を行なう。必要な
らば、フロー(9)を繰返して再度ネイテイブの発音映像
を視聴する。

練習が終了すれば自分の発音を音声メモリ４に格納し、
ネイテイブの発音と比較してみる。そこでフロー(11)で
動作モードＭ１を実行して訓練者がマイクロフオン９へ
向つて発音した音声信号を音声メモリ４に格納し、フロ
ー(12)で動作モードＭ３を実行してその訓練者の発音を
スピーカ１０から放音する。その後フロー(13)で動作モ
ードＭ４を実行してビデオデイスク１の音声信号をスピ
ーカ１０から放音するようにセツトし、フロー(14)でフ
ロー(9)と同じネイテイブの発音映像を視聴する。フロ
ー(12)〜(14)を繰返せば、訓練者の発音の提示とネイテ
イブの発音映像の提示が交互に実行される。

以上でステツプ(1)の発音診断と矯正が終了する。フロ
ー(15)でステツプ(1)が良いかどうかを判定する。良け
れば本発明のステツプによる発音診断へ向い、良くなけ
れば再度フロー(9)へ向う。

本発明においては、訓練者は、最初に、発音を音声分析
した上での特徴及びネイテイブとの明確な差が表われや
すい着眼点の映像による説明を理解し、次に自己の発音
を音声分析して動作モードＭ６１〜Ｍ６３により表示さ
れた音声パラメータのパターンを見る。訓練者は、この
パターンから測定した発音特徴データを入力すると、こ
れと手本の発音特徴データとが比較され、その比較結果
より矯正するためのコメントを表示する。そしてコメン
トを参考にして自己の発音を矯正する。

次にその詳細をフローチヤートについて説明する。

まず、フロー(16)で訓練モードＥ１〜Ｅ４のうちのどれ
かを選択する。

次に、音声パラメータの表示を訓練モードＭ６１〜Ｍ６
３から選ぶための前準備としてフロー(17)で前記した分
割数ｎを設定する。訓練モードＥ１のストレスアクセン
トやＥ２のイントネーシヨンのように文章を扱う訓練で
は、音声メモリ４への音声記録時間も長めになるので分
割数を小さくし、デイスプレイ３３上の一段表示可能時
間ｔを長めに設定する。その反対に訓練モードＥ３の母
音やＥ４の子音のように長くても単語までの訓練ではｎ
を大きくし、ｔを短かめにする。このｔを音声記録時間
に合わせて可変にすることも考えられるが、表示時間軸
の単位がめまぐるしく変わると訓練者はかえつてとまど
うので好ましくない。

次に、訓練モードＥ１〜Ｅ４のそれぞれについて動作モ
ードＭ６１〜Ｍ６３を実行する。

今、訓練モードＥ４を選択したとすると、これをフロー
(18)でＥ３と分離する。訓練モードE4の子音の発音状態
は主に帯気、摩擦、破裂の持続時間が着眼点であり、フ
ロー(19A)で動作モードＭ５５を実行し、その着眼点を
説明する映像を映し出す。

次いでフロー(19B)で帯気、摩擦破裂の持続時間の特徴
のよく表われるパワーと波形について上述の処理を行な
い、訓練モードＥ３を選択したとすると、フロー(20A)で動
作モードＭ５５を実行し、母音の発音パターンの着眼点
であるホルマントの表われ方の特徴、母音を標準化した
持続時間及びパワーの特徴を説明する映像を映し出す。
次いでフロー(20B)で上述の特徴が表われるサウンドス
ペクトログラフとパワーについて上述のような処理を行
う。

尚、訓練モードＥ４の子音の中にも／ｍ／、／ｎ／、／
ｒ／、…のようにホルマントの表われ方を問題にするも
のがあるが、そのような訓練では例外的にフロー(20A)
を経てフロー(20B)に向かわせ、動作モードＭ６２を実
行させる。

訓練モードＥ１のストレスアクセント又はＥ２のイント
ネーシヨンを選択するときは、パワー又はピツチが着眼
点であるから、フロー(21A)で動作モードＭ５５を実行
し、その着眼点を説明する映像を映し出す。そしてフロ
ー(21B)でパワーと波形とピツチについて上述のような
処理を行なう。尚、訓練モードＥ１のストレスアクセン
トではパワーと波形のみについて処理を行なつてもよ
い。

フロー(19B)，(20B)，(21B)で処理した結果を、フロー
(22)で動作モードＭ６１，Ｍ６２，Ｍ６３に従つてデイ
スプレイ３３上に表示する。

例えば子音の訓練モードＥ４である場合、フロー(19
A)，(19B)を経て動作モードＭ６１の実行によりデイス
プレイ３３上に訓練者のパワーと波形が第１１図(Ａ)
(Ｂ)に示すように表示されたとする。訓練者は自分のパ
ワーと波形についてのパターンを見ながら、先にフロー
(19A)で説明された子音の発音状態の着眼点である帯
気、摩擦、破裂パワーなどの注意すべき個所の持続時間
を自分で測定し、その測定値を数値化してフロー(23)に
おいて入力する。

その詳細を第９−２図について説明すると、この入力は
フロー(23A)〜(23D)で行われる。測定値はこの例では、
１，２，３の３段階に数値化して入力する。量的に最も
少ない場合には“１”、多い場合に“３”、その中間の
場合に“２”を各入力する。

訓練者の“pa”の発音に伴なうパワー及び波形の音声パ
ターンが第１１図(Ａ)及び(Ｂ)に示されたものであると
すると、第１０図(Ａ)(Ｂ)のネイテイブの音声パターン
例と比べて第１１図(Ｂ)に示すように注意すべき“ｐ”
音の帯気が全く無いので、フロー(23A)でＡ＝１を入力
し、摩擦や破裂には無関係な発音なので、フロー(23B)
(23C)でそれぞれＢ＝１，Ｃ＝１を入力し、第１１図
(Ａ)に示すように注意すべき“ｐ”音のパワーが全くな
いのでフロー(23D)でＤ＝１を入力する。したがつて最
終的な測定値入力は（Ａ，Ｂ，Ｃ，Ｄ）＝（１，１，
１，１）となる。次に、フロー(23E)〜(23H)において、
この測定値入力とあらかじめ数値化しておいた訓練中の
子音に対応するネイテイブの値を比較する。第１０図の
(Ａ)及び(Ｂ)に示すパワー及び波形のパターンからも明
らかなように、ネイテイブの“ｐ”音はパワーが強く、
帯気が長いことが特徴となつているので、ネイテイブの
発音（Ａ，Ｂ，Ｃ，Ｄ）を（３，１，１，３）と数値化
しておく。もしも測定値入力がネイテイブの数値と完全
に一致すれば注意すべき“ｐ”音の発音は良好なので、
フロー(23E)〜(23H)のすべてでＮＯと判定されて次の課
題を選ぶためにフロー(1)に向う。一致しなければ発音
に問題があるのでフロー(23E)〜(23H)のどれかでＹＥＳ
と判定されてフロー(26)のコメントの中の１つがデイス
プレイ３３上に表示される。そこでこのコメントを参考
にして発音矯正を実行するためにフロー(9)へ向い、ス
テツプ(1)から再度やり直す。この例ではフロー(23E)で
測定値Ａ＝１がネイテイブのＡ＝３と比較されＹＥＳと
判定され、Ａ＝１に対応するコメントＣＭ１が表示され
る。このコメントＣＭ１は、例えば“帯気が短かすぎ
る。唇を閉じて思い切り息を口の中から外へ出しなさ
い。”である。訓練者はこのコメントＣＭ１に従つてフ
ロー(9)からやり直し、帯気を長くするように矯正す
る。矯正の結果を再び、フロー(19A),(19B)を経てフロ
ー(22)でデイスプレイ３３に表示する。このような過程
を経ることにより訓練者の発音は第１０図示のネイテイ
ブの発音の音声パラメータに近づけることができる。

尚、Ａ＝２に対応するコメントＣＭ２は例えば“帯気の
長短が中途半端である。帯気の長さに注意してネイテイ
ブの発音に従つて練習しなさい”であり、コメントＣＭ
３は、例えば“帯気が長すぎる。唇を閉じて軽く息を口
の中から外へ出しなさい。”である。

今後は訓練者の発音の帯気が長いので、フロー(23A)で
Ａ＝３、パワーがまだ弱いので、フロー(23D)でＤ＝２
が入力され、最終的な測定値入力は（Ａ，Ｂ，Ｃ，Ｄ）
＝（３，１，１，２）となる。この結果、フロー(23H)
で測定値Ｄ＝２がネイテイブのＤ＝３と比較されてＹＥ
Ｓと判定され、Ｄ＝２に対応するコメントＣＭ５が表示
される。このコメントＣＭ５は、例えば“パワーの強弱
が中途半端である。パワーの強さに注意してネイテイブ
の発音に従つて練習しなさい。”である。訓練者はこの
コメントに従つてフロー(9)からやり直し、パワーを強
くするように発音する必要性を認識し矯正する。発音訓
練の結果、訓練者の発音は第１０図のネイテイブの発音
に近づき、今度はフロー(23D)でＤ＝３が入力し、最終
的な測定値入力は（Ａ，Ｂ，Ｃ，Ｄ）＝（３，１，１，
３）となり、フロー(23E)〜(23H)のすべてでＮＯと判定
されてフロー(1)の次の課題の選択へ進む。

結局、フロー(23E)〜う(23H)のすべてのＮＯと判定され
るまでフロー(9)からフロー(26)までの過程をコメント
を参考にしながら繰返し矯正訓練を行うことになる。

尚、コメントＣＭ４は例えば“パワーが弱すぎる。口の
中から外へ出す息の量を増しなさい。",コメントＣＭ６
は、例えば“パワーが強すぎる。口の中から外へ出す息
の量を減しなさい。”である。

以上ではフロー(23)(26)の詳細を説明したが、フロー(2
4)(27)やフロー(25)(28)も同様な要領で処理される。

上述の実施例では英語を対象としたが、中国語、ドイツ
語、フランス語等の外国語の発音訓練や、発音障害者の
発音訓練、更には外国人のための日本語の発音訓練に対
しても教材を用意すれば適用することが可能である。

（発明の効果）以上説明したように、本発明によるときは、訓練者は、
自己の発音の音声パラメータのパターンから測定した発
音特徴データと手本の発音特徴データの比較結果よりそ
の結果に対応した矯正のコメントが得られ、能率よくネ
イテイブによる標準の音声パターンに近づく発音訓練を
することができ、また、自己の学習の進行状況をとらえ
やすく、学習意欲を増加させることができる。

【図面の簡単な説明】

第１図は本発明の１実施例のブロツク図、第２図は第１
図示の信号制御部の結線図、第３−１図、第３−２図及
び第３−３図はそれぞれ音声パラメータのパターンを示
す図、第４図は波形処理のフローチヤート、第５図(Ａ)
(Ｂ)(Ｃ)(Ｄ)はそれぞれ波形処理の説明図、第６図はパ
ワー処理のフローチヤート、第７図はピツチ処理のフロ
ーチヤート、第８図はサウンドスペクトログラフ処理の
フローチヤート、第９−１図は本発明の１実施例のフロ
ーチヤート、第９−２図はその要部の詳細なフローチヤ
ート、第１０図(Ａ)(Ｂ)はネイテイブの音声パラメータ
の１例を示す図、第１１図(Ａ)(Ｂ)は第１０図(Ａ)(Ｂ)
に示すネイテイブに対応する訓練者の音声パラメータの
１例を示す図である。１…ビデオデイスク２…ビデオデイスクプレ-ヤ３…パ-ソナルコンピュ-タ４…音声メモリ５…濃淡画像メモリ６…信号制御部９…マイクロフオン 11…スピーカ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭61−6732（ＪＰ，Ａ) 特開昭57−96377（ＪＰ，Ａ) 特開昭58−172680（ＪＰ，Ａ) 特開昭60−227284（ＪＰ，Ａ)

Claims

【特許請求の範囲】

【請求項１】学習すべき発音の音声パラメータのパター
ン上で前記発音の正確さを特定付ける要素である着眼点
及びその特徴を説明する手段と、訓練者が発音した音声
を分析して音声パラメータのパターンを表示する音声分
析手段と、訓練者の音声パラメータのパターン上で前記
着眼点を数値化して得られた発音特徴データと対応する
手本の発音に関してあらかじめ前記着眼点を数値化して
おいた手本の発音特徴データとを比較する手段と、該比
較手段の結果に応じて発音を矯正するためのコメントを
選択し表示する手段とから成ることを特徴とする発音訓
練装置。
【請求項２】前記音声分析手段は、発音音声をデイジタ
ル信号として記憶する音声メモリと、該音声メモリに格
納された音声信号を分割数に従って複数のグループに分
割する手段と、該グループ毎に２種類以上の音声パラメ
ータを抽出して同じ時間軸上に表示する手段と、前記分
割数を複数の訓練モード別に設定する手段を備えること
を特徴とする特許請求の範囲第１項記載の発音訓練装
置。