JP2011028282A

JP2011028282A - 発音学習装置及び発音学習プログラム

Info

Publication number: JP2011028282A
Application number: JP2010203823A
Authority: JP
Inventors: Makoto Goto; 誠後藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-09-11
Filing date: 2010-09-11
Publication date: 2011-02-10
Anticipated expiration: 2025-03-09
Also published as: JP4842393B2

Abstract

【課題】学習者がネイティブ・スピーカーと同じ数の単音を知覚できるようにすることにより、外国語の発音を改善させるための発音学習装置を提供する。
【解決手段】この発音学習装置は、音声データ００５を取得する音声データ取得手段０１６と、該音声データ取得手段によって取得された前記音声データ００５を呈示する音声呈示手段００７とを有し、前記音声データは、目標言語特有変数が互いに異なる複数の音声データ０１５からなる音声バリエーション０１４を構成する音声データであることを特徴とする。
【選択図】図３

Description

本発明は、外国語の習得を目的とする発音学習装置及び発音学習プログラムに関する。また、外国語の習得を目的とする発音学習教材の製造方法にも関する。

従来、外国語の発音学習は、カセットテープやＣＤに録音された手本となる音声を繰り返し聞き、模倣することにより行われてきた。しかしながら、この方法では学習に多大な時間がかかるうえ、必ずしも完全な習得には至らない。そのため、近年では、コンピュータ技術を応用した対話的な発音学習装置が提案されている。例えば、学習者が発声した音声から特徴を抽出し、スペクトル図やフォルマント図として画面上に表示してフィードバックすることにより、学習者が自分の発音の欠陥を判断しながら学習を進めることができる発音学習装置が実用化されている。しかしながら、このような装置を用いても、外国語の発音学習の困難さが抜本的に解決するとは言い難い。

特開２００１―２６５２１１号公報

日本語を母国語とする学習者にとって外国語の発音が苦手である原因の一つとして、同じ音声を聞いたときに、発音学習の対象である目標言語のネイティブ・スピーカーと、学習者とで、知覚する単音数が食い違う現象が挙げられる。例えば、英語のネイティブ・スピーカーが“ｌａ”という二つの単音として知覚する音声を、日本人の学習者は“ラ”という一つの単音として知覚する。なお、本発明においては、英語における音素や日本語におけるモーラなど、その言語を母国語とする者がスピーキングまたはヒアリングを行うときに心理的に１つと感じる音を単音と呼ぶ。従来の発音学習においては、この「単音数の食い違い現象」は、仕方のないことと見なされてきた。
本発明が解決しようとする課題は、学習者が目標言語のネイティブ・スピーカーと同じ数の単音を知覚できるようにすることにより、発音を抜本的に改善する発音学習装置を提供することである。なお、以下では目標言語として専ら英語を用いて例示するが、ドイツ語やフランス語など他の言語を目標言語とする場合においても同様の効果を得ることができる。

リスニング時の「単音数の食い違い現象」を工学的なモデルとして捉えるならば、「リスニング時のヒトの脳内過程において、パターン認識の前処理として行われるセグメンテーション処理の様式が、同じ音声波形に対してであっても、母国語によって異なる現象」であると言える。図１に、脳内セグメンテーション処理の様式の違いを模式的に示す説明図を示す。このように連続した音声波形００１が脳に入力されたとき、日本語型セグメンテーション様式で知覚する場合は、切り出し区間００２のように、全体的に１つの断片として切り出されるのに対し、英語型セグメンテーション様式で知覚する場合は、切り出し区間（子音部分）００３と切り出し区間（母音部分）００４のように、二つの別々の断片として切り出される。これら切り出された断片が、より高次な認識機能の入力となるため、知覚する単音の数が異なってしまうと考えられる。もし、学習によって、学習者がネイティブ・スピーカーと同じセグメンテーション様式で知覚できるようになれば、この「単音数食い違い現象」に起因する発音の困難さは解決するはずである。

本発明における第一の解決手段は、聴覚的学習時に、呈示中の音声がどのようなセグメンテーション様式で知覚すべきかを学習者に意識させることを目的とする。図２は、構成０１に記載の発音学習装置の基本構成図である。この発音学習装置は、音声データ００５を記憶する音声データ記憶手段００６と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターン００９を記憶するセグメンテーションパターン記憶手段０１０と、前記セグメンテーションパターン００９の区間の切り替わりのタイミングを学習者に知覚させるタイミング刺激を生成するタイミング刺激生成手段０１１と、前記音声データ００５を呈示する音声呈示手段００７と、該音声呈示手段による音声００８の呈示と同期させて前記タイミング刺激０１３を呈示するタイミング刺激呈示手段０１２とからなることを特徴とする。

本発明においては、音声データを時間軸上で複数の区間に分割するパターンをセグメンテーションパターンと呼び、この音声データに対応付けることができる情報として扱う。これは、区間の区切りに相当する時刻によって表現される。また、本発明において、タイミング刺激とは、区間の切り替わりのタイミングを学習者に知覚させるための刺激であり、時間解像度が低すぎて利用できない嗅覚・臭覚以外の感覚、すなわち、視覚・聴覚・触覚のどれかを通して感覚刺激として与えられる。

好ましくは、前記セグメンテーションパターンは、一つ以上の単音区間と一つ以上の背景区間とからなる。単音区間の音声は脳内の高次認識部に認識対象として渡され、単音として意識に上る。一方、背景区間の音声は背景音として切り捨てられ、言語音としては意識には上らない。区間をこのように分類することにより、言語音として知覚すべき時間帯と、言語音として知覚すべきではない時間帯とを明示的に学習者に呈示することができる。知覚すべきではない時間帯とは、「渡り音」や「語頭ノイズ」などである。

渡り音に相当する区間を指定するためには、先行する単音の終了時刻と後続する単音の開始時刻の間にギャップとなる背景区間を設ける。なお、本発明において、ギャップとなる背景区間のことをギャップ区間と呼ぶ。渡り音とは音声学の概念であり、調音結合の一種である。二つの音素を連続して発するときに、その間の時間帯に生じる遷移的な音のことである。通常、渡り音の時間帯に音があることは意識されない。したがって、学習者は、目標言語のセグメンテーション様式における渡り音の時間帯の音は無意識下に閉じ込めるべきである。ただし、渡り音部分のみを人為的に切り取った音声を聞くと不自然に聞こえることから、この区間の音声は背景区間の音声であるとはいえ、無意識の領域において、その前後の単音の認識を副次的にサポートしている可能性は否定できない。

語頭ノイズに相当する区間を指定するためには、語頭の単音の開始時刻の前に無音ではない背景区間を設ける。語頭ノイズとは、本発明において定義する用語であり、例えば次のような場面で出くわす現象である。英語のネイティブ・スピーカーが“ｒ”と“ｌ”の音の違いを説明するとき、子音だけを引き伸ばして発音することがある。ところが、日本人は、“ｒ”や“ｌ”が持続している間は「う〜う〜と唸ってないで早く発音してくれ」と思い、渡り音が始まる頃から言語音として認識しようと注意を向けようとする。このように、日本語のセグメンテーション様式においては、語頭で不自然に長く子音が持続しているときには、ノイズとして処理され、言語音としては認識されない。このような区間を、本発明では語頭ノイズと呼び、背景区間として指定することができるものとする。

また、好ましくは、前記セグメンテーションパターン記憶手段とは別の第二セグメンテーションパターン記憶手段をもち、前記タイミング刺激は、前記セグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングとを、同時に学習者に知覚させることができる。この構成により、学習者は、母国語のセグメンテーション様式と目標言語のセグメンテーション様式とを対比しながら学習することができる。

さらにまた、好ましくは、前記タイミング刺激は、単音発音記号から成る。この構成により、単音の開始時刻や終了時刻だけでなく、単音が何であるかも含めて意識しながら学習することができる。なお、本発明において、単音発音記号とは、国際音声記号（ＩＰＡ記号）による表記に限られず、単音を区別しうる記号全般を表す。視覚刺激における記号としては、通常のアルファベット表示やカタカナ表示などを用いてもよい。例えば、英語の単音発音記号として、英語の単音と１対１に対応するカタカナ表記を用いてもよい。聴覚刺激における記号としては、単音を孤立して発音させたものを発音記号として呈示してもよい。触覚における記号としては、点字記号を発音記号として呈示してもよい。

本発明における第二の解決手段は、聴覚的学習時に、目標言語にのみ起こりうる音声バリエーションを学習者に呈示することにより、母国語のセグメンテーション様式に基づいた単音列の知覚を抑制することを目的とする。図３に構成０５に記載の発音学習装置の基本構成図を示す。この発音学習装置は、音声データ００５を取得する音声データ取得手段０１６と、該音声データ取得手段によって取得された前記音声データ００５を呈示する音声呈示手段００７とを有し、前記音声データは、目標言語特有変数が互いに異なる複数の音声データ０１５からなる音声バリエーション０１４を構成する音声データであることを特徴とする。

本発明においては、自然な音声として知覚される音声を「自然音声」と定義し、その音声データを自然音声データと呼ぶ。これは、目標言語のネイティブ・スピーカーに自然に発声するよう指示して得られる音声データや、標準的なパラメータで音声合成された音声データのことを指す。一方、人為的な調整を加えた音声を「調整音声」と定義し、その音声データを調整音声データと呼ぶ。これは、目標言語のネイティブ・スピーカーに意図的に自然音声とは異なるように発声するよう指示して得られる音声、自然音声データをフィルタ処理によって人為的に変換した音声、または、非標準的なパラメータで音声合成した結果得られる音声を表す。

本発明において、目標言語特有変数とは、その変数の変更に伴って、目標言語のセグメンテーション様式で知覚した単音列を変化させることなく学習者の母国語のセグメンテーション様式で知覚した単音列を変化させる変数のことである。図４に、目標言語特有変数による音声調整の説明図を示す。学習者の母国語と目標言語とで、目標言語特有変数０１７の軸に沿った同一単音列として知覚される範囲が異なると考える。すなわち、母国語のセグメンテーション様式においては、この軸上の狭い範囲０１８でのみ、ある単音列として知覚されるが、目標言語のセグメンテーション様式においては、この軸上の広い範囲０１９において、ある単音列として知覚されるものとする。このとき、図４の自然音声０２０を聞けば、慣れ親しんできた母国語のセグメンテーション様式で知覚されてしまい、目標言語のセグメンテーション様式で知覚することは、どんなに学習者が努力しても困難である。しかしながら、図中の調整音声０２１を聞けば、母国語のセグメンテーション様式に引き摺られてしまうことはない。

そこで、まず調整音声を聞かせることにより、目標言語のセグメンテーション様式で知覚させるよう仕向ける。その直後に自然音声を聞けば、目標言語のセグメンテーション様式にて知覚する心理的な構えができているため、自然音声においても母国語のセグメンテーション様式ではなく目標言語のセグメンテーション様式にて知覚することが可能となる。さらに、調整音声と自然音声を交互に呈示することで、より効果的となる。

目標言語特有変数は、具体的には、目標言語における、単音間の背景区間の時間長、単音間の人為的分裂度、単音の持続時間長、または、単音の音響パラメータのことを指す。また、これら四種類の変数のうち、いくつかの変数を成分とするベクトルも目標言語特有変数である。なお、目標言語特有変数としては、秒やＨｚなどの単位をもつ物理量自体をもって絶対的に表現することもあれば、変数の分布範囲をいくつかのレベルに分け、その所属するレベルの番号をもって相対的に表現することもある。

目標言語特有変数の第一の選択肢は、目標言語における単音間の背景区間の時間長である。目標言語のネイティブ・スピーカーに背景区間の時間長が十分に大きくなるよう発声の指示を行えば、各単音は孤立して発音されることとなる。例として、自然音声として自然な速度で発された“ｌａ”を、調整音声として“ｌ”と“ａ”を孤立させて発音させた場合を考える。英語型セグメンテーション様式では、これらの音声は、デジタルな記号列として見れば、共に“ｌ＋ａ”という単音列として知覚される。一方、日本語型のセグメンテーション様式では、自然音声は“ラ”の一単音と知覚され、調整音声は“ｌ＋ア”の二単音として、知覚される。このように、自然音声と調整音声との間で、目標言語のセグメンテーション様式で知覚したときの単音列は変化せずに、学習者母国語のセグメンテーション様式で知覚したときの単音列は変化しているため、この「単音間の背景区間の時間長」は目標言語特有変数として選択可能である。

目標言語特有変数の第二の選択肢は、目標言語の単音間の人為的分裂度である。本発明において人為的分裂度とは、フィルタリング等の信号処理によって、渡り音の部分の音声波形のみ、局所的に振幅ゲインを減少させ、人為的に前後の単音を分離して知覚されるように仕向けた場合の、振幅ゲイン減少の度合いを指す。英語型セグメンテーション様式では、渡り音は意識に上らないので、多少の違和感はあるもののフィルタリングの前後で知覚される単音列は変わらない。一方、日本型セグメンテーション様式では、渡り音部分が単音として重要な役割を果たしているので、子音がよく聞き取れなくなる。

目標言語特有変数の第三の選択肢は、目標言語の単音の持続時間長である。英語型のセグメンテーション様式では、摩擦音や流音など持続音と分類される子音の長さは自由に変えて発音することができる。一方、日本語型のセグメンテーション様式においては、子音の長さを変えて発音することはできない。一般に、あるセグメンテーション様式において、バリエーションをつけてスピーキングできる場合は、聞き手としてもそのバリエーションを聞き慣れているはずなので、知覚するときに同じクラスとして認識されやすい。一方、バリエーションをつけてスピーキングできない場合は、聞き手はそのバリエーションを聞き慣れていないため、知覚するときに同じクラスとして認識することはできない。

例えば、英語のネイティブ・スピーカーに“ｒａ”の中の“ｒ”の持続時間を延ばして発音してもらうと、日本のセグメンテーション様式で知覚する場合は、“ラ”から“うラ”に変化する。ただし、この“う”は日本語の“う”ではなくノイズのように聞こえる音であるが、ここではこのノイズ的な音の発生に気づくことも単音列の変化と捉える。一方、英語型のセグメンテーション様式で知覚する場合は、単音の持続時間が延びるだけで、得られる単音列は変わらない。

目標言語特有変数の第四の選択肢は、目標言語の単音の音響パラメータである。音響パラメータとは、音のピッチ（音程）、または、音の大きさを表す。英語型のセグメンテーション様式では、“ｌ”と“ａ”を意図的に別のピッチや大きさで発声された場合でも、元々別の単音なので、知覚される単音列は変わらないが、日本語のセグメンテーション様式で知覚する場合は、渡り音部分が、日本語では起こりえない変化をするため、聞き取りづらくなる。
前記目標言語特有変数の第五の選択肢は、第一の選択肢から第四の選択肢の組み合わせである。この場合、組み合わされた変数を成分とするベクトルを目標言語特有変数と考えることができる。

好ましくは、上記音声バリエーションは、自然音声データとは目標言語特有変数が異なる複数の音声データを含む。この構成により、目標言語特有変数を段階的に調整することができる。図５に段階的な音声調整を表す説明図を示す。目標言語特有変数０１７に沿って音声が連続的に変化できるものと考える。この軸上に、自然音声ではない複数の調整音声があるとする。自然音声とは非常に異なる第一の調整音声０２２を聞いた直後に自然音声０２０を聞くのはセグメンテーション様式を母国語の様式に引き戻してしまう危険性がある。そこで、第一の調整音声０２２を聞いた後は、それとはあまり変わらない第二の調整音声０２３を聞き、目標言語のセグメンテーション様式で知覚することの練習を行う。そして、十分な練習を完了したら、今度は、もう少し自然な音声に近い第三の調整音声０２４へと学習を進める。このように、目標言語のセグメンテーション様式で知覚するときの困難さを、段階的に克服することが可能である。

前記音声データ取得手段は、以下の三手法のどれかによって、音声バリエーションを構成する音声データを取得する。音声データ取得手段の第一の選択肢となる構成を含んだ構成０５の発音学習装置の構成図を図６に示す。自然音声データ０２５を記録する自然音声データ記憶手段０２６と、前記自然音声データを複数の区間に分割するセグメンテーションパターン００９を記憶するセグメンテーションパターン記憶手段０１０を有し、前記音声データ取得手段０２７は、前記セグメンテーションパターン記憶手段０１０に記憶されたセグメンテーションパターン００９と目標言語特有変数０１７をパラメータとして前記自然音声データに対してフィルタリング処理を行うことにより、前記音声データ００５を取得することを特徴とする。

音声データ取得手段の第二の選択肢は、音声バリエーションが格納された構成０７に記載のコンピュータ読み込み可能な媒体から音声データを読み出すことにより音声データを取得することを特徴とする。
音声バリエーション取得手段の第三の選択肢は、目標言語特有変数をパラメータとして音声合成を行うことにより音声データを取得することを特徴とする。

さらに、前記音声データ取得手段は、以下の三手法のどれかによって、取得する音声データを決定する。データ決定の第一の選択肢は、上述のように音声バリエーションの中から順に音声を取得する。すなわち、図４においては、調整音声０２１から自然音声０２０というように、呈示順序を決めておく。図５においては、第一の調整音声０２２から呈示し、次に第二の調整音声０２３へと進み、第三の調整音声０２４、自然音声０２０というように決められた順序にしたがって音声を呈示する。データ決定の第二の選択肢は、音声バリエーションの中から順不同に音声を取得する。例えば、図５において、各々の調整音声をランダムな順序で呈示する。順に呈示する方法によってある程度学習が進んだ後にランダムに呈示する方法によって追加学習することで、学習者にとってどの調整音声が呈示されるかが分からない状態での聴覚的学習となるため、リスニング力の強化が望める。

データ決定の第三の選択肢によって音声データを決定する発音学習装置の構成図を図７に示す。この発音学習装置は、入力手段０２８を有し、前記音声データ取得手段は、前記入力手段から得られる入力に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする。この構成により、学習者からの入力に基づいて音声データを決定することができる。

本発明における第三の解決手段は、発声的学習時に、学習者の発した音声が、目標言語のセグメンテーション様式で知覚したとする場合には、どのようなセグメンテーションパターンで知覚されるかを学習者にフィードバックすることを目的とする。図８に構成０９に記載の発音学習装置の基本構成図を示す。この発音学習装置は、音声を入力する音声入力手段０２９と、該音声入力手段によって入力された音声データ００５からセグメンテーションパターン００９を認識するセグメンテーション手段０３０と、前記セグメンテーションパターン００９の特徴を呈示するセグメンテーションパターン特徴呈示手段０３１を有することを特徴とする。

本発明において、セグメンテーションパターンの特徴とは、セグメンテーションパターンを入力とする関数として表現される値である。例えば、単音区間の長さ、単音間の背景区間の長さ、セグメンテーションパターンそのもの、適正度を表す評価値などがある。

また、構成０９に記載の発音学習装置は、好ましくは、音声データを記憶する音声データ記憶手段と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段とを有し、前記セグメンテーション手段は、前記音声データを照合パターンとして、入力音声データとの間でＤＰマッチングを行う。この構成により、照合パターンを切り替えることによって、複数のセグメンテーション様式についてのセグメンテーションを行うことができる。

本発明の発音学習装置を用いると、“ラ”と“ｌ＋ａ”、または、“母音＋ツ”と“母音＋ｔ＋ｓ”のように、学習者の母国語と目標言語との間において、同じ音を聞いたときにでも単音数が異なる現象を解消することにより、発音学習の効果を上げることができる。
構成０１に記載の発音学習装置を用いると、聴覚的学習時に、呈示中の音声がどのようなセグメンテーション様式で知覚すべきかを学習者に意識させることができる。
構成０４に記載の発音学習教材製造方法によって生産されたデータの格納されたコンピュータ読み込み可能な媒体を用いると、汎用のメディアプレイヤーで再生させることにより、構成０１の発音学習装置を用いた学習と同じ学習効果を得ることができる。
構成０５に記載の発音学習装置を用いると、聴覚的学習時に、目標言語にのみ起こりうる音声バリエーションを学習者に呈示することにより、母国語のセグメンテーション様式に基づいた単音列の知覚を抑制することができる。
構成０９に記載の発音学習装置を用いると、発声的学習時に、学習者の発した音声が、目標言語のセグメンテーション様式で知覚したとする場合には、どのように知覚されるかを学習者にフィードバックすることができる。

脳内セグメンテーション処理の様式の違いを模式的に示す説明図第一の解決手段の基本構成図第二の解決手段の基本構成図目標言語特有変数による音声調整の説明図目標言語特有変数による段階的な音声調整の説明図フィルタリング処理により音声データを取得する場合の、第二の解決手段の構成図入力手段を用いる場合の、第二の解決手段の構成図第三の解決手段の基本構成図セグメンテーションパターンの手入力を説明する図タイミング刺激を例示する図タイミング刺激呈示手段の処理の説明図ギャップ区間を伴うセグメンテーションパターンの説明図ギャップ区間を伴うセグメンテーションパターンから生成されるタイミング刺激の説明図同一音声データに対して、複数のセグメンテーションパターンを対応させる構成の説明図複数のセグメンテーションパターンから生成されるタイミング刺激の説明図単音発音記号から成るタイミング刺激の説明図構成０７の記録媒体に格納されるデータ形式を例示する図調整音声の生成方法の説明図人為的分裂度を調整する処理手順を示す図実施例４における記録媒体に格納されるデータ形式を例示する図

本発明の実施の様態は、以下の構成を含む。
（構成０１）音声データを記憶する音声データ記憶手段と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段と、前記セグメンテーションパターンの区間の切り替わりのタイミングを学習者に知覚させるタイミング刺激を生成するタイミング刺激生成手段と、前記音声データを呈示する音声呈示手段と、該音声呈示手段による音声呈示と同期させて前記タイミング刺激を呈示するタイミング刺激呈示手段とからなることを特徴とする発音学習装置。
（構成０２）音声呈示装置と刺激呈示装置と記憶装置を有するコンピュータを、構成０１に記載の発音学習装置として機能させるためのプログラム。
（構成０３）音声データと、該音声データを時間軸上で複数の区間に分割するセグメンテーションパターンとが、対応付けられて記録されたコンピュータ読み込み可能な記録媒体。
（構成０４）音声データを複数の区間に分割するセグメンテーションパターンから、前記区間の切り替わりのタイミングを学習者に知覚させるタイミング刺激を生成するタイミング刺激生成ステップと、前記音声データと前記タイミング刺激を同期呈示可能なデータとしてコンピュータ読み込み可能な媒体に格納するデータ格納ステップからなることを特徴とする発音学習教材製造方法。
（構成０５）音声データを取得する音声データ取得手段と、該音声データ取得手段によって取得された前記音声データを呈示する音声呈示手段とを有し、前記音声データは、目標言語特有変数が互いに異なる複数の音声データからなる音声バリエーションを構成する音声データであることを特徴とする発音学習装置。
（構成０６）音声呈示装置を有するコンピュータを、構成０５に記載の発音学習装置として機能させるためのプログラム。
（構成０７）目標言語特有変数が互いに異なる複数の音声データからなる音声バリエーションが格納されたコンピュータ読み込み可能な媒体。
（構成０８）目標言語特有変数が互いに異なる複数の音声データからなる音声バリエーションを取得する音声バリエーション取得ステップと、前記音声バリエーションをコンピュータ読み込み可能な媒体に格納するデータ格納ステップからなることを特徴とする発音学習教材製造方法。
（構成０９）音声を入力する音声入力手段と、該音声入力手段によって入力された音声データからセグメンテーションパターンを認識するセグメンテーション手段と、前記セグメンテーションパターンの特徴を呈示するセグメンテーションパターン特徴呈示手段を有することを特徴とする発音学習装置。
（構成０１０）音声入力装置と刺激呈示装置を有するコンピュータを、構成０９に記載の発音学習装置として機能させるためのプログラム。
（構成１）前記複数の区間は、一つ以上の単音区間と一つ以上の背景区間とからなることを特徴とする構成０１の発音学習装置。
（構成２）前記セグメンテーションパターン記憶手段とは別の第二セグメンテーションパターン記憶手段をもち、前記タイミング刺激は、前記セグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングとを、同時に学習者に知覚させることができることを特徴とする構成０１または構成１に記載の発音学習装置。
（構成３）前記タイミング刺激は、単音発音記号から成ることを特徴とする構成０１または構成１または構成２に記載の発音学習装置。

（構成４）前記音声バリエーションは、自然音声とは目標言語特有変数が異なる複数の音声データを含むことを特徴とする構成０５に記載の発音学習装置。
（構成５）自然音声データを記録する自然音声データ記憶手段と、前記自然音声データを複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段を有し、前記音声データ取得手段は、前記セグメンテーションパターンと目標言語特有変数をパラメータとして前記自然音声データに対してフィルタリング処理を行うことにより、前記音声データを取得することを特徴とする構成０５または構成４の発音学習装置。

（構成６）前記複数の区間は一つ以上の単音区間と一つ以上の背景区間から成り、前記目標言語特有変数は人為的分裂度であり、前記フィルタリング処理は前記背景区間に対応する音声波形の振幅を、前記人為的分裂度に応じて減ずる処理であることを特徴とする構成５に記載の発音学習装置。
（構成７）前記音声データ取得手段は、構成０７の媒体から音声データを読み出すことにより音声データを取得することを特徴とする構成０５または構成４の発音学習装置。
（構成８）前記音声データ取得手段は、目標言語特有変数をパラメータとして音声合成を行うことにより、前記音声データを取得することを特徴とする構成０５または構成４の発音学習装置。

（構成９）前記音声データ取得手段は、前記音声バリエーションを構成する音声データを、順に取得することを特徴とする構成０５または構成４乃至構成８の発音学習装置。
（構成１０）前記音声呈示手段は、前記音声バリエーションを構成する音声データを、順不同に取得することを特徴とする構成０５または構成４乃至構成８の発音学習装置。
（構成１１）入力手段を有し、前記音声データ取得手段は、前記入力手段から得られる入力に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成４乃至構成８の発音学習装置。

（構成１２）前記入力手段は音声入力手段であり、該音声入力手段によって入力された音声データからセグメンテーションパターンを認識するセグメンテーション手段を有し、前記音声データ取得手段は、前記セグメンテーションパターンの特徴に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成１１の発音学習装置。
（構成１３）音声データ取得手段は、直前に呈示された音声データの目標言語特有変数にも従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成１１乃至構成１２の発音学習装置。
（構成１４）前記音声バリエーションを構成する音声データの各々に対応付けられて目標言語特有変数が格納された構成０７に記載のコンピュータ読み込み可能な媒体。

（構成１５）前記特徴は、単音区間の長さであることを特徴とする構成０９に記載の発音学習装置。
（構成１６）前記特徴は、単音間の背景区間の長さであることを特徴とする構成０９に記載の発音学習装置。
（構成１７）前記特徴は、前記セグメンテーションパターンの適正度を表す評価値であることを特徴とする構成０９に記載の発音学習装置。
（構成１８）前記特徴は、前記セグメンテーションパターンそのものであることを特徴とする構成０９に記載の発音学習装置。
（構成１９）音声データを記憶する音声データ記憶手段と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段とを有し、前記セグメンテーション手段は、前記音声データを照合パターンとして、入力音声データとの間でＤＰマッチングを行うことを特徴とする構成０９に記載の発音学習装置。
（参考例１）

構成０１の発音学習装置の例を示す。音声データ記憶手段００６には、目標言語のネイティブ・スピーカーが発声した音声を、マイクロフォンを通して音声データに変換したものを格納する。セグメンテーションパターン記憶手段０１０には、予めオペレータが該当する音声データ００５を可視化した画面を見ながら手入力したセグメンテーションパターン００９を格納する。音声データとセグメンテーションパターンは、構成０３に記載のコンピュータ読み込み可能な媒体に記録しておき、必要時に、音声データ記憶手段とセグメンテーションパターン記憶手段に各々をロードする。

オペレータがセグメンテーションパターンを手入力するときのＧＵＩ（グラフィカルインタフェース）画面の例を図９に示す。図９（ａ）は、入力前の画面である。画面上には、縦軸を周波数軸、横軸を時間軸として、音声データがスペクトル図として可視化されている。図中では第一フォルマントから第三フォルマントのみを模式的に描いているが、濃淡画像としてスペクトルの全情報を可視化する方が望ましい。なお、可視化手法に関しては、スペクトル図や音声波形図のように、時間軸を含む図であるならば、どのような図に可視化しても、時刻の手入力は可能である。ここでは、“ｌａ”という単音列に該当する音声が呈示される場合を想定する。オペレータは、この図をみながら、マウス等の入力装置を用いて、各々の単音区間の開始時刻と終了時刻を図中で指定する。この場合は、Ｔ０，Ｔ１，Ｔ２の三時刻に相当する位置を指定する。すると、図９（ｂ）のように、Ｔ０，Ｔ１，Ｔ２の三時刻が入力されたことを表現するため、縦の点線として表示される。これにより、２つの単音区間に分割することを表すセグメンテーションパターン、すなわち、（Ｔ０，Ｔ１，Ｔ２）という時刻の組を手入力できたこととなる。

図１０に、タイミング刺激生成手段０１１が生成するタイミング刺激の例を示す。この例では、コンピュータ画面上の視覚刺激として学習者に呈示されることとする。タイミング刺激生成手段は、図９で入力されたセグメンテーションパターンを読み込み、二つの単音が含まれることを解釈し、二つのブランク画像１０１に挟まれた画像Ａ１０２と画像Ｂ１０３という静止画像を含む画像列を生成する。この画像列と画像を切り替えるべき時刻情報のセットをタイミング刺激呈示手段０１２に引き渡す。図１０の例では、単音毎に色を変更した円を描画している。このように、タイミング刺激０１３として用いられる視覚刺激は、高速に画面を切り替えたときにも、切り替えのタイミングが分かりやすいように単純な図形などで構成することが好ましい。

図１１には、タイミング刺激呈示手段が、図１０で図示したタイミング刺激を呈示するときのフローチャートを示す。タイミング刺激呈示手段０１２は、音声データの呈示と同期を取るため、音声データの呈示を開始する時にタイマーＴをＴ＝０にリセット１０４するとともに、ブランク画像を呈示する１０５。そして、Ｔを時刻の推移とともにカウントアップし、ＴとＴ０を比較して１０６、Ｔ≧Ｔ０となったら画像Ａを呈示し１０７、ＴとＴ１を比較して１０８、Ｔ≧Ｔ１となったら画像Ｂを呈示し１０９、ＴとＴ２を比較して１１０、Ｔ≧Ｔ２となったらブランク画面を呈示する１０５。学習者は音声を聞き取るときに、同時にタイミング刺激も知覚することにより、単音区間の切り替わりのタイミングを知覚することができる。
（参考例２）

構成０１に記載された発音学習装置の別の例を示す。基本的な実施の形態は参考例１と同じであるが、セグメンテーションパターンに、単音間のギャップ区間が含まれる点（構成１）と、これに伴いタイミング刺激の様態が違う点が異なる。図１２に“ｌａ”という音声のスペクトル図の模式図とそこにギャップ区間を含めて設定されたセグメンテーションパターンの例を示す。ここでは、セグメンテーションパターンとして、各単音の開始時刻と終了時刻をそれぞれ設定する。よって、この場合セグメンテーションパターンは、（（Ｔ０，Ｔ３），（Ｔ４，Ｔ２））となる。

図１３に、このセグメンテーションパターンから生成され、タイミング刺激呈示手段に呈示されるタイミング刺激の例をしめす。この場合は、ブランク画像１０１と画像Ａ１０２を交互に繰り返すだけでよく、単音毎に刺激を変える必要はない。なぜならば、セグメンテーションパターン内の背景区間に対応するブランク画像が間に挟まることにより、各単音の開始時刻と終了時刻のタイミングが明確に知覚できるからである。
（参考例３）

構成０１に記載された発音学習装置のさらに別の例を示す。基本的な実施の形態は参考例２と同じであるが、同じ音声に対して、セグメンテーションパターンとして英語用のパターンと日本語用のパターンとを対応させること（構成２）、及び、これに伴いタイミング刺激の様態が違う点が異なる。図１４に“ｌａ”という音声のスペクトル図の模式図とそこに別々に設定された英語用のパターン図１４（ａ）と日本語用のパターン図１４（ｂ）とを示す。この場合英語用のパターンは、（（Ｔ０，Ｔ３），（Ｔ４，Ｔ２））となり、日本語用のパターンは、（（Ｔ５，Ｔ２））となる。

図１５に、これら二つのセグメンテーションパターンから得られるタイミング刺激の例をしめす。ここでは、音声とセグメンテーションパターンの対応関係が学習者にとってより分かりやすくするために、学習者が発音学習を行うときにも、音声データのスペクトル図を同時に表示するものとする。音声の呈示に同期させて白色の縦棒３０１を時間軸に沿って動かす。このとき、英語の単音区間内、すなわち、Ｔ０≦Ｔ＜Ｔ３、Ｔ４≦Ｔ＜Ｔ２の時間においては、縦棒の下の領域３０２を赤色に変色する。一方、日本語の単音区間内、すなわち、Ｔ５≦Ｔ＜Ｔ２においては、縦棒の上の領域３０３を赤色に変色する。このように、タイミング刺激呈示手段が、二つのセグメンテーションパターンの区間の切り替わりのタイミングを同時に知覚させるようなタイミング刺激を呈示することにより、学習者が、母国語と目標言語のセグメンテーションパターン様式を対比させながら発音学習を行うことができる。
（参考例４）

構成０１に記載された発音学習装置のさらに別の例を示す。基本的な実施の形態は参考例２と同じであるが、タイミング刺激として目標言語の単音に対応する発音記号を呈示する点が異なる（構成３）。まず、オペレータがセグメンテーションパターンを手入力する際、同時に、各単音が何であるかを入力しておく。そして、タイミング刺激を呈示するとき、各々の単音に対応する発音記号の画像を呈示する。呈示例を図１６として示す。ここでは、発音記号としてアルファベットを用いる。図１３で示した画像Ａ１０２の代わりに、“Ｌ”と表示された画像４０１と、“Ａ”と表示された画像４０２を呈示する。

このように、タイミング刺激呈示手段が、単音発音記号を呈示することにより、学習者がどの単音が呈示されているかを理解することができる。
なお、参考例１乃至参考例４において、呈示されたタイミング刺激の画面推移を動画像データとして構成し直し、音声データと共にマルチメディアデータとしてコンピュータ読み込み可能な媒体に格納すれば、構成０４の発音学習教材製造方法の例となる。
（参考例５）

構成０４に記載の発音学習教材製造方法の例を示す（構成３）。セグメンテーションパターンは参考例１の図９にて例示したものと同じパターンを用いる。タイミング刺激生成ステップは、このセグメンテーションパターンを読み込み、タイミング刺激として、聴覚刺激を生成する。具体的には、ネイティブ・スピーカーが孤立させて発音した各単音を素材として、単音区間の開始時刻と同期するように配列させることにより、モノラルの音声データを合成する。そして、データ格納ステップは、このように作成したモノラル音声データをステレオ音声データの左耳用に、元となった連続音声をステレオ音声データの右耳用になるように、記録媒体にステレオ音声データとして記録する。学習者は、ステレオ式ヘッドホンを通して通常のプレーヤーでこの音声データを再生することにより、右耳からは手本となる音声が、左耳からは聴覚刺激を用いた単音発音記号からなるのタイミング刺激が聞こえる。
（実施例１）

構成０５の発音学習装置の例を記す（構成７、構成９）。目標言語特有変数としては、単音の持続時間を使う。自然音声としては、ネイティブ・スピーカーが自然に発音した「持続子音＋母音」を用いる。調整音声としては、ネイティブ・スピーカーが子音部分を意図的に長く発音したものを用いる。なお、ネイティブ・スピーカーには、子音の持続時間以外の発声条件はできるだけ変えずに発音する旨をお願いしておかなければならない。
このようにして録音収集した音声データについて、自然音声データと調整音声データをセットで音声バリエーションとみなし、音声バリエーション番号を付与した上で、図１７に示す形式にて構成０７に記載の記録媒体に記録しておく。音声バリエーションの内容は、例えば、音声バリエーション１が“ｌａ”、音声バリエーション２が“ｌｉ”、音声バリエーション２が“ｌｕ”、というように、学習すべき単音列が異なっている。

学習時の発音学習装置の制御手順は以下の通りである。まずは、第一の音声バリエーションを対象とする。音声データ取得手段０１６は、上記の記録媒体から音声バリエーション番号をキーとして、自然音声データ１を検索し読み込む。そして、音声呈示手段０１８は、読み込まれた音声データを学習者に呈示する。数秒後に、音声データ取得手段が調整音声データ１を読み込み、音声呈示手段が読み込まれた音声データを学習者に呈示する。
自然音声と調整音声は、一度ずつだけの呈示でもよいが、自然音声と調整音声を交互に繰り返して呈示し続ける方がより効果的である。学習者が第一の音声バリエーションについて十分学習したと考えたときには、ＧＵＩ上の「次ボタン」を押して第二の音声バリエーションの学習へと進む。
（実施例２）

構成０５の発音学習装置の例を記す（構成４、構成５、構成６、構成１１、構成１３）。目標言語特有変数としては、人為的分裂度を使う。自然音声としては、ネイティブ・スピーカーが自然に発音した「子音＋母音」を用いる。自然音声データには、事前にオペレータによりセグメンテーションパターンが手入力されているものとする。
調整音声データは、自然音声データに対してセグメンテーションパターンに由来する重み付け関数によりフィルタリングをして得る。図１８に、フィルタリングによって、人為的分裂度（ｖ）を変化させながら調整音声を生成する方法を説明する図を示す。

図１８（ａ）を自然音声の波形とする。事前にセグメンテーションパターンを手入力してあるためギャップ区間７０１が音声波形のどの部分に対応するかが分かっている。
図１８（ｂ）はｖ＝１００％の重み付け関数である。このｖ＝１００％における重み付け関数は、ギャップ区間の内部が概ね０に近く、その外部が概ね１となるような関数であるが、ステップ関数を用いると調整音声に高周波ノイズが発生するため、ガウス関数など滑らかに変化する関数を用いることが望ましい。ｖ＝１００％の調整音声は、図１８（ａ）の自然音声波形と図１８（ｄ）の重み付け関数を同じ時刻（ｔ）同士の値で掛け合わせたものとして得られる。

図１８（ｃ）はｖ＝５０％における重み付け関数であり、図１８（ｄ）はｖ＝２５％における重み付け関数である。一般に、ｖ＝１００％における重み付け関数をＷ（ｔ）とすると、｛１−（１−Ｗ（ｔ））×Ｖ／１００｝としてｖ＝Ｖ％における重み付け関数を得ることができる。こうして得られた重み付け関数と図１８（ａ）の自然音声波形を掛け合わせることにより、任意の人為的分裂度に対応する調整音声データを得ることができる。
このように、セグメンテーションパターンと目標言語特有変数をパラメータとして入力し、自然音声データに対してフィルタリング処理を行うことにより、音声データを取得することができる（構成５）。

入力手段から得られる入力を用いて、目標言語特有変数である人為的分裂度を調整する処理手順を具体的に例示したフローチャートを図１９に示す（構成１１、構成１３）。なお、入力装置としてボタンＡとボタンＢを有している。まず、初期設定として、人為的分離度（ｖ）を１００％に設定する７０２。次に設定された分離度の調整音声を呈示する７０３。つぎに入力をチェックする７０４。入力が無い場合はそのまま入力を待ち続けるが、ボタンＡが押されたことが検知されたときには、ｖを５％減少させて、新たなｖの値に基づいた調整音声を呈示する７０５。一方、ボタンＢが押されたことが検知されたときには、ｖを５％増加させて、新たなｖに基づいた調整音声を呈示する７０６。これを何度も繰り返す。なお、ｖが０％から１００％の範囲外へ出すことはできないので、ｖが境界値を取るときはそのままの値を維持するものとする。また、ｖ＝０％の調整音声は、重み付け関数が定数１となるため、自然音声と全く同じ音声となる。

以上の処理内容を学習者側から見ると、この装置の操作は以下のように行われる。まず、初期設定として人為的分離度１００％の調整音声が呈示されるため、ハッキリと子音と母音が区別されて聞こえる。その後、子音と母音が別々に聞こえたときにはボタンＡを押すことにより人為的分離度が５％減じられた、より結合されて聞こえやすい調整音声を呈示させる。学習者は、常に子音と母音を分離して聞き取ろうと努力しなければならないが、その努力にも関わらず子音と母音が結合してしまい、日本語の単音のように一単音として聞こえてしまうこともある。その場合は、ボタンＢを押すことにより、人為的分離度が５％増加させられた、より分離されて聞こえやすい調整音声を呈示させる。この処理を続けていけば、人為的分離度がある定数付近で上下しながら拮抗することとなる。

以上の学習を日々続ければ、習熟度に従って、この拮抗する人為的分離度が徐々に小さい側にずれて行き、０％の人為的分離度の調整音声すなわち自然音声を聞いたときにでも、子音と母音が分離して知覚されるようになる。そうなれば学習は完了となる。
なお、実施例２は、音声データ取得手段によって得られたデータを、コンピュータ読み込み可能な媒体に格納する機能を付加することにより、構成７としての例となる。

また、実施例２に記述のフィルタを用いて得られる音声バリエーションを、昇順またはランダム順に、すべて１つの音声ファイルにまとめて、コンピュータ読み取り可能な媒体に格納することにより、構成０８の発音学習教材製造方法としての例となる。この音声ファイルを標準的なメディアプレーヤーを用いて再生することにより、構成９または構成１０の学習装置で練習する場合と、同じ効果が得られる。
（実施例３）

構成０５の発音学習装置の例を記す（構成９、構成１０）。目標言語特有変数としては、単音間の背景区間の時間長を用いる。英語型のセグメンテーション様式においては、子音と母音の間の渡り音部分の長さを変えて発音することができる。一方、日本語型のセグメンテーション様式においては、子音と母音が一体化されて一つの単音を構成するため、子音と母音の間の渡り音部分の長さを変えて発音することはできない。

自然音声としては、ネイティブ・スピーカーが自然に発音した「子音＋母音」を用いる。調整音声としては、ネイティブ・スピーカーが意図的にいろいろな単音間のギャップ区間の長さで発音したものを用いる。ただし、調整音声のギャップ区間の長さは、すべて、自然音声ギャップ区間の長さより長いものとする。録音収集した音声データを、自然音声と調整音声を組にして音声バリエーション番号を付与した上で、さらに調整音声には、各々のギャップ区間の長さも加えて、図２０に示す形式にて構造付けをして、構成０７に記載の記録媒体に記録しておく（構成１４）。なお、ギャップ区間の長さは、各々の音声データについて、セグメンテーションパターンを手入力することにより得ることができる。

発音学習の手順は以下の通りである。ある構成では、順に音声データを呈示する（構成９）。まず、音声データ取得手段は、第一の音声バリエーション音声に含まれるすべての調整音声データ（調整音声データ１１、調整音声データ１２、…）を読み込み、ギャップ区間の長さに基づいて降順にソートする。そして、ギャップ区間の長い方から順番に音声データを呈示する。すべて呈示し終わったら、音声データ取得手段は、自然音声データ１を上記の媒体から読み込み、音声呈示手段によって呈示する。これにより、ギャップ区間の長いものからギャップ区間の短いものへと順に呈示されることとなる。

また、別の構成として、順不同に呈示することも可能である（構成１０）。このとき、同時にギャップ区間の長さの取りうる範囲内で乱数を発生させ、その乱数値と最も近い値のギャップ区間の長さをもつ調整音声データを取り出す。そして、調整音声呈示手段は、自然音声が呈示された数秒後に、得られた調整音声データを呈示する。さらに、学習者がＧＵＩ上の「次ボタン」を押して、次の組の発音学習に進むまで、ランダムなギャップ区間長をもつ調整音声データを呈示し続けるものとする。このように、ランダムに目標言語特有変数を変化させながらリスニング学習を行うことは、会話中に起こりうるバリエーションへの対応という観点から、リスニング能力の向上に役立つ。
なお、実施例３については、セグメンテーションパターンが手入力されているため、構成０１の発音学習装置の構成と併用するとより効果的である。
（実施例４）

構成０５の発音学習装置の例を記す（構成８、構成１１）。目標言語特有変数は、単音の音響パラメータの一例として、「有声子音のピッチ」を用いる。英語型のセグメンテーション様式においては、やや不自然な発音ではあるものの、有声子音のピッチは母音のピッチとは独立に変えて発音することができる。一方、日本語型のセグメンテーション様式においては、有声子音のピッチを母音のピッチとは独立に変えて発音することはできない。

入力手段としては、ＧＵＩ上のスライダーバーと音声呈示ボタンを用いる。学習者によって音声呈示ボタンを押されたとき、スライダーバーが中心の位置に存在するときは、有声子音の基本周波数を母音の基本周波数と同じ周波数にて音声合成を行い自然音声として呈示する。一方、学習者によって音声呈示ボタンを押されたとき、スライダーバーが中心の位置からずれているときは、スライダーバーの位置に応じて有声子音の基本周波数を母音の基本周波数とは変更して音声合成を行い調整音声として呈示する。これにより、学習者は、自分のスライダーバー入力によって有声子音のピッチを自由に調整することにより、自分がどの程度の学習レベルかを素早く把握することができる。
（実施例５）

構成０５の発音学習装置の例を示す（構成４、構成５、構成６、構成１１、構成１３）。目標言語特有変数以外の構成は、すべて実施例２に示した発音学習装置と同じである。目標言語特有変数としては、単音間の背景区間の長さを第一成分とし、人為的分裂度を第二成分とする二次元ベクトルを用いる。

実施例２では、人為的分裂度が０％、５％、…、１００％となる２１段階の値をとるように実装したが、この２１段階を、７段階ずつ３グループに分け、それぞれの第一のフィルタリング（前記の人為的分裂度に応じた重み付けフィルタ）の元となる音声波形を得るために、前処理として、単音間の背景区間の長さのみを変更するための第二のフィルタリングを行う。第二のフィルタリングの具体的な処理は、標準的な話速変換処理を局所的に適用することにより、ギャップ区間の内部の音声波形のみを、ピッチを維持したまま、区間の長さのみを引き伸ばす。例えば、自然音声データのギャップ区間の長さが１００ミリ秒だったとすると、それが１５０ミリ秒と２００ミリ秒となる中間的な調整音声データを二つ生成する。

そして、上記のグループ毎に、第一グループ（０％、５％、…、３０％）についてはギャップ区間長が１００ミリ秒の自然音声そのものを、第二グループ（３５％、４０％、…、６５％）についてはギャップ区間長が１５０ミリ秒の中間的な調整音声を、第三グループ（７０％、７５％、…、１００％）についてはギャップ区間長が２００ミリ秒の中間的な調整音声を、それぞれ、原波形として実施例２と同様に第一のフィルタリングを行う。これにより、（１００ミリ秒、０％）、（１００ミリ秒、５％）、…、（１５０ミリ秒、３５％）、（１５０ミリ秒、４０％）、…、（２００ミリ秒、７０％）、（２００ミリ秒、７５％）、…、（２００ミリ秒、１００％）という、２次元ベクトル空間内の２１個の点列を得ることができる。この２１個の点列を用いて、実施例２の発音学習装置の目標言語特有変数とすることにより、実施例２よりもより効果的な発音学習装置を提供することができる。
なお、実施例５で示した局所的な話速変換処理を用いれば、目標言語特有パラメータとして単音持続時間を用いる場合にもフィルタリングにて調整音声を取得することができる。
（参考例６）

構成０９に記載の発音学習装置の例を記す。音声入力手段は、音声を電気的な音声信号に変換するマイクロフォンを備え、そこから出力される電気信号をデジタルデータとしての音声データに変換する。
セグメンテーション手段では、音声認識分野において時間軸を正規化するときに標準的に用いられるＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチング手法を用いる。すなわち、音声入力手段によって入力された音声データを入力パターンとし、手本音声を照合パターンとして、時間軸を非線形に伸縮させ、最適に照合させる。この手本音声には、あらかじめセグメンテーションパターンを手入力しておくことができるので、その時刻が照合後に入力された音声データのどの時刻に対応づけられたかを調べることにより、入力音声に対して対応づけられるべきセグメンテーションパターンの時刻はどこかを知ることができる。

セグメンテーションパターン特徴呈示手段は、認識されたセグメンテーションパターンを構成する要素、またはその適正度を表す評価値（構成１７）を学習者にフィードバックする手段である。セグメンテーションパターンを構成する要素としては、単音区間の長さ、単音間の背景区間の長さ、または、セグメンテーションパターンそのものである（構成１５、構成１６、構成１８）。例えば単音の持続時間をフィードバックするならば、「あなたが発声した音声の子音の持続時間は、何々ミリ秒です」という文字表示として学習者にフィードバックすることができる。学習者は、この表示を見ながら発声練習を行うことにより、単音の持続時間や渡り音の時間長を任意に制御できるように訓練することができる。これらの値を任意にコントロールできるようになったということは、目標言語のセグメンテーション様式が身に付いたということに他ならない。

更に、照合パターンを切り替える機能を付加してもよい（構成１９）。例えば、英語の発音として捉える場合と、日本語の発音としてその音声を捉えるときとで、どのようなセグメンテーションパターンとなるかを学習者が対比しながら学習を進めるきっかけとなる。これは、セグメンテーション手段において、ＤＰマッチングを行うときに照合パターンを日本人話者が発声した音声データに切り替え、この音声データに手入力した日本型のセグメンテーションパターンに対応させて入力音声のセグメンテーションパターンを認識することによって実装できる。

また、セグメンテーションパターンそのものをフィードバックしてもよい（構成１８）。すなわち、セグメンテーションパターンを構成するすべての時刻を省略せずフィードバックしてもよい。フィードバックは文字表示で行ってもよいが、何らかの可視化を行うほうがより効果的である。例えば、参考例１に記述のタイミング刺激と同じ種類の刺激を用いてフィードバックを与える。この場合は、学習者がマイクロフォンに向かって発声する前に、構成０１の発音学習装置の構成によって、手本となる音声とタイミング刺激を呈示してリピートアフターミー型の発音練習を行えば、手本音声のセグメンテーションパターンと自分の音声のセグメンテーションパターンとを対比することができ、より効果的である。
（参考例７）

構成０９の例を示す（構成１７）。学習者は、いろいろなギャップ区間の長さで発音するよう心掛けながら、マイクロフォンに向かって何度も発音練習を行い続ける。一定数以上の音声データのサンプリングが終わったら、セグメンテーション手段により各音声データのセグメンテーションパターンを認識し、ギャップ区間の時間長の分散値を計算する。この分散値が閾値以下であれば、十分にギャップ区間の長さにバリエーションを加えながら発音できるようになったとは判定できないため、評価値として「偽」というブール値を、例えばブザーを鳴らすなどしてフィードバックする。一方、分散値が閾値以上であれば、十分にギャップ区間の長さにバリエーションを加えながら発音ができるようになったと判定し、「真」というブール値を、例えばブザーとは別の音を鳴らすなどしてフィードバックする。

なお、逆に英語のネイティブ・スピーカーが日本語の発音学習をするときにこの装置を利用するときは、フィードバックの評価値の真偽を逆にすればよい。
また、分散値自体を画面上に文字表示するなどして、別の評価値としてフィードバックしてもよい。
（実施例６）

構成０５と構成０９を組み合わせて構成させた発音学習装置の例を示す（構成１１、構成１２、構成１３）。これは、発声的学習と聴覚的学習を同時に行う、所謂リピートアフターミー型の学習方法である。
この発音学習装置を構成０９の発音学習装置としてみた場合の構成は以下の通りである。持続音である子音の持続音の持続時間が閾値より短くなれば、ブザーを鳴らして学習者にフィードバックを与える。日本語型のセグメンテーション様式においては、持続音の持続時間を長くすることができないので、これにより、英語型セグメンテーション様式に基づいているかどうか確認できる。

一方、この発音学習装置を構成０５の発音学習装置としてみた場合、基本構成は実施例２に示した発音学習装置と全く同じであり、異なる点は、ボタンＡまたはボタンＢの押下状態の変わりに、上記の持続音の持続時間が閾値以上であるか閾値未満であるかによって判定される点である。

以上の処理内容を学習者側から見ると、この装置の操作は以下のように行われる。まず、初期設定として人為的分離度１００％の調整音声が呈示されるため、ハッキリと子音と母音が区別されて聞こえる。そこで、持続子音の持続時間を長く保つように努力しながら、その音声を真似て発音すれば、英語型のセグメンテーション様式にて発音するため、持続時間を長く保つことができ、結果としてブザーは鳴らない。このことが実施例２のボタンＡを押す代わりとなり、人為的分離度が５％減じられた、より結合されて聞こえやすい調整音声を呈示させる。学習者は、常に子音と母音を分離して聞き取ろうと努力しなければならないが、その努力にも関わらず子音と母音が結合してしまい、日本語の単音のように一つの単音として聞こえてしまうこともある。その場合は、持続子音の持続時間を長く保つことができなくなるため、実施例２のボタンＢを押す代わりに、ブザーが鳴って、人為的分離度が５％増加させられた、より分離されて聞こえやすい調整音声を呈示させる。

この処理を続けていけば、人為的分離度がある定数付近で上下しながら拮抗することとなる。この発音学習装置を用いれば、学習者は、わざわざボタンを押す必要がないためで、実施例２の装置と比べて容易に利用できる。
（参考例８）

構成０３の媒体を作成する手法の例を示す。実施例３において説明したセグメンテーションパターンを手入力する方法は、手入力に時間が掛かること、および、ネイティブ・スピーカーに手本となる音声を提供してもらうときに、必要な目標言語特有パラメータの必要な範囲のデータが満遍なく収集されたかどうかが分からず余分に提供してもらわざるを得ない。そこで、参考例６で示した発音学習装置の構成要素であるセグメンテーション手段を用いて、データ収集を効率よく行うオーサリングツールを例示する。

まず、ネイティブ・スピーカーに自然音声データを提供してもらった段階で、手入力によりセグメンテーションパターンを入力する。その後は、この自然音声データを照合データとしてＤＰマッチングを行うことにより、意図的にギャップ区間を長く発音してもらって音声バリエーションを集めるときには、データ収集と同時にセグメンテーションが行われ、セグメンテーションパターンが得られることとなる。これにより、オペレータの手入力の手間が大幅に省けるとともに、十分な音声バリエーション収集が完了した時点を判定することで音声提供者の手間も省くことができる。

さらに、音声提供者が調整音声を提供するときに、一言を発声する毎に、目標言語特有変数に関するヒストグラムを画面上に呈示してフィードバックを与えれば、ネイティブ・スピーカー自身が、どの辺りのデータが未入力であるかを把握して、意図的にその辺りのデータを入力しようと心掛けることができ、より効果的である。

００１音声波形
００２日本語型セグメンテーション様式で知覚するときの切り出し区間
００３英語型セグメンテーション様式で知覚するときの切り出し区間（子音部分）
００４英語型セグメンテーション様式で知覚するときの切り出し区間（母音部分）
００５音声データ
００６音声データ記憶手段
００７音声呈示装置
００８音声
００９セグメンテーションパターン
０１０セグメンテーションパターン記憶手段
０１１タイミング刺激生成手段
０１２タイミング刺激呈示手段
０１３タイミング刺激
０１４音声バリエーション
０１５互いに目標言語特有パラメータが異なる複数の音声データ
０１６音声データ取得手段
０１７目標言語特有変数
０１８学習者母国語において同一単音列として知覚される範囲
０１９目標言語において同一単音列として知覚される範囲
０２０自然音声
０２１調整音声
０２２第一の調整音声
０２３第二の調整音声
０２４第三の調整音声
０２５自然音声データ
０２６自然音声データ記憶手段
０２７音声データ取得手段（フィルタリング）
０２８入力手段
０２９音声入力手段
０３０セグメンテーション手段
０３１セグメンテーションパターン特徴呈示手段
１０１ブランク画像
１０２画像Ａ
１０３画像Ｂ
１０４タイマーリセット
１０５ブランク画像の呈示
１０６ＴとＴ０を比較
１０７画像Ａの呈示
１０８ＴとＴ１を比較
１０９画像Ｂの呈示
１１０ＴとＴ２を比較
３０１音声の呈示と同期させて右に動かす縦棒
３０２英語用のセグメンテーションパターンにおいて単音区間内に入るとき赤色となる領域
３０３日本語用のセグメンテーションパターンにおいて単音区間内に入るとき赤色となる領域
４０１単音“ｌ”の持続時間中に呈示される画像
４０２単音“ａ”の持続時間中に呈示される画像
７０１ギャップ区間
７０２人為的分離度（ｖ）を１００％に設定
７０３調整音声を呈示（ｖ＝０％の場合は標準音声を呈示）
７０４入力チェック
７０５ｖを５％減少（ｖ＝０％ならばそのまま）
７０６ｖを５％増加（ｖ＝１００％ならばそのまま）

Claims

音声データを取得する音声データ取得手段と、
該音声データ取得手段によって取得された前記音声データを呈示する音声呈示手段とを有し、
前記音声データは、目標言語特有変数が互いに異なる複数の音声データからなる音声バリエーションを構成する音声データであること、
を特徴とする発音学習装置。
前記音声バリエーションは、自然音声とは目標言語特有変数が異なる複数の音声データを含むこと、
を特徴とする請求項１に記載の発音学習装置。
自然音声データを記録する自然音声データ記憶手段と、
前記自然音声データを複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段を有し、
前記音声データ取得手段は、前記セグメンテーションパターンと目標言語特有変数をパラメータとして前記自然音声データに対してフィルタリング処理を行うことにより、前記音声データを取得すること、
を特徴とする請求項１又は２に記載の発音学習装置。
前記複数の区間は一つ以上の単音区間と一つ以上の背景区間から成り、
前記目標言語特有変数は人為的分裂度であり、
前記フィルタリング処理は前記背景区間に対応する音声波形の振幅を、前記人為的分裂度に応じて減ずる処理であること、
を特徴とする請求項３に記載の発音学習装置。
前記目標言語特有変数は、単音間の背景区間の時間長であること、
を特徴とする請求項１又は２に記載の発音学習装置。
前記目標言語特有変数は、単音の持続時間長であること、
を特徴とする請求項１又は２に記載の発音学習装置。
入力手段を有し、
前記音声データ取得手段は、前記入力手段から得られる入力に従って、前記音声バリエーションを構成する音声データを取得すること、
を特徴とする請求項１乃至６の発音学習装置。
前記入力手段は音声入力手段であり、
該音声入力手段によって入力された音声データからセグメンテーションパターンを認識するセグメンテーション手段を有し、
前記音声データ取得手段は、前記セグメンテーションパターンの特徴に従って、前記音声バリエーションを構成する音声データを取得すること、
を特徴とする請求項７に記載の発音学習装置。
音声呈示装置を有するコンピュータを、
音声データを取得する音声データ取得手段、及び、
該音声データ取得手段によって取得された前記音声データを呈示する音声呈示手段、
として機能させるためのプログラムであって、
前記音声データは、目標言語特有変数が互いに異なる複数の音声データからなる音声バリエーションを構成する音声データであること、
を特徴とするプログラム。