JP4678672B2 - Pronunciation learning device and pronunciation learning program - Google Patents
Pronunciation learning device and pronunciation learning program Download PDFInfo
- Publication number
- JP4678672B2 JP4678672B2 JP2005110310A JP2005110310A JP4678672B2 JP 4678672 B2 JP4678672 B2 JP 4678672B2 JP 2005110310 A JP2005110310 A JP 2005110310A JP 2005110310 A JP2005110310 A JP 2005110310A JP 4678672 B2 JP4678672 B2 JP 4678672B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- segmentation
- sound
- segmentation pattern
- timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、外国語の習得を目的とする発音学習装置及び発音学習プログラムに関する。また、外国語の習得を目的とする発音学習教材の製造方法にも関する。 The present invention relates to a pronunciation learning device and a pronunciation learning program for the purpose of learning a foreign language. It also relates to a method for producing pronunciation learning materials for the purpose of learning foreign languages.
従来、外国語の発音学習は、カセットテープやCDに録音された手本となる音声を繰り返し聞き、模倣することにより行われてきた。しかしながら、この方法では学習に多大な時間がかかるうえ、必ずしも完全な習得には至らない。そのため、近年では、コンピュータ技術を応用した対話的な発音学習装置が提案されている。例えば、学習者が発声した音声から特徴を抽出し、スペクトル図やフォルマント図として画面上に表示してフィードバックすることにより、学習者が自分の発音の欠陥を判断しながら学習を進めることができる発音学習装置が実用化されている。しかしながら、このような装置を用いても、外国語の発音学習の困難さが抜本的に解決するとは言い難い。
日本語を母国語とする学習者にとって外国語の発音が苦手である原因の一つとして、同じ音声を聞いたときに、発音学習の対象である目標言語のネイティブ・スピーカーと、学習者とで、知覚する単音数が食い違う現象が挙げられる。例えば、英語のネイティブ・スピーカーが“la”という二つの単音として知覚する音声を、日本人の学習者は“ラ”という一つの単音として知覚する。なお、本発明においては、英語における音素や日本語におけるモーラなど、その言語を母国語とする者がスピーキングまたはヒアリングを行うときに心理的に1つと感じる音を単音と呼ぶ。従来の発音学習においては、この「単音数の食い違い現象」は、仕方のないことと見なされてきた。 One of the reasons why Japanese-speaking students are not good at pronunciation of foreign languages is that when they listen to the same voice, the native speaker of the target language that is the subject of pronunciation learning and the learner The phenomenon that the perceived number of single notes is different. For example, a Japanese learner perceives an English native speaker as two singles “la” as a single single “la”. In the present invention, a sound such as a phoneme in English or a mora in Japanese that a person whose native language speaks feels psychologically when speaking or hearing is called a single sound. In conventional pronunciation learning, this “single-tone discrepancy phenomenon” has been regarded as inevitable.
本発明が解決しようとする課題は、学習者が目標言語のネイティブ・スピーカーと同じ数の単音を知覚できるようにすることにより、発音を抜本的に改善する発音学習装置を提供することである。なお、以下では目標言語として専ら英語を用いて例示するが、ドイツ語やフランス語など他の言語を目標言語とする場合においても同様の効果を得ることができる。 The problem to be solved by the present invention is to provide a pronunciation learning device that drastically improves pronunciation by allowing a learner to perceive the same number of single notes as a native speaker of a target language. In the following, English is used as an example of the target language, but the same effect can be obtained when another language such as German or French is used as the target language.
リスニング時の「単音数の食い違い現象」を工学的なモデルとして捉えるならば、「リスニング時のヒトの脳内過程において、パターン認識の前処理として行われるセグメンテーション処理の様式が、同じ音声波形に対してであっても、母国語によって異なる現象」であると言える。図1に、脳内セグメンテーション処理の様式の違いを模式的に示す説明図を示す。このように連続した音声波形001が脳に入力されたとき、日本語型セグメンテーション様式で知覚する場合は、切り出し区間002のように、全体的に1つの断片として切り出されるのに対し、英語型セグメンテーション様式で知覚する場合は、切り出し区間(子音部分)003と切り出し区間(母音部分)004のように、二つの別々の断片として切り出される。これら切り出された断片が、より高次な認識機能の入力となるため、知覚する単音の数が異なってしまうと考えられる。もし、学習によって、学習者がネイティブ・スピーカーと同じセグメンテーション様式で知覚できるようになれば、この「単音数食い違い現象」に起因する発音の困難さは解決するはずである。 If the “single-tone discrepancy phenomenon” during listening is considered as an engineering model, “the segmentation process performed as a pattern recognition pre-processing in the human brain process during listening will It can be said that this is a phenomenon that varies depending on the mother tongue. FIG. 1 is an explanatory diagram schematically showing the difference in the manner of brain segmentation processing. When a
本発明における第一の解決手段は、聴覚的学習時に、呈示中の音声がどのようなセグメンテーション様式で知覚すべきかを学習者に意識させることを目的とする。図2は、請求項1に記載の発音学習装置の基本構成図である。この発音学習装置は、音声データ005を記憶する音声データ記憶手段006と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターン009を記憶するセグメンテーションパターン記憶手段010と、前記セグメンテーションパターン009の区間の切り替わりのタイミングを学習者に知覚させるタイミング刺激を生成するタイミング刺激生成手段011と、前記音声データ005を呈示する音声呈示手段007と、該音声呈示手段による音声008の呈示と同期させて前記タイミング刺激013を呈示するタイミング刺激呈示手段012とからなることを特徴とする。 The first solving means of the present invention aims at making the learner aware of in what segmentation style the voice being presented should be perceived during auditory learning. FIG. 2 is a basic configuration diagram of the pronunciation learning device according to
本発明においては、音声データを時間軸上で複数の区間に分割するパターンをセグメンテーションパターンと呼び、この音声データに対応付けることができる情報として扱う。これは、区間の区切りに相当する時刻によって表現される。また、本発明において、タイミング刺激とは、区間の切り替わりのタイミングを学習者に知覚させるための刺激であり、時間解像度が低すぎて利用できない嗅覚・臭覚以外の感覚、すなわち、視覚・聴覚・触覚のどれかを通して感覚刺激として与えられる。 In the present invention, a pattern that divides audio data into a plurality of sections on the time axis is called a segmentation pattern, and is handled as information that can be associated with the audio data. This is expressed by the time corresponding to the section break. In the present invention, the timing stimulus is a stimulus for allowing the learner to perceive the switching timing of the section, and a sense other than the olfactory / olfactory sense that cannot be used because the time resolution is too low, that is, visual / auditory / tactile sense. Given as a sensory stimulus through any of the above.
好ましくは、前記セグメンテーションパターンは、一つ以上の単音区間と一つ以上の背景区間とからなる。単音区間の音声は脳内の高次認識部に認識対象として渡され、単音として意識に上る。一方、背景区間の音声は背景音として切り捨てられ、言語音としては意識には上らない。区間をこのように分類することにより、言語音として知覚すべき時間帯と、言語音として知覚すべきではない時間帯とを明示的に学習者に呈示することができる。知覚すべきではない時間帯とは、「渡り音」や「語頭ノイズ」などである。 Preferably, the segmentation pattern includes one or more single sound sections and one or more background sections. The speech in a single tone section is passed as a recognition target to the higher-order recognition unit in the brain and becomes conscious as a single tone. On the other hand, the voice in the background section is cut off as the background sound and is not conscious as the language sound. By classifying the sections in this way, a time zone that should be perceived as a language sound and a time zone that should not be perceived as a language sound can be explicitly presented to the learner. Time zones that should not be perceived include “crossover sounds” and “beginning noise”.
渡り音に相当する区間を指定するためには、先行する単音の終了時刻と後続する単音の開始時刻の間にギャップとなる背景区間を設ける。なお、本発明において、ギャップとなる背景区間のことをギャップ区間と呼ぶ。渡り音とは音声学の概念であり、調音結合の一種である。二つの音素を連続して発するときに、その間の時間帯に生じる遷移的な音のことである。通常、渡り音の時間帯に音があることは意識されない。したがって、学習者は、目標言語のセグメンテーション様式における渡り音の時間帯の音は無意識下に閉じ込めるべきである。ただし、渡り音部分のみを人為的に切り取った音声を聞くと不自然に聞こえることから、この区間の音声は背景区間の音声であるとはいえ、無意識の領域において、その前後の単音の認識を副次的にサポートしている可能性は否定できない。 In order to designate a section corresponding to a transitional sound, a background section is provided as a gap between the end time of the preceding single sound and the start time of the subsequent single sound. In the present invention, a background section that becomes a gap is called a gap section. Crossover is the concept of phonetics and a kind of articulatory connection. This is a transitional sound that occurs during the time period between two phonemes. Usually, it is not conscious that there is a sound in the time zone of the transitional sound. Therefore, the learner should unconsciously confine the sounds in the transition time zone in the target language segmentation style. However, since it sounds unnatural when you hear a sound that is artificially cut off only the transitional sound part, the sound of this section is the sound of the background section. The possibility of secondary support is undeniable.
語頭ノイズに相当する区間を指定するためには、語頭の単音の開始時刻の前に無音ではない背景区間を設ける。語頭ノイズとは、本発明において定義する用語であり、例えば次のような場面で出くわす現象である。英語のネイティブ・スピーカーが“r”と“l”の音の違いを説明するとき、子音だけを引き伸ばして発音することがある。ところが、日本人は、“r”や“l”が持続している間は「う〜う〜と唸ってないで早く発音してくれ」と思い、渡り音が始まる頃から言語音として認識しようと注意を向けようとする。このように、日本語のセグメンテーション様式においては、語頭で不自然に長く子音が持続しているときには、ノイズとして処理され、言語音としては認識されない。このような区間を、本発明では語頭ノイズと呼び、背景区間として指定することができるものとする。 In order to designate a section corresponding to the beginning noise, a background section that is not silent is provided before the start time of the first note. The prefix noise is a term defined in the present invention, and is a phenomenon encountered in the following scenes, for example. When an English native speaker explains the difference between “r” and “l” sounds, only the consonants may be stretched and pronounced. However, the Japanese should think of it as a linguistic sound from the beginning of the transitional sound, as long as “r” and “l” are sustained And try to pay attention. In this way, in the Japanese segmentation style, when a consonant continues unnaturally at the beginning of a word, it is processed as noise and is not recognized as a language sound. Such a section is called head noise in the present invention, and can be designated as a background section.
また、好ましくは、前記セグメンテーションパターン記憶手段とは別の第二セグメンテーションパターン記憶手段をもち、前記タイミング刺激は、前記セグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングとを、同時に学習者に知覚させることができる。この構成により、学習者は、母国語のセグメンテーション様式と目標言語のセグメンテーション様式とを対比しながら学習することができる。 Preferably, the second segmentation pattern storage unit is different from the segmentation pattern storage unit, and the timing stimulus is stored in the segmentation pattern section switching timing and the second segmentation pattern storage unit. It is possible to make the learner perceive the switching timing of the second segmentation pattern section at the same time. With this configuration, the learner can learn while comparing the segmentation style of the native language with the segmentation style of the target language.
さらにまた、好ましくは、前記タイミング刺激は、単音発音記号から成る。この構成により、単音の開始時刻や終了時刻だけでなく、単音が何であるかも含めて意識しながら学習することができる。なお、本発明において、単音発音記号とは、国際音声記号(IPA記号)による表記に限られず、単音を区別しうる記号全般を表す。視覚刺激における記号としては、通常のアルファベット表示やカタカナ表示などを用いてもよい。例えば、英語の単音発音記号として、英語の単音と1対1に対応するカタカナ表記を用いてもよい。聴覚刺激における記号としては、単音を孤立して発音させたものを発音記号として呈示してもよい。触覚における記号としては、点字記号を発音記号として呈示してもよい。 Still preferably, the timing stimulus comprises a single phonetic symbol. With this configuration, it is possible to learn while conscious of not only the start time and end time of a single sound but also what the single sound is. In the present invention, a single phonetic symbol is not limited to notation by an international phonetic symbol (IPA symbol), but represents all symbols that can distinguish a single tone. As symbols in the visual stimulus, normal alphabet display or katakana display may be used. For example, katakana notation corresponding to English singles one-on-one may be used as English single phonetic symbols. As a symbol in the auditory stimulation, a single sound that is sounded in isolation may be presented as a phonetic symbol. As a tactile symbol, a braille symbol may be presented as a phonetic symbol.
本発明における第二の解決手段は、聴覚的学習時に、目標言語にのみ起こりうる音声バリエーションを学習者に呈示することにより、母国語のセグメンテーション様式に基づいた単音列の知覚を抑制することを目的とする。図3に請求項5に記載の発音学習装置の基本構成図を示す。この発音学習装置は、音声データ005を取得する音声データ取得手段016と、該音声データ取得手段によって取得された前記音声データ005を呈示する音声呈示手段007とを有し、前記音声データは、目標言語特有変数が互いに異なる複数の音声データ015からなる音声バリエーション014を構成する音声データであることを特徴とする。 The second solving means of the present invention is to suppress perception of a single tone string based on the segmentation style of the native language by presenting the learner with voice variations that can occur only in the target language during auditory learning. And FIG. 3 shows a basic configuration diagram of the pronunciation learning device according to claim 5. This pronunciation learning device includes voice data acquisition means 016 for acquiring
本発明においては、自然な音声として知覚される音声を「自然音声」と定義し、その音声データを自然音声データと呼ぶ。これは、目標言語のネイティブ・スピーカーに自然に発声するよう指示して得られる音声データや、標準的なパラメータで音声合成された音声データのことを指す。一方、人為的な調整を加えた音声を「調整音声」と定義し、その音声データを調整音声データと呼ぶ。これは、目標言語のネイティブ・スピーカーに意図的に自然音声とは異なるように発声するよう指示して得られる音声、自然音声データをフィルタ処理によって人為的に変換した音声、または、非標準的なパラメータで音声合成した結果得られる音声を表す。 In the present invention, sound perceived as natural sound is defined as “natural sound”, and the sound data is referred to as natural sound data. This indicates voice data obtained by instructing a native speaker of a target language to speak naturally, or voice data synthesized with standard parameters. On the other hand, a sound with artificial adjustment is defined as “adjusted sound”, and the sound data is referred to as adjusted sound data. This can be done by instructing the native speaker of the target language to utter intentionally differently from natural speech, speech obtained by artificially converting natural speech data by filtering, or non-standard Represents speech obtained as a result of speech synthesis using parameters.
本発明において、目標言語特有変数とは、その変数の変更に伴って、目標言語のセグメンテーション様式で知覚した単音列を変化させることなく学習者の母国語のセグメンテーション様式で知覚した単音列を変化させる変数のことである。図4に、目標言語特有変数による音声調整の説明図を示す。学習者の母国語と目標言語とで、目標言語特有変数017の軸に沿った同一単音列として知覚される範囲が異なると考える。すなわち、母国語のセグメンテーション様式においては、この軸上の狭い範囲018でのみ、ある単音列として知覚されるが、目標言語のセグメンテーション様式においては、この軸上の広い範囲019において、ある単音列として知覚されるものとする。このとき、図4の自然音声020を聞けば、慣れ親しんできた母国語のセグメンテーション様式で知覚されてしまい、目標言語のセグメンテーション様式で知覚することは、どんなに学習者が努力しても困難である。しかしながら、図中の調整音声021を聞けば、母国語のセグメンテーション様式に引き摺られてしまうことはない。 In the present invention, the target language-specific variable is a change of the variable that changes the perceived string in the native language segmentation style without changing the perceived string in the target language segmentation style. It is a variable. FIG. 4 is an explanatory diagram of the sound adjustment by the target language specific variable. The learner's native language and the target language are considered to have different perceived ranges as the same single tone string along the axis of the target language
そこで、まず調整音声を聞かせることにより、目標言語のセグメンテーション様式で知覚させるよう仕向ける。その直後に自然音声を聞けば、目標言語のセグメンテーション様式にて知覚する心理的な構えができているため、自然音声においても母国語のセグメンテーション様式ではなく目標言語のセグメンテーション様式にて知覚することが可能となる。さらに、調整音声と自然音声を交互に呈示することで、より効果的となる。 Therefore, by first letting you hear the adjusted voice, we will try to perceive it in the segmentation style of the target language. If you listen to natural speech immediately after that, you will be able to perceive in the target language segmentation style, so you can perceive it in the target language segmentation style instead of your native language segmentation style. It becomes possible. Furthermore, it becomes more effective by presenting the adjusted voice and the natural voice alternately.
目標言語特有変数は、具体的には、目標言語における、単音間の背景区間の時間長、単音間の人為的分裂度、単音の持続時間長、または、単音の音響パラメータのことを指す。また、これら四種類の変数のうち、いくつかの変数を成分とするベクトルも目標言語特有変数である。なお、目標言語特有変数としては、秒やHzなどの単位をもつ物理量自体をもって絶対的に表現することもあれば、変数の分布範囲をいくつかのレベルに分け、その所属するレベルの番号をもって相対的に表現することもある。 The target language specific variable specifically refers to the time length of the background interval between single notes, the degree of artificial division between single notes, the duration of single notes, or the acoustic parameters of single notes in the target language. Of these four types of variables, vectors having some variables as components are also target language specific variables. Note that the target language specific variable may be expressed in absolute terms with physical quantities having units such as seconds or Hz, or the variable distribution range is divided into several levels, and relative numbers are assigned to the numbers of the levels to which they belong. Sometimes expressed.
目標言語特有変数の第一の選択肢は、目標言語における単音間の背景区間の時間長である。目標言語のネイティブ・スピーカーに背景区間の時間長が十分に大きくなるよう発声の指示を行えば、各単音は孤立して発音されることとなる。例として、自然音声として自然な速度で発された“la”を、調整音声として“l”と“a”を孤立させて発音させた場合を考える。英語型セグメンテーション様式では、これらの音声は、デジタルな記号列として見れば、共に“l+a”という単音列として知覚される。一方、日本語型のセグメンテーション様式では、自然音声は“ラ”の一単音と知覚され、調整音声は“l+ア”の二単音として、知覚される。このように、自然音声と調整音声との間で、目標言語のセグメンテーション様式で知覚したときの単音列は変化せずに、学習者母国語のセグメンテーション様式で知覚したときの単音列は変化しているため、この「単音間の背景区間の時間長」は目標言語特有変数として選択可能である。 The first option for the target language specific variable is the time length of the background interval between single notes in the target language. If the utterance instruction is given to the native speaker of the target language so that the time length of the background section becomes sufficiently large, each single sound will be pronounced in isolation. As an example, let us consider a case where “la” uttered at a natural speed as natural speech is generated by isolating “l” and “a” as adjusted speech. In the English-type segmentation format, these sounds are perceived as a single sound string “l + a” when viewed as a digital symbol string. On the other hand, in the Japanese-type segmentation style, natural speech is perceived as a single “la” single tone, and adjusted speech is perceived as a single “l + a” single tone. In this way, the phoneme sequence when perceived in the segmentation style of the target language does not change between the natural speech and the adjusted speech, and the phoneme sequence when perceived in the segmentation style of the learner's native language changes. Therefore, the “time length of the background section between single notes” can be selected as a target language specific variable.
目標言語特有変数の第二の選択肢は、目標言語の単音間の人為的分裂度である。本発明において人為的分裂度とは、フィルタリング等の信号処理によって、渡り音の部分の音声波形のみ、局所的に振幅ゲインを減少させ、人為的に前後の単音を分離して知覚されるように仕向けた場合の、振幅ゲイン減少の度合いを指す。英語型セグメンテーション様式では、渡り音は意識に上らないので、多少の違和感はあるもののフィルタリングの前後で知覚される単音列は変わらない。一方、日本型セグメンテーション様式では、渡り音部分が単音として重要な役割を果たしているので、子音がよく聞き取れなくなる。 The second option for the target language specific variable is the degree of artificial division between the phonemes of the target language. In the present invention, the degree of artificial division means that the amplitude gain is reduced locally only in the speech waveform of the transitional part by signal processing such as filtering, and the front and back single sounds are artificially separated and perceived. The degree of decrease in amplitude gain when directed. In the English segmentation style, migrating sounds are not conscious, so there is a slight sense of incongruity, but the perceived monotone string does not change before and after filtering. On the other hand, in the Japanese-style segmentation style, the transitional sound part plays an important role as a single tone, so the consonant sound cannot be heard well.
目標言語特有変数の第三の選択肢は、目標言語の単音の持続時間長である。英語型のセグメンテーション様式では、摩擦音や流音など持続音と分類される子音の長さは自由に変えて発音することができる。一方、日本語型のセグメンテーション様式においては、子音の長さを変えて発音することはできない。一般に、あるセグメンテーション様式において、バリエーションをつけてスピーキングできる場合は、聞き手としてもそのバリエーションを聞き慣れているはずなので、知覚するときに同じクラスとして認識されやすい。一方、バリエーションをつけてスピーキングできない場合は、聞き手はそのバリエーションを聞き慣れていないため、知覚するときに同じクラスとして認識することはできない。 A third option for the target language specific variable is the duration of a single note of the target language. In the English-type segmentation style, the length of consonants classified as continuous sounds such as friction sounds and stream sounds can be changed freely. On the other hand, in the Japanese-style segmentation style, it is not possible to pronounce with different consonant lengths. In general, in a certain segmentation style, if you can speak with variations, you will be familiar with the variations as a listener, so it will be easily recognized as the same class when you perceive. On the other hand, if you are unable to speak with variations, the listener is not used to listening to the variations and cannot recognize them as the same class.
例えば、英語のネイティブ・スピーカーに“ra”の中の“r”の持続時間を延ばして発音してもらうと、日本のセグメンテーション様式で知覚する場合は、“ラ”から“うラ”に変化する。ただし、この“う”は日本語の“う”ではなくノイズのように聞こえる音であるが、ここではこのノイズ的な音の発生に気づくことも単音列の変化と捉える。一方、英語型のセグメンテーション様式で知覚する場合は、単音の持続時間が延びるだけで、得られる単音列は変わらない。 For example, if you have a native English speaker prolong the duration of “r” in “ra”, it will change from “La” to “Ura” when perceived in Japanese segmentation style. . However, this “U” is a sound that sounds like noise rather than “U” in Japanese, but here, it is also considered that the occurrence of this noise-like sound is a change in a single string. On the other hand, when perceiving in an English-type segmentation style, the duration of a single note is simply extended, and the obtained single tone string does not change.
目標言語特有変数の第四の選択肢は、目標言語の単音の音響パラメータである。音響パラメータとは、音のピッチ(音程)、または、音の大きさを表す。英語型のセグメンテーション様式では、“l”と“a”を意図的に別のピッチや大きさで発声された場合でも、元々別の単音なので、知覚される単音列は変わらないが、日本語のセグメンテーション様式で知覚する場合は、渡り音部分が、日本語では起こりえない変化をするため、聞き取りづらくなる。
前記目標言語特有変数の第五の選択肢は、第一の選択肢から第四の選択肢の組み合わせである。この場合、組み合わされた変数を成分とするベクトルを目標言語特有変数と考えることができる。A fourth option for the target language specific variable is a monophonic acoustic parameter of the target language. The acoustic parameter represents the pitch of the sound (pitch) or the volume of the sound. In the English-style segmentation style, even if “l” and “a” are intentionally uttered at different pitches and sizes, the perceived single-tone strings are not changed because they are originally different single-tones. When perceiving in a segmentation style, the transitional part changes that cannot occur in Japanese, making it difficult to hear.
The fifth option of the target language specific variable is a combination of the first option to the fourth option. In this case, a vector having the combined variable as a component can be considered as a target language specific variable.
好ましくは、上記音声バリエーションは、自然音声データとは目標言語特有変数が異なる複数の音声データを含む。この構成により、目標言語特有変数を段階的に調整することができる。図5に段階的な音声調整を表す説明図を示す。目標言語特有変数017に沿って音声が連続的に変化できるものと考える。この軸上に、自然音声ではない複数の調整音声があるとする。自然音声とは非常に異なる第一の調整音声022を聞いた直後に自然音声020を聞くのはセグメンテーション様式を母国語の様式に引き戻してしまう危険性がある。そこで、第一の調整音声022を聞いた後は、それとはあまり変わらない第二の調整音声023を聞き、目標言語のセグメンテーション様式で知覚することの練習を行う。そして、十分な練習を完了したら、今度は、もう少し自然な音声に近い第三の調整音声024へと学習を進める。このように、目標言語のセグメンテーション様式で知覚するときの困難さを、段階的に克服することが可能である。 Preferably, the voice variation includes a plurality of voice data having different target language specific variables from the natural voice data. With this configuration, the target language specific variable can be adjusted step by step. FIG. 5 is an explanatory diagram showing stepwise audio adjustment. It is assumed that the voice can change continuously along the target language
前記音声データ取得手段は、以下の三手法のどれかによって、音声バリエーションを構成する音声データを取得する。音声データ取得手段の第一の選択肢となる構成を含んだ請求項5の発音学習装置の構成図を図6に示す。自然音声データ025を記録する自然音声データ記憶手段026と、前記自然音声データを複数の区間に分割するセグメンテーションパターン009を記憶するセグメンテーションパターン記憶手段010を有し、前記音声データ取得手段027は、前記セグメンテーションパターン記憶手段010に記憶されたセグメンテーションパターン009と目標言語特有変数017をパラメータとして前記自然音声データに対してフィルタリング処理を行うことにより、前記音声データ005を取得することを特徴とする。 The voice data acquisition means acquires voice data constituting a voice variation by any of the following three methods. FIG. 6 shows a configuration diagram of the pronunciation learning device of claim 5 including a configuration as a first option of the voice data acquisition means. Natural voice data storage means 026 for recording
音声データ取得手段の第二の選択肢は、音声バリエーションが格納された請求項7に記載のコンピュータ読み込み可能な媒体から音声データを読み出すことにより音声データを取得することを特徴とする。
音声バリエーション取得手段の第三の選択肢は、目標言語特有変数をパラメータとして音声合成を行うことにより音声データを取得することを特徴とする。The second option of the voice data acquisition means is characterized in that the voice data is acquired by reading the voice data from the computer-readable medium according to claim 7 in which the voice variation is stored.
A third option of the voice variation acquisition means is characterized in that voice data is acquired by performing voice synthesis using a target language specific variable as a parameter.
さらに、前記音声データ取得手段は、以下の三手法のどれかによって、取得する音声データを決定する。データ決定の第一の選択肢は、上述のように音声バリエーションの中から順に音声を取得する。すなわち、図4においては、調整音声021から自然音声020というように、呈示順序を決めておく。図5においては、第一の調整音声022から呈示し、次に第二の調整音声023へと進み、第三の調整音声024、自然音声020というように決められた順序にしたがって音声を呈示する。データ決定の第二の選択肢は、音声バリエーションの中から順不同に音声を取得する。例えば、図5において、各々の調整音声をランダムな順序で呈示する。順に呈示する方法によってある程度学習が進んだ後にランダムに呈示する方法によって追加学習することで、学習者にとってどの調整音声が呈示されるかが分からない状態での聴覚的学習となるため、リスニング力の強化が望める。 Further, the voice data acquisition means determines the voice data to be acquired by any one of the following three methods. The first option for data determination is to acquire voices in order from the voice variations as described above. That is, in FIG. 4, the presentation order is determined such as the
データ決定の第三の選択肢によって音声データを決定する発音学習装置の構成図を図7に示す。この発音学習装置は、入力手段028を有し、前記音声データ取得手段は、前記入力手段から得られる入力に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする。この構成により、学習者からの入力に基づいて音声データを決定することができる。 FIG. 7 shows a block diagram of a pronunciation learning device that determines speech data by the third data determination option. This pronunciation learning device has input means 028, and the voice data acquisition means acquires voice data constituting the voice variation in accordance with an input obtained from the input means. With this configuration, voice data can be determined based on an input from a learner.
本発明における第三の解決手段は、発声的学習時に、学習者の発した音声が、目標言語のセグメンテーション様式で知覚したとする場合には、どのようなセグメンテーションパターンで知覚されるかを学習者にフィードバックすることを目的とする。図8に請求項9に記載の発音学習装置の基本構成図を示す。この発音学習装置は、音声を入力する音声入力手段029と、該音声入力手段によって入力された音声データ005からセグメンテーションパターン009を認識するセグメンテーション手段030と、前記セグメンテーションパターン009の特徴を呈示するセグメンテーションパターン特徴呈示手段031を有することを特徴とする。 The third solving means in the present invention is to determine what kind of segmentation pattern is perceived when the speech uttered by the learner is perceived in the segmentation style of the target language at the time of vocal learning. The purpose is to provide feedback. FIG. 8 shows a basic configuration diagram of the pronunciation learning device according to claim 9. This pronunciation learning device includes a
本発明において、セグメンテーションパターンの特徴とは、セグメンテーションパターンを入力とする関数として表現される値である。例えば、単音区間の長さ、単音間の背景区間の長さ、セグメンテーションパターンそのもの、適正度を表す評価値などがある。 In the present invention, the feature of the segmentation pattern is a value expressed as a function having the segmentation pattern as an input. For example, there are the length of a single section, the length of a background section between single notes, the segmentation pattern itself, an evaluation value indicating the appropriateness, and the like.
また、請求項9に記載の発音学習装置は、好ましくは、音声データを記憶する音声データ記憶手段と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段とを有し、前記セグメンテーション手段は、前記音声データを照合パターンとして、入力音声データとの間でDPマッチングを行う。この構成により、照合パターンを切り替えることによって、複数のセグメンテーション様式についてのセグメンテーションを行うことができる。 The pronunciation learning device according to claim 9 is preferably a voice data storage unit that stores voice data, and a segmentation pattern storage unit that stores a segmentation pattern for dividing the voice data into a plurality of sections on a time axis. The segmentation means performs DP matching with input voice data using the voice data as a matching pattern. With this configuration, it is possible to perform segmentation for a plurality of segmentation modes by switching collation patterns.
本発明の発音学習装置を用いると、“ラ”と“l+a”、または、“母音+ツ”と“母音+t+s”のように、学習者の母国語と目標言語との間において、同じ音を聞いたときにでも単音数が異なる現象を解消することにより、発音学習の効果を上げることができる。
請求項1に記載の発音学習装置を用いると、聴覚的学習時に、呈示中の音声がどのようなセグメンテーション様式で知覚すべきかを学習者に意識させることができる。
請求項4に記載の発音学習教材製造方法によって生産されたデータの格納されたコンピュータ読み込み可能な媒体を用いると、汎用のメディアプレイヤーで再生させることにより、請求項1の発音学習装置を用いた学習と同じ学習効果を得ることができる。Using the pronunciation learning device of the present invention, the same sound is generated between the learner's native language and the target language, such as “La” and “l + a”, or “vowel + tu” and “vowel + t + s”. The effect of pronunciation learning can be improved by eliminating the phenomenon in which the number of single notes differs even when listening.
By using the pronunciation learning device according to the first aspect, it is possible to make the learner aware of what segmentation style the sound being presented should be perceived at the time of auditory learning.
Learning using the pronunciation learning device of
請求項5に記載の発音学習装置を用いると、聴覚的学習時に、目標言語にのみ起こりうる音声バリエーションを学習者に呈示することにより、母国語のセグメンテーション様式に基づいた単音列の知覚を抑制することができる。
請求項9に記載の発音学習装置を用いると、発声的学習時に、学習者の発した音声が、目標言語のセグメンテーション様式で知覚したとする場合には、どのように知覚されるかを学習者にフィードバックすることができる。When the pronunciation learning device according to claim 5 is used, at the time of auditory learning, a speech variation that can occur only in the target language is presented to the learner, thereby suppressing perception of a single string based on the segmentation style of the native language. be able to.
When the pronunciation learning device according to claim 9 is used, when the speech uttered by the learner is perceived in the segmentation mode of the target language at the time of vocal learning, the learner understands how the speech is perceived. Can provide feedback.
本発明の実施の様態は、以下の構成を含む。
(構成1)前記複数の区間は、一つ以上の単音区間と一つ以上の背景区間とからなることを特徴とする請求項1の発音学習装置。
(構成2)前記セグメンテーションパターン記憶手段とは別の第二セグメンテーションパターン記憶手段をもち、前記タイミング刺激は、前記セグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングとを、同時に学習者に知覚させることができることを特徴とする請求項1または構成1に記載の発音学習装置。
(構成3)前記タイミング刺激は、単音発音記号から成ることを特徴とする請求項1または構成1または構成2に記載の発音学習装置。The embodiment of the present invention includes the following configurations.
(Structure 1) The pronunciation learning apparatus according to
(Configuration 2) The second segmentation pattern storage unit is different from the segmentation pattern storage unit, and the timing stimulus is a timing at which the segmentation pattern section is switched and a second segmentation pattern storage unit stores the second segmentation pattern storage unit. The pronunciation learning device according to
(Structure 3) The pronunciation learning device according to
(構成4)前記音声バリエーションは、自然音声とは目標言語特有変数が異なる複数の音声データを含むことを特徴とする請求項5に記載の発音学習装置。
(構成5)自然音声データを記録する自然音声データ記憶手段と、前記自然音声データを複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段を有し、前記音声データ取得手段は、前記セグメンテーションパターンと目標言語特有変数をパラメータとして前記自然音声データに対してフィルタリング処理を行うことにより、前記音声データを取得することを特徴とする請求項5または構成4の発音学習装置。(Structure 4) The pronunciation learning device according to claim 5, wherein the voice variation includes a plurality of voice data having different target language specific variables from natural voice.
(Configuration 5) Natural voice data storage means for recording natural voice data; and segmentation pattern storage means for storing a segmentation pattern for dividing the natural voice data into a plurality of sections, wherein the voice data acquisition means is the segmentation 5. The pronunciation learning device according to claim 5, wherein the speech data is acquired by performing filtering processing on the natural speech data using a pattern and a target language specific variable as parameters.
(構成6)前記複数の区間は一つ以上の単音区間と一つ以上の背景区間から成り、前記目標言語特有変数は人為的分裂度であり、前記フィルタリング処理は前記背景区間に対応する音声波形の振幅を、前記人為的分裂度に応じて減ずる処理であることを特徴とする構成5に記載の発音学習装置。
(構成7)前記音声データ取得手段は、請求項7の媒体から音声データを読み出すことにより音声データを取得することを特徴とする請求項5または構成4の発音学習装置。
(構成8)前記音声データ取得手段は、目標言語特有変数をパラメータとして音声合成を行うことにより、前記音声データを取得することを特徴とする請求項5または構成4の発音学習装置。(Structure 6) The plurality of sections include one or more single-tone sections and one or more background sections, the target language specific variable is an artificial division degree, and the filtering processing is a speech waveform corresponding to the background section. The pronunciation learning device according to the fifth aspect, wherein the amplitude of is reduced according to the artificial division rate.
(Structure 7) The pronunciation learning device according to claim 5 or 4, wherein the sound data acquisition means acquires sound data by reading the sound data from the medium of claim 7.
(Structure 8) The pronunciation learning device according to claim 5 or 4, wherein the voice data acquisition means acquires the voice data by performing voice synthesis using a target language specific variable as a parameter.
(構成9)前記音声データ取得手段は、前記音声バリエーションを構成する音声データを、順に取得することを特徴とする請求項5または構成4乃至構成8の発音学習装置。
(構成10)前記音声呈示手段は、前記音声バリエーションを構成する音声データを、順不同に取得することを特徴とする請求項5または構成4乃至構成8の発音学習装置。
(構成11)入力手段を有し、前記音声データ取得手段は、前記入力手段から得られる入力に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成4乃至構成8の発音学習装置。(Structure 9) The pronunciation learning device according to Claim 5, or Structure 4 to Structure 8, wherein the sound data acquisition means sequentially acquires sound data constituting the sound variation.
(Structure 10) The pronunciation learning device according to Claim 5, or Structure 4 to Structure 8, wherein the sound presenting means obtains sound data constituting the sound variation in any order.
(Configuration 11) Pronunciation learning according to configurations 4 to 8, further comprising input means, wherein the voice data acquisition means acquires voice data constituting the voice variation in accordance with an input obtained from the input means. apparatus.
(構成12)前記入力手段は音声入力手段であり、該音声入力手段によって入力された音声データからセグメンテーションパターンを認識するセグメンテーション手段を有し、前記音声データ取得手段は、前記セグメンテーションパターンの特徴に従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成11の発音学習装置。
(構成13)音声データ取得手段は、直前に呈示された音声データの目標言語特有変数にも従って、前記音声バリエーションを構成する音声データを取得することを特徴とする構成11乃至構成12の発音学習装置。
(構成14)前記音声バリエーションを構成する音声データの各々に対応付けられて目標言語特有変数が格納された請求項7に記載のコンピュータ読み込み可能な媒体。(Configuration 12) The input means is voice input means, and has segmentation means for recognizing a segmentation pattern from voice data input by the voice input means, and the voice data acquisition means is configured according to the characteristics of the segmentation pattern. The pronunciation learning device according to the eleventh aspect, wherein voice data constituting the voice variation is acquired.
(Configuration 13) The pronunciation learning according to configurations 11 to 12, wherein the voice data acquisition means acquires the voice data constituting the voice variation according to the target language specific variable of the voice data presented immediately before. apparatus.
(Configuration 14) The computer-readable medium according to claim 7, wherein a target language specific variable is stored in association with each of the audio data constituting the audio variation.
(構成15)前記特徴は、単音区間の長さであることを特徴とする請求項9に記載の発音学習装置。
(構成16)前記特徴は、単音間の背景区間の長さであることを特徴とする請求項9に記載の発音学習装置。
(構成17)前記特徴は、前記セグメンテーションパターンの適正度を表す評価値であることを特徴とする請求項9に記載の発音学習装置。
(構成18)前記特徴は、前記セグメンテーションパターンそのものであることを特徴とする請求項9に記載の発音学習装置。
(構成19)音声データを記憶する音声データ記憶手段と、前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段とを有し、前記セグメンテーション手段は、前記音声データを照合パターンとして、入力音声データとの間でDPマッチングを行うことを特徴とする請求項9に記載の発音学習装置。(Structure 15) The pronunciation learning device according to claim 9, wherein the characteristic is a length of a single tone section.
(Structure 16) The pronunciation learning device according to claim 9, wherein the feature is a length of a background section between single notes.
(Structure 17) The pronunciation learning device according to claim 9, wherein the feature is an evaluation value representing an appropriateness of the segmentation pattern.
(Structure 18) The pronunciation learning device according to claim 9, wherein the feature is the segmentation pattern itself.
(Arrangement 19) Voice data storage means for storing voice data; and segmentation pattern storage means for storing a segmentation pattern for dividing the voice data into a plurality of sections on a time axis. The segmentation means includes the voice data The pronunciation learning device according to claim 9, wherein DP matching is performed with input voice data using the data as a collation pattern.
請求項1の発音学習装置の例を示す。音声データ記憶手段006には、目標言語のネイティブ・スピーカーが発声した音声を、マイクロフォンを通して音声データに変換したものを格納する。セグメンテーションパターン記憶手段010には、予めオペレータが該当する音声データ005を可視化した画面を見ながら手入力したセグメンテーションパターン009を格納する。音声データとセグメンテーションパターンは、請求項3に記載のコンピュータ読み込み可能な媒体に記録しておき、必要時に、音声データ記憶手段とセグメンテーションパターン記憶手段に各々をロードする。 The example of the pronunciation learning apparatus of
オペレータがセグメンテーションパターンを手入力するときのGUI(グラフィカルインタフェース)画面の例を図9に示す。図9(a)は、入力前の画面である。画面上には、縦軸を周波数軸、横軸を時間軸として、音声データがスペクトル図として可視化されている。図中では第一フォルマントから第三フォルマントのみを模式的に描いているが、濃淡画像としてスペクトルの全情報を可視化する方が望ましい。なお、可視化手法に関しては、スペクトル図や音声波形図のように、時間軸を含む図であるならば、どのような図に可視化しても、時刻の手入力は可能である。ここでは、“la”という単音列に該当する音声が呈示される場合を想定する。オペレータは、この図をみながら、マウス等の入力装置を用いて、各々の単音区間の開始時刻と終了時刻を図中で指定する。この場合は、T0,T1,T2の三時刻に相当する位置を指定する。すると、図9(b)のように、T0,T1,T2の三時刻が入力されたことを表現するため、縦の点線として表示される。これにより、2つの単音区間に分割することを表すセグメンテーションパターン、すなわち、(T0,T1,T2)という時刻の組を手入力できたこととなる。 An example of a GUI (graphical interface) screen when the operator manually inputs a segmentation pattern is shown in FIG. FIG. 9A shows a screen before input. On the screen, the audio data is visualized as a spectrum diagram with the vertical axis representing the frequency axis and the horizontal axis representing the time axis. In the figure, only the first formant to the third formant are schematically drawn, but it is desirable to visualize all the spectrum information as a grayscale image. As for the visualization method, as long as it is a diagram including a time axis such as a spectrum diagram and a speech waveform diagram, the time can be manually input regardless of which diagram is visualized. Here, it is assumed that the voice corresponding to the single tone string “la” is presented. The operator designates the start time and end time of each single-tone section in the figure using an input device such as a mouse while viewing this figure. In this case, a position corresponding to three times T0, T1, and T2 is designated. Then, as shown in FIG. 9B, it is displayed as a vertical dotted line to express that three times T0, T1, and T2 have been input. As a result, a segmentation pattern indicating division into two single sound sections, that is, a set of times (T0, T1, T2) can be manually input.
図10に、タイミング刺激生成手段011が生成するタイミング刺激の例を示す。この例では、コンピュータ画面上の視覚刺激として学習者に呈示されることとする。タイミング刺激生成手段は、図9で入力されたセグメンテーションパターンを読み込み、二つの単音が含まれることを解釈し、二つのブランク画像101に挟まれた画像A102と画像B103という静止画像を含む画像列を生成する。この画像列と画像を切り替えるべき時刻情報のセットをタイミング刺激呈示手段012に引き渡す。図10の例では、単音毎に色を変更した円を描画している。このように、タイミング刺激013として用いられる視覚刺激は、高速に画面を切り替えたときにも、切り替えのタイミングが分かりやすいように単純な図形などで構成することが好ましい。 FIG. 10 shows an example of the timing stimulus generated by the timing stimulus generator 011. In this example, the learner is presented as a visual stimulus on the computer screen. The timing stimulus generation unit reads the segmentation pattern input in FIG. 9, interprets that two single sounds are included, and generates an image sequence including still images of images A102 and B103 sandwiched between two
図11には、タイミング刺激呈示手段が、図10で図示したタイミング刺激を呈示するときのフローチャートを示す。タイミング刺激呈示手段012は、音声データの呈示と同期を取るため、音声データの呈示を開始する時にタイマーTをT=0にリセット104するとともに、ブランク画像を呈示する105。そして、Tを時刻の推移とともにカウントアップし、TとT0を比較して106、T≧T0となったら画像Aを呈示し107、TとT1を比較して108、T≧T1となったら画像Bを呈示し109、TとT2を比較して110、T≧T2となったらブランク画面を呈示する105。学習者は音声を聞き取るときに、同時にタイミング刺激も知覚することにより、単音区間の切り替わりのタイミングを知覚することができる。 FIG. 11 shows a flowchart when the timing stimulus presenting means presents the timing stimulus shown in FIG. In order to synchronize with the presentation of the voice data, the timing
請求項1に記載された発音学習装置の別の例を示す。基本的な実施の形態は実施例1と同じであるが、セグメンテーションパターンに、単音間のギャップ区間が含まれる点(構成1)と、これに伴いタイミング刺激の様態が違う点が異なる。図12に“la”という音声のスペクトル図の模式図とそこにギャップ区間を含めて設定されたセグメンテーションパターンの例を示す。ここでは、セグメンテーションパターンとして、各単音の開始時刻と終了時刻をそれぞれ設定する。よって、この場合セグメンテーションパターンは、((T0,T3),(T4,T2))となる。 Another example of the pronunciation learning device according to
図13に、このセグメンテーションパターンから生成され、タイミング刺激呈示手段に呈示されるタイミング刺激の例をしめす。この場合は、ブランク画像101と画像A102を交互に繰り返すだけでよく、単音毎に刺激を変える必要はない。なぜならば、セグメンテーションパターン内の背景区間に対応するブランク画像が間に挟まることにより、各単音の開始時刻と終了時刻のタイミングが明確に知覚できるからである。 FIG. 13 shows an example of a timing stimulus generated from this segmentation pattern and presented to the timing stimulus presenting means. In this case, it is only necessary to alternately repeat the
請求項1に記載された発音学習装置のさらに別の例を示す。基本的な実施の形態は実施例2と同じであるが、同じ音声に対して、セグメンテーションパターンとして英語用のパターンと日本語用のパターンとを対応させること(構成2)、及び、これに伴いタイミング刺激の様態が違う点が異なる。図14に“la”という音声のスペクトル図の模式図とそこに別々に設定された英語用のパターン図14(a)と日本語用のパターン図14(b)とを示す。この場合英語用のパターンは、((T0,T3),(T4,T2))となり、日本語用のパターンは、((T5,T2))となる。 Another example of the pronunciation learning device according to
図15に、これら二つのセグメンテーションパターンから得られるタイミング刺激の例をしめす。ここでは、音声とセグメンテーションパターンの対応関係が学習者にとってより分かりやすくするために、学習者が発音学習を行うときにも、音声データのスペクトル図を同時に表示するものとする。音声の呈示に同期させて白色の縦棒301を時間軸に沿って動かす。このとき、英語の単音区間内、すなわち、T0≦T<T3、T4≦T<T2の時間においては、縦棒の下の領域302を赤色に変色する。一方、日本語の単音区間内、すなわち、T5≦T<T2においては、縦棒の上の領域303を赤色に変色する。このように、タイミング刺激呈示手段が、二つのセグメンテーションパターンの区間の切り替わりのタイミングを同時に知覚させるようなタイミング刺激を呈示することにより、学習者が、母国語と目標言語のセグメンテーションパターン様式を対比させながら発音学習を行うことができる。 FIG. 15 shows an example of the timing stimulus obtained from these two segmentation patterns. Here, in order to make it easier for the learner to understand the correspondence between the speech and the segmentation pattern, the spectrum diagram of the speech data is displayed simultaneously when the learner performs pronunciation learning. The white
請求項1に記載された発音学習装置のさらに別の例を示す。基本的な実施の形態は実施例2と同じであるが、タイミング刺激として目標言語の単音に対応する発音記号を呈示する点が異なる(構成3)。まず、オペレータがセグメンテーションパターンを手入力する際、同時に、各単音が何であるかを入力しておく。そして、タイミング刺激を呈示するとき、各々の単音に対応する発音記号の画像を呈示する。呈示例を図16として示す。ここでは、発音記号としてアルファベットを用いる。図13で示した画像A102の代わりに、“L”と表示された画像401と、“A”と表示された画像402を呈示する。 Another example of the pronunciation learning device according to
このように、タイミング刺激呈示手段が、単音発音記号を呈示することにより、学習者がどの単音が呈示されているかを理解することができる。
なお、実施例1乃至実施例4において、呈示されたタイミング刺激の画面推移を動画像データとして構成し直し、音声データと共にマルチメディアデータとしてコンピュータ読み込み可能な媒体に格納すれば、請求項4の発音学習教材製造方法の例となる。Thus, the timing stimulus presenting means presents a single phonetic symbol so that the learner can understand which single note is presented.
In the first to fourth embodiments, if the screen transition of the presented timing stimulus is reconstructed as moving image data and stored in a computer-readable medium as multimedia data together with audio data, the pronunciation of claim 4 This is an example of a learning material manufacturing method.
請求項4に記載の発音学習教材製造方法の例を示す(構成3)。セグメンテーションパターンは実施例1の図9にて例示したものと同じパターンを用いる。タイミング刺激生成ステップは、このセグメンテーションパターンを読み込み、タイミング刺激として、聴覚刺激を生成する。具体的には、ネイティブ・スピーカーが孤立させて発音した各単音を素材として、単音区間の開始時刻と同期するように配列させることにより、モノラルの音声データを合成する。そして、データ格納ステップは、このように作成したモノラル音声データをステレオ音声データの左耳用に、元となった連続音声をステレオ音声データの右耳用になるように、記録媒体にステレオ音声データとして記録する。学習者は、ステレオ式ヘッドホンを通して通常のプレーヤーでこの音声データを再生することにより、右耳からは手本となる音声が、左耳からは聴覚刺激を用いた単音発音記号からなるのタイミング刺激が聞こえる。 An example of the pronunciation learning teaching material manufacturing method according to claim 4 is shown (Configuration 3). As the segmentation pattern, the same pattern as that illustrated in FIG. The timing stimulus generation step reads this segmentation pattern and generates an auditory stimulus as a timing stimulus. More specifically, monaural sound data is synthesized by using each single sound generated by an isolated native speaker as a material and arranging it in synchronization with the start time of the single sound section. In the data storage step, the stereo audio data is recorded on the recording medium so that the monaural audio data thus created is used for the left ear of the stereo audio data and the original continuous audio is used for the right ear of the stereo audio data. Record as. The learner reproduces this sound data with a normal player through stereo headphones, so that a timing stimulus consisting of a voice that serves as a model from the right ear and a single phonetic symbol using an auditory stimulus from the left ear. hear.
請求項5の発音学習装置の例を記す(構成7、構成9)。目標言語特有変数としては、単音の持続時間を使う。自然音声としては、ネイティブ・スピーカーが自然に発音した「持続子音+母音」を用いる。調整音声としては、ネイティブ・スピーカーが子音部分を意図的に長く発音したものを用いる。なお、ネイティブ・スピーカーには、子音の持続時間以外の発声条件はできるだけ変えずに発音する旨をお願いしておかなければならない。
このようにして録音収集した音声データについて、自然音声データと調整音声データをセットで音声バリエーションとみなし、音声バリエーション番号を付与した上で、図17に示す形式にて請求項7に記載の記録媒体に記録しておく。音声バリエーションの内容は、例えば、音声バリエーション1が“1a”、音声バリエーション2が“li”、音声バリエーション2が“lu”、というように、学習すべき単音列が異なっている。An example of the pronunciation learning device according to claim 5 will be described (Configuration 7, Configuration 9). Use the duration of a single note as the target language specific variable. As natural speech, “continuous consonants + vowels” naturally pronounced by native speakers are used. As the adjusted sound, a native speaker intentionally pronounces the consonant part for a long time is used. Note that native speakers should be asked to pronounce as much as possible without changing the utterance conditions other than the duration of the consonant.
The recording medium according to claim 7, wherein the voice data recorded and collected in this manner is regarded as a voice variation in which natural voice data and adjusted voice data are set, and a voice variation number is given, and the recording medium according to the format shown in FIG. Keep a record. The contents of the voice variation are different from each other in a single string to be learned, for example, the
学習時の発音学習装置の制御手順は以下の通りである。まずは、第一の音声バリエーションを対象とする。音声データ取得手段016は、上記の記録媒体から音声バリエーション番号をキーとして、自然音声データ1を検索し読み込む。そして、音声呈示手段018は、読み込まれた音声データを学習者に呈示する。数秒後に、音声データ取得手段が調整音声データ1を読み込み、音声呈示手段が読み込まれた音声データを学習者に呈示する。
自然音声と調整音声は、一度ずつだけの呈示でもよいが、自然音声と調整音声を交互に繰り返して呈示し続ける方がより効果的である。学習者が第一の音声バリエーションについて十分学習したと考えたときには、GUI上の「次ボタン」を押して第二の音声バリエーションの学習へと進む。The control procedure of the pronunciation learning device during learning is as follows. First, the first voice variation is targeted. The voice
Natural speech and adjusted speech may be presented only once, but it is more effective to continue presenting natural speech and adjusted speech alternately. When the learner thinks that the first voice variation has been sufficiently learned, the “next button” on the GUI is pressed to proceed to the learning of the second voice variation.
請求項5の発音学習装置の例を記す(構成4、構成5、構成6、構成11、構成13)。目標言語特有変数としては、人為的分裂度を使う。自然音声としては、ネイティブ・スピーカーが自然に発音した「子音+母音」を用いる。自然音声データには、事前にオペレータによりセグメンテーションパターンが手入力されているものとする。
調整音声データは、自然音声データに対してセグメンテーションパターンに由来する重み付け関数によりフィルタリングをして得る。図18に、フィルタリングによって、人為的分裂度(v)を変化させながら調整音声を生成する方法を説明する図を示す。An example of the pronunciation learning device according to claim 5 will be described (Configuration 4, Configuration 5,
The adjusted sound data is obtained by filtering natural sound data with a weighting function derived from the segmentation pattern. FIG. 18 is a diagram for explaining a method of generating adjusted speech while changing the artificial division degree (v) by filtering.
図18(a)を自然音声の波形とする。事前にセグメンテーションパターンを手入力してあるためギャップ区間701が音声波形のどの部分に対応するかが分かっている。
図18(b)はv=100%の重み付け関数である。このv=100%における重み付け関数は、ギャップ区間の内部が概ね0に近く、その外部が概ね1となるような関数であるが、ステップ関数を用いると調整音声に高周波ノイズが発生するため、ガウス関数など滑らかに変化する関数を用いることが望ましい。v=100%の調整音声は、図18(a)の自然音声波形と図18(d)の重み付け関数を同じ時刻(t)同士の値で掛け合わせたものとして得られる。FIG. 18A is a natural speech waveform. Since the segmentation pattern is manually input in advance, it is known to which part of the speech waveform the
FIG. 18B shows a weighting function with v = 100%. The weighting function at v = 100% is a function in which the inside of the gap section is almost 0 and the outside thereof is about 1. However, if a step function is used, high-frequency noise is generated in the adjusted speech, and thus Gaussian. It is desirable to use a smoothly changing function such as a function. The adjusted speech with v = 100% is obtained by multiplying the natural speech waveform of FIG. 18 (a) and the weighting function of FIG. 18 (d) by values at the same time (t).
図18(c)はv=50%における重み付け関数であり、図18(d)はv=25%における重み付け関数である。一般に、v=100%における重み付け関数をW(t)とすると、{1−(1−W(t))×V/100}としてv=V%における重み付け関数を得ることができる。こうして得られた重み付け関数と図18(a)の自然音声波形を掛け合わせることにより、任意の人為的分裂度に対応する調整音声データを得ることができる。
このように、セグメンテーションパターンと目標言語特有変数をパラメータとして入力し、自然音声データに対してフィルタリング処理を行うことにより、音声データを取得することができる(構成5)。FIG. 18C is a weighting function at v = 50%, and FIG. 18D is a weighting function at v = 25%. In general, when the weighting function at v = 100% is W (t), the weighting function at v = V% can be obtained as {1- (1-W (t)) × V / 100}. By multiplying the weighting function thus obtained and the natural speech waveform of FIG. 18A, adjusted speech data corresponding to an arbitrary degree of artificial division can be obtained.
As described above, the speech data can be acquired by inputting the segmentation pattern and the target language specific variable as parameters and performing the filtering process on the natural speech data (Configuration 5).
入力手段から得られる入力を用いて、目標言語特有変数である人為的分裂度を調整する処理手順を具体的に例示したフローチャートを図19に示す(構成11、構成13)。なお、入力装置としてボタンAとボタンBを有している。まず、初期設定として、人為的分離度(v)を100%に設定する702。次に設定された分離度の調整音声を呈示する703。つぎに入力をチェックする704。入力が無い場合はそのまま入力を待ち続けるが、ボタンAが押されたことが検知されたときには、vを5%減少させて、新たなvの値に基づいた調整音声を呈示する705。一方、ボタンBが押されたことが検知されたときには、vを5%増加させて、新たなvに基づいた調整音声を呈示する706。これを何度も繰り返す。なお、vが0%から100%の範囲外へ出すことはできないので、vが境界値を取るときはそのままの値を維持するものとする。また、v=0%の調整音声は、重み付け関数が定数1となるため、自然音声と全く同じ音声となる。 FIG. 19 shows a flowchart specifically illustrating a processing procedure for adjusting the artificial division degree, which is a target language specific variable, using the input obtained from the input means (Configuration 11 and Configuration 13). Note that buttons A and B are provided as input devices. First, as an initial setting, the artificial separation (v) is set to 100% 702. Next, 703 presents the adjustment sound of the set separation degree. Next, the input is checked 704. If there is no input, it continues to wait for the input, but when it is detected that the button A is pressed, v is decreased by 5% and an adjustment voice based on the new value of v is presented 705. On the other hand, when it is detected that the button B is pressed, v is increased by 5%, and a new adjusted voice based on v is presented 706. Repeat this many times. Since v cannot go out of the range from 0% to 100%, when v takes a boundary value, the value is maintained as it is. In addition, the adjusted sound with v = 0% is the same sound as the natural sound because the weighting function is a constant 1.
以上の処理内容を学習者側から見ると、この装置の操作は以下のように行われる。まず、初期設定として人為的分離度100%の調整音声が呈示されるため、ハッキリと子音と母音が区別されて聞こえる。その後、子音と母音が別々に聞こえたときにはボタンAを押すことにより人為的分離度が5%減じられた、より結合されて聞こえやすい調整音声を呈示させる。学習者は、常に子音と母音を分離して聞き取ろうと努力しなければならないが、その努力にも関わらず子音と母音が結合してしまい、日本語の単音のように一単音として聞こえてしまうこともある。その場合は、ボタンBを押すことにより、人為的分離度が5%増加させられた、より分離されて聞こえやすい調整音声を呈示させる。この処理を続けていけば、人為的分離度がある定数付近で上下しながら拮抗することとなる。 When the above processing contents are viewed from the learner side, the operation of this apparatus is performed as follows. First, since an adjusted voice with an artificial separation degree of 100% is presented as an initial setting, clear sounds, consonants, and vowels are heard. Thereafter, when the consonant and the vowel are heard separately, pressing the button A causes the artificial separation degree to be reduced by 5%, and the adjustment voice that is more combined and easy to hear is presented. The learner must always try to separate and listen to the consonant and vowel, but the consonant and vowel are combined in spite of the effort, and it is heard as a single sound like a Japanese single sound. There is also. In that case, by pressing the button B, the artificial separation degree is increased by 5%, and the adjustment sound that is more separated and easy to hear is presented. If this process is continued, it will antagonize while moving up and down around a certain constant with artificial separation.
以上の学習を日々続ければ、習熟度に従って、この拮抗する人為的分離度が徐々に小さい側にずれて行き、0%の人為的分離度の調整音声すなわち自然音声を聞いたときにでも、子音と母音が分離して知覚されるようになる。そうなれば学習は完了となる。
なお、実施例7は、音声データ取得手段によって得られたデータを、コンピュータ読み込み可能な媒体に格納する機能を付加することにより、構成7としての例となる。If the above learning is continued every day, according to the proficiency level, the antagonistic artificial separation gradually shifts to the smaller side, and even when the adjusted voice of 0% artificial separation, that is, natural speech is heard, the consonant And vowels are separated and perceived. Then learning is complete.
The seventh embodiment is an example of the configuration 7 by adding a function of storing the data obtained by the voice data obtaining unit in a computer-readable medium.
また、実施例7に記述のフィルタを用いて得られる音声バリエーションを、昇順またはランダム順に、すべて1つの音声ファイルにまとめて、コンピュータ読み取り可能な媒体に格納することにより、請求項8の発音学習教材製造方法としての例となる。この音声ファイルを標準的なメディアプレーヤーを用いて再生することにより、構成9または構成10の学習装置で練習する場合と、同じ効果が得られる。 The pronunciation learning material according to claim 8, wherein all the voice variations obtained by using the filter described in the seventh embodiment are collected in a single voice file in ascending or random order and stored in a computer-readable medium. This is an example of a manufacturing method. By reproducing this audio file using a standard media player, the same effect as that obtained when practicing with the learning device of Configuration 9 or
請求項5の発音学習装置の例を記す(構成9、構成10)。目標言語特有変数としては、単音間の背景区間の時間長を用いる。英語型のセグメンテーション様式においては、子音と母音の間の渡り音部分の長さを変えて発音することができる。一方、日本語型のセグメンテーション様式においては、子音と母音が一体化されて一つの単音を構成するため、子音と母音の間の渡り音部分の長さを変えて発音することはできない。 An example of the pronunciation learning device according to claim 5 will be described (Configuration 9 and Configuration 10). As the target language specific variable, the time length of the background interval between single notes is used. In the English-type segmentation style, the length of the transitional part between consonants and vowels can be changed and pronounced. On the other hand, in the Japanese-type segmentation style, consonants and vowels are integrated to form one single sound, so that it is not possible to pronounce by changing the length of the transitional part between consonants and vowels.
自然音声としては、ネイティブ・スピーカーが自然に発音した「子音+母音」を用いる。調整音声としては、ネイティブ・スピーカーが意図的にいろいろな単音間のギャップ区間の長さで発音したものを用いる。ただし、調整音声のギャップ区間の長さは、すべて、自然音声ギャップ区間の長さより長いものとする。録音収集した音声データを、自然音声と調整音声を組にして音声バリエーション番号を付与した上で、さらに調整音声には、各々のギャップ区間の長さも加えて、図20に示す形式にて構造付けをして、請求項7に記載の記録媒体に記録しておく(構成14)。なお、ギャップ区間の長さは、各々の音声データについて、セグメンテーションパターンを手入力することにより得ることができる。 As natural speech, “consonant + vowel” naturally sounded by a native speaker is used. As the adjusted sound, a native speaker intentionally pronounced with various gap lengths between single notes is used. However, the length of the gap section of the adjusted speech is all longer than the length of the natural speech gap section. The recorded voice data is structured with the format shown in Fig. 20 after adding the voice variation number to the natural voice and the adjusted voice, and adding the length of each gap section to the adjusted voice. And recorded on the recording medium according to claim 7 (Configuration 14). Note that the length of the gap section can be obtained by manually inputting a segmentation pattern for each audio data.
発音学習の手順は以下の通りである。ある構成では、順に音声データを呈示する(構成9)。まず、音声データ取得手段は、第一の音声バリエーション音声に含まれるすべての調整音声データ(調整音声データ11、調整音声データ12、…)を読み込み、ギャップ区間の長さに基づいて降順にソートする。そして、ギャップ区間の長い方から順番に音声データを呈示する。すべて呈示し終わったら、音声データ取得手段は、自然音声データ1を上記の媒体から読み込み、音声呈示手段によって呈示する。これにより、ギャップ区間の長いものからギャップ区間の短いものへと順に呈示されることとなる。 The pronunciation learning procedure is as follows. In one configuration, audio data is presented in order (configuration 9). First, the voice data acquisition means reads all the adjusted voice data (the adjusted voice data 11, the adjusted voice data 12,...) Included in the first voice variation voice, and sorts them in descending order based on the length of the gap section. . Then, voice data is presented in order from the longer gap section. When all the presentation is completed, the voice data acquisition means reads the
また、別の構成として、順不同に呈示することも可能である(構成10)。このとき、同時にギャップ区間の長さの取りうる範囲内で乱数を発生させ、その乱数値と最も近い値のギャップ区間の長さをもつ調整音声データを取り出す。そして、調整音声呈示手段は、自然音声が呈示された数秒後に、得られた調整音声データを呈示する。さらに、学習者がGUI上の「次ボタン」を押して、次の組の発音学習に進むまで、ランダムなギャップ区間長をもつ調整音声データを呈示し続けるものとする。このように、ランダムに目標言語特有変数を変化させながらリスニング学習を行うことは、会話中に起こりうるバリエーションへの対応という観点から、リスニング能力の向上に役立つ。
なお、実施例8については、セグメンテーションパターンが手入力されているため、請求項1の発音学習装置の構成と併用するとより効果的である。Further, as another configuration, it is possible to present them in random order (Configuration 10). At this time, a random number is generated within the range that the gap section can take, and the adjusted speech data having the gap section length closest to the random value is extracted. Then, the adjusted sound presenting means presents the adjusted sound data obtained several seconds after the natural sound is presented. Further, it is assumed that the adjusted speech data having a random gap section length is continuously presented until the learner presses the “next button” on the GUI and proceeds to the next set of pronunciation learning. In this way, listening learning while randomly changing the target language specific variable is useful for improving listening ability from the viewpoint of dealing with variations that may occur during conversation.
In Example 8, since the segmentation pattern is manually input, it is more effective when used in combination with the configuration of the pronunciation learning device of
請求項5の発音学習装置の例を記す(構成8、構成11)。目標言語特有変数は、単音の音響パラメータの一例として、「有声子音のピッチ」を用いる。英語型のセグメンテーション様式においては、やや不自然な発音ではあるものの、有声子音のピッチは母音のピッチとは独立に変えて発音することができる。一方、日本語型のセグメンテーション様式においては、有声子音のピッチを母音のピッチとは独立に変えて発音することはできない。 An example of the pronunciation learning device according to claim 5 will be described (Configuration 8 and Configuration 11). As the target language specific variable, “pitch of voiced consonant” is used as an example of a single sound parameter. In the English segmentation style, although the sound is somewhat unnatural, the pitch of the voiced consonant can be changed independently from the pitch of the vowel. On the other hand, in the Japanese segmentation style, the pitch of voiced consonants cannot be changed independently from the pitch of vowels.
入力手段としては、GUI上のスライダーバーと音声呈示ボタンを用いる。学習者によって音声呈示ボタンを押されたとき、スライダーバーが中心の位置に存在するときは、有声子音の基本周波数を母音の基本周波数と同じ周波数にて音声合成を行い自然音声として呈示する。一方、学習者によって音声呈示ボタンを押されたとき、スライダーバーが中心の位置からずれているときは、スライダーバーの位置に応じて有声子音の基本周波数を母音の基本周波数とは変更して音声合成を行い調整音声として呈示する。これにより、学習者は、自分のスライダーバー入力によって有声子音のピッチを自由に調整することにより、自分がどの程度の学習レベルかを素早く把握することができる。 As an input means, a slider bar on the GUI and a voice presentation button are used. When the learner presses the voice presentation button, if the slider bar is at the center position, the voice synthesis is performed at the same frequency as the fundamental frequency of the vowel and the voiced consonant is presented as a natural voice. On the other hand, when the learner presses the voice presentation button, if the slider bar deviates from the center position, the voiced consonant fundamental frequency is changed from the vowel fundamental frequency according to the slider bar position. Combined and presented as adjusted speech. Thereby, the learner can quickly grasp the learning level of the learner by freely adjusting the pitch of the voiced consonant by his / her slider bar input.
請求項5の発音学習装置の例を示す(構成4、構成5、構成6、構成11、構成13)。目標言語特有変数以外の構成は、すべて実施例7に示した発音学習装置と同じである。目標言語特有変数としては、単音間の背景区間の長さを第一成分とし、人為的分裂度を第二成分とする二次元ベクトルを用いる。 The example of the pronunciation learning apparatus of Claim 5 is shown (Configuration 4, Configuration 5,
実施例7では、人為的分裂度が0%、5%、…、100%となる21段階の値をとるように実装したが、この21段階を、7段階ずつ3グループに分け、それぞれの第一のフィルタリング(前記の人為的分裂度に応じた重み付けフィルタ)の元となる音声波形を得るために、前処理として、単音間の背景区間の長さのみを変更するための第二のフィルタリングを行う。第二のフィルタリングの具体的な処理は、標準的な話速変換処理を局所的に適用することにより、ギャップ区間の内部の音声波形のみを、ピッチを維持したまま、区間の長さのみを引き伸ばす。例えば、自然音声データのギャップ区間の長さが100ミリ秒だったとすると、それが150ミリ秒と200ミリ秒となる中間的な調整音声データを二つ生成する。 In Example 7, the implementation was performed so as to take 21 levels of an artificial division degree of 0%, 5%,..., 100%. However, the 21 levels are divided into 3 groups of 7 levels. In order to obtain a speech waveform that is the basis of one filtering (the weighting filter according to the above-mentioned artificial division), as a pre-processing, a second filtering for changing only the length of the background section between single notes is performed. Do. The specific processing of the second filtering is to apply only the standard speech rate conversion processing to extend only the length of the section while maintaining the pitch, only the speech waveform inside the gap section. . For example, assuming that the length of the gap section of the natural voice data is 100 milliseconds, two intermediate adjusted voice data are generated which are 150 milliseconds and 200 milliseconds.
そして、上記のグループ毎に、第一グループ(0%、5%、…、30%)についてはギャップ区間長が100ミリ秒の自然音声そのものを、第二グループ(35%、40%、…、65%)についてはギャップ区間長が150ミリ秒の中間的な調整音声を、第三グループ(70%、75%、…、100%)についてはギャップ区間長が200ミリ秒の中間的な調整音声を、それぞれ、原波形として実施例7と同様に第一のフィルタリングを行う。これにより、(100ミリ秒、0%)、(100ミリ秒、5%)、…、(150ミリ秒、35%)、(150ミリ秒、40%)、…、(200ミリ秒、70%)、(200ミリ秒、75%)、…、(200ミリ秒、100%)という、2次元ベクトル空間内の21個の点列を得ることができる。この21個の点列を用いて、実施例7の発音学習装置の目標言語特有変数とすることにより、実施例7よりもより効果的な発音学習装置を提供することができる。
なお、実施例10で示した局所的な話速変換処理を用いれば、目標言語特有パラメータとして単音持続時間を用いる場合にもフィルタリングにて調整音声を取得することができる。For each of the above groups, for the first group (0%, 5%,..., 30%), the natural speech itself having a gap section length of 100 milliseconds is converted into the second group (35%, 40%,. 65%) is an intermediate adjustment voice with a gap section length of 150 milliseconds, and the third group (70%, 75%,..., 100%) is an intermediate adjustment voice with a gap section length of 200 milliseconds. Are respectively subjected to the first filtering in the same manner as in the seventh embodiment as an original waveform. (100 milliseconds, 0%), (100 milliseconds, 5%), ..., (150 milliseconds, 35%), (150 milliseconds, 40%), ..., (200 milliseconds, 70% ), (200 milliseconds, 75%),..., (200 milliseconds, 100%), 21 point sequences in the two-dimensional vector space can be obtained. By using these 21 point sequences as target language specific variables of the pronunciation learning device of the seventh embodiment, a pronunciation learning device that is more effective than the seventh embodiment can be provided.
If the local speech speed conversion process shown in the tenth embodiment is used, the adjusted speech can be acquired by filtering even when the single tone duration is used as the target language specific parameter.
請求項9に記載の発音学習装置の例を記す。音声入力手段は、音声を電気的な音声信号に変換するマイクロフォンを備え、そこから出力される電気信号をデジタルデータとしての音声データに変換する。
セグメンテーション手段では、音声認識分野において時間軸を正規化するときに標準的に用いられるDP(Dynamic Programming)マッチング手法を用いる。すなわち、音声入力手段によって入力された音声データを入力パターンとし、手本音声を照合パターンとして、時間軸を非線形に伸縮させ、最適に照合させる。この手本音声には、あらかじめセグメンテーションパターンを手入力しておくことができるので、その時刻が照合後に入力された音声データのどの時刻に対応づけられたかを調べることにより、入力音声に対して対応づけられるべきセグメンテーションパターンの時刻はどこかを知ることができる。An example of the pronunciation learning device according to claim 9 will be described. The voice input means includes a microphone that converts voice into an electrical voice signal, and converts the electrical signal output therefrom into voice data as digital data.
The segmentation means uses a DP (Dynamic Programming) matching technique that is used as a standard when normalizing the time axis in the field of speech recognition. That is, the voice data input by the voice input means is used as an input pattern, the model voice is used as a verification pattern, and the time axis is non-linearly expanded and contracted optimally. Since this sample voice can be manually input in advance with a segmentation pattern, it is possible to respond to the input voice by checking which time of the voice data is input after collation. You can know where the time of the segmentation pattern to be attached is.
セグメンテーションパターン特徴呈示手段は、認識されたセグメンテーションパターンを構成する要素、またはその適正度を表す評価値(構成17)を学習者にフィードバックする手段である。セグメンテーションパターンを構成する要素としては、単音区間の長さ、単音間の背景区間の長さ、または、セグメンテーションパターンそのものである(構成15、構成16、構成18)。例えば単音の持続時間をフィードバックするならば、「あなたが発声した音声の子音の持続時間は、何々ミリ秒です」という文字表示として学習者にフィードバックすることができる。学習者は、この表示を見ながら発声練習を行うことにより、単音の持続時間や渡り音の時間長を任意に制御できるように訓練することができる。これらの値を任意にコントロールできるようになったということは、目標言語のセグメンテーション様式が身に付いたということに他ならない。 The segmentation pattern feature presenting means is means for feeding back to the learner an element constituting the recognized segmentation pattern or an evaluation value (configuration 17) representing the appropriateness thereof. The element constituting the segmentation pattern is the length of a single sound section, the length of a background section between single sounds, or the segmentation pattern itself (Configuration 15, Configuration 16, Configuration 18). For example, if the duration of a single tone is fed back, it can be fed back to the learner as a character display “the duration of the consonant of the voice you uttered is how many milliseconds”. The learner can train to be able to arbitrarily control the duration of a single sound and the duration of a transitional sound by practicing utterance while watching this display. Being able to control these values arbitrarily means that you have learned the target language segmentation style.
更に、照合パターンを切り替える機能を付加してもよい(構成19)。例えば、英語の発音として捉える場合と、日本語の発音としてその音声を捉えるときとで、どのようなセグメンテーションパターンとなるかを学習者が対比しながら学習を進めるきっかけとなる。これは、セグメンテーション手段において、DPマッチングを行うときに照合パターンを日本人話者が発声した音声データに切り替え、この音声データに手入力した日本型のセグメンテーションパターンに対応させて入力音声のセグメンテーションパターンを認識することによって実装できる。 Further, a function of switching the collation pattern may be added (Configuration 19). For example, it is an opportunity for the learner to proceed with learning while comparing what segmentation pattern is used when capturing the pronunciation as English pronunciation and when capturing the speech as Japanese pronunciation. This is because the segmentation means switches the collation pattern to voice data uttered by a Japanese speaker when performing DP matching, and sets the segmentation pattern of the input voice corresponding to the Japanese segmentation pattern manually input to this voice data. Can be implemented by recognizing.
また、セグメンテーションパターンそのものをフィードバックしてもよい(構成18)。すなわち、セグメンテーションパターンを構成するすべての時刻を省略せずフィードバックしてもよい。フィードバックは文字表示で行ってもよいが、何らかの可視化を行うほうがより効果的である。例えば、実施例1に記述のタイミング刺激と同じ種類の刺激を用いてフィードバックを与える。この場合は、学習者がマイクロフォンに向かって発声する前に、請求項1の発音学習装置の構成によって、手本となる音声とタイミング刺激を呈示してリピートアフターミー型の発音練習を行えば、手本音声のセグメンテーションパターンと自分の音声のセグメンテーションパターンとを対比することができ、より効果的である。 Further, the segmentation pattern itself may be fed back (Configuration 18). That is, all the times constituting the segmentation pattern may be fed back without being omitted. Although feedback may be performed in character display, it is more effective to perform some kind of visualization. For example, feedback is given using the same type of stimulus as the timing stimulus described in the first embodiment. In this case, before the learner speaks to the microphone, if the pronunciation learning device according to
請求項9の例を示す(構成17)。学習者は、いろいろなギャップ区間の長さで発音するよう心掛けながら、マイクロフォンに向かって何度も発音練習を行い続ける。一定数以上の音声データのサンプリングが終わったら、セグメンテーション手段により各音声データのセグメンテーションパターンを認識し、ギャップ区間の時間長の分散値を計算する。この分散値が閾値以下であれば、十分にギャップ区間の長さにバリエーションを加えながら発音できるようになったとは判定できないため、評価値として「偽」というブール値を、例えばブザーを鳴らすなどしてフィードバックする。一方、分散値が閾値以上であれば、十分にギャップ区間の長さにバリエーションを加えながら発音ができるようになったと判定し、「真」というブール値を、例えばブザーとは別の音を鳴らすなどしてフィードバックする。 An example of claim 9 is shown (Configuration 17). The learner keeps practicing pronunciation many times toward the microphone, trying to pronounce with various gap lengths. When sampling of audio data of a certain number or more is finished, the segmentation pattern of each audio data is recognized by the segmentation means, and the variance value of the time length of the gap section is calculated. If this variance value is less than the threshold value, it cannot be determined that the sound can be generated while adding variations to the length of the gap section, so a Boolean value of “false” is used as the evaluation value, for example, a buzzer is sounded. Feedback. On the other hand, if the variance value is equal to or greater than the threshold value, it is determined that the sound can be generated while adding variations to the length of the gap section, and a Boolean value of “true” is generated, for example, a sound different from the buzzer. To give feedback.
なお、逆に英語のネイティブ・スピーカーが日本語の発音学習をするときにこの装置を利用するときは、フィードバックの評価値の真偽を逆にすればよい。
また、分散値自体を画面上に文字表示するなどして、別の評価値としてフィードバックしてもよい。On the contrary, when this device is used when an English native speaker learns pronunciation of Japanese, the true / false of the feedback evaluation value may be reversed.
Alternatively, the variance value itself may be displayed as characters on the screen and fed back as another evaluation value.
請求項5と請求項9を組み合わせて構成させた発音学習装置の例を示す(構成11、構成12、構成13)。これは、発声的学習と聴覚的学習を同時に行う、所謂リピートアフターミー型の学習方法である。
この発音学習装置を請求項9の発音学習装置としてみた場合の構成は以下の通りである。持続音である子音の持続音の持続時間が閾値より短くなれば、ブザーを鳴らして学習者にフィードバックを与える。日本語型のセグメンテーション様式においては、持続音の持続時間を長くすることができないので、これにより、英語型セグメンテーション様式に基づいているかどうか確認できる。Examples of pronunciation learning devices configured by combining claim 5 and claim 9 are shown (Configuration 11, Configuration 12, Configuration 13). This is a so-called repeat after-my learning method in which vocal learning and auditory learning are performed simultaneously.
The configuration of the pronunciation learning device as viewed as the pronunciation learning device of claim 9 is as follows. If the duration of the consonant continuous sound, which is a continuous sound, becomes shorter than the threshold, a buzzer is sounded to give feedback to the learner. In the Japanese-type segmentation style, the duration of the continuous sound cannot be increased, so that it can be confirmed whether or not it is based on the English-type segmentation style.
一方、この発音学習装置を請求項5の発音学習装置としてみた場合、基本構成は実施例7に示した発音学習装置と全く同じであり、異なる点は、ボタンAまたはボタンBの押下状態の変わりに、上記の持続音の持続時間が閾値以上であるか閾値未満であるかによって判定される点である。 On the other hand, when the pronunciation learning device is viewed as the pronunciation learning device of claim 5, the basic configuration is exactly the same as the pronunciation learning device shown in the seventh embodiment, and the difference is that the state of pressing the button A or button B is changed. In addition, it is determined based on whether the duration time of the continuous sound is greater than or less than a threshold value.
以上の処理内容を学習者側から見ると、この装置の操作は以下のように行われる。まず、初期設定として人為的分離度100%の調整音声が呈示されるため、ハッキリと子音と母音が区別されて聞こえる。そこで、持続子音の持続時間を長く保つように努力しながら、その音声を真似て発音すれば、英語型のセグメンテーション様式にて発音するため、持続時間を長く保つことができ、結果としてブザーは鳴らない。このことが実施例7のボタンAを押す代わりとなり、人為的分離度が5%減じられた、より結合されて聞こえやすい調整音声を呈示させる。学習者は、常に子音と母音を分離して聞き取ろうと努力しなければならないが、その努力にも関わらず子音と母音が結合してしまい、日本語の単音のように一つの単音として聞こえてしまうこともある。その場合は、持続子音の持続時間を長く保つことができなくなるため、実施例7のボタンBを押す代わりに、ブザーが鳴って、人為的分離度が5%増加させられた、より分離されて聞こえやすい調整音声を呈示させる。 When the above processing contents are viewed from the learner side, the operation of this apparatus is performed as follows. First, since an adjusted voice with an artificial separation degree of 100% is presented as an initial setting, clear sounds, consonants, and vowels are heard. Therefore, if you try to keep the duration of the continuous consonant long, and imitate the sound, you can keep it long because it sounds in English segmentation style, resulting in a buzzer sounding. Absent. This becomes an alternative to pressing the button A of the seventh embodiment, and presents an adjusted voice that is more combined and easy to hear, with a 5% reduction in artificial separation. The learner must always try to separate the consonant from the vowel and listen to it, but the consonant and the vowel are combined in spite of the effort, and it is heard as one single sound like a Japanese single sound. Sometimes. In that case, since the duration of the continuous consonant cannot be kept long, instead of pressing the button B of Example 7, the buzzer sounds and the artificial separation degree is increased by 5%. Present adjustment sound that is easy to hear.
この処理を続けていけば、人為的分離度がある定数付近で上下しながら拮抗することとなる。この発音学習装置を用いれば、学習者は、わざわざボタンを押す必要がないためで、実施例7の装置と比べて容易に利用できる。 If this process is continued, it will antagonize while moving up and down around a certain constant with artificial separation. By using this pronunciation learning device, it is not necessary for the learner to bother to press the button, so that it can be used more easily than the device of the seventh embodiment.
請求項3の媒体を作成する手法の例を示す。実施例8において説明したセグメンテーションパターンを手入力する方法は、手入力に時間が掛かること、および、ネイティブ・スピーカーに手本となる音声を提供してもらうときに、必要な目標言語特有パラメータの必要な範囲のデータが満遍なく収集されたかどうかが分からず余分に提供してもらわざるを得ない。そこで、実施例11で示した発音学習装置の構成要素であるセグメンテーション手段を用いて、データ収集を効率よく行うオーサリングツールを例示する。 The example of the method of producing the medium of Claim 3 is shown. In the method of manually inputting the segmentation pattern described in the eighth embodiment, manual input takes time, and the necessary target language-specific parameters are necessary when the native speaker is provided with a model voice. It is unclear whether or not a wide range of data has been collected evenly, and we have to provide extra data. Thus, an authoring tool that efficiently collects data using the segmentation means that is a component of the pronunciation learning device shown in the eleventh embodiment will be exemplified.
まず、ネイティブ・スピーカーに自然音声データを提供してもらった段階で、手入力によりセグメンテーションパターンを入力する。その後は、この自然音声データを照合データとしてDPマッチングを行うことにより、意図的にギャップ区間を長く発音してもらって音声バリエーションを集めるときには、データ収集と同時にセグメンテーションが行われ、セグメンテーションパターンが得られることとなる。これにより、オペレータの手入力の手間が大幅に省けるとともに、十分な音声バリエーション収集が完了した時点を判定することで音声提供者の手間も省くことができる。 First, a segmentation pattern is input by manual input when natural speech data is provided to a native speaker. After that, by performing DP matching using this natural voice data as collation data, when voice variations are collected intentionally by generating long gap intervals, segmentation is performed simultaneously with data collection, and a segmentation pattern is obtained. It becomes. Thereby, the labor of the operator's manual input can be greatly reduced, and the labor of the voice provider can be saved by determining when the sufficient voice variation collection is completed.
さらに、音声提供者が調整音声を提供するときに、一言を発声する毎に、目標言語特有変数に関するヒストグラムを画面上に呈示してフィードバックを与えれば、ネイティブ・スピーカー自身が、どの辺りのデータが未入力であるかを把握して、意図的にその辺りのデータを入力しようと心掛けることができ、より効果的である。 In addition, when the audio provider provides adjusted audio, each time a word is spoken, a histogram about the target language specific variable is presented on the screen and feedback is given, so that the native speaker itself can choose which data. It is more effective because it is possible to grasp whether or not is inputted and intentionally try to input data around that.
001 音声波形
002 日本語型セグメンテーション様式で知覚するときの切り出し区間
003 英語型セグメンテーション様式で知覚するときの切り出し区間(子音部分)
004 英語型セグメンテーション様式で知覚するときの切り出し区間(母音部分)
005 音声データ
006 音声データ記憶手段
007 音声呈示装置
008 音声
009 セグメンテーションパターン
010 セグメンテーションパターン記憶手段
011 タイミング刺激生成手段
012 タイミング刺激呈示手段
013 タイミング刺激
014 音声バリエーション
015 互いに目標言語特有パラメータが異なる複数の音声データ
016 音声データ取得手段
017 目標言語特有変数
018 学習者母国語において同一単音列として知覚される範囲
019 目標言語において同一単音列として知覚される範囲
020 自然音声
021 調整音声
022 第一の調整音声
023 第二の調整音声
024 第三の調整音声
025 自然音声データ
026 自然音声データ記憶手段
027 音声データ取得手段(フィルタリング)
028 入力手段
029 音声入力手段
030 セグメンテーション手段
031 セグメンテーションパターン特徴呈示手段
101 ブランク画像
102 画像A
103 画像B
104 タイマーリセット
105 ブランク画像の呈示
106 TとT0を比較
107 画像Aの呈示
108 TとT1を比較
109 画像Bの呈示
110 TとT2を比較
301 音声の呈示と同期させて右に動かす縦棒
302 英語用のセグメンテーションパターンにおいて単音区間内に入るとき赤色となる領域
303 日本語用のセグメンテーションパターンにおいて単音区間内に入るとき赤色となる領域
401 単音“l”の持続時間中に呈示される画像
402 単音の“a”持続時間中に呈示される画像
701 ギャップ区間
702 人為的分離度(v)を100%に設定
703 調整音声を呈示(v=0%の場合は標準音声を呈示)
704 入力チェック
705 vを5%減少(v=0%ならばそのまま)
706 vを5%増加(v=100%ならばそのまま)001
004 Extraction section (vowel part) when perceived in English type segmentation style
005
028 Input means 029 Audio input means 030 Segmentation means 031 Segmentation pattern feature presentation means 101
103 Image B
104 Timer reset 105 Blank image presentation 106 T and
704
706 Increase v by 5% (if v = 100%, leave it as is)
Claims (2)
第一の自然言語のセグメンテーション様式に基づいて前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段と、
前記第一の自然言語とはセグメンテーション様式が異なる第二の自然言語のセグメンテーション様式に基づいて前記音声データを時間軸上で複数の区間に分割する第二セグメンテーションパターンを記憶する第二セグメンテーションパターン記憶手段と、
前記セグメンテーションパターン記憶手段に記憶されたセグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングと、を学習者に対比させて知覚させるタイミング刺激を生成するタイミング刺激生成手段と、
前記音声データを呈示する音声呈示手段と、
該音声呈示手段による音声呈示と同期させて前記タイミング刺激を呈示するタイミング刺激呈示手段と、
からなることを特徴とする発音学習装置。 Voice data storage means for storing voice data;
Segmentation pattern storage means for storing a segmentation pattern for dividing the speech data into a plurality of sections on a time axis based on a segmentation mode of a first natural language;
Second segmentation pattern storage means for storing a second segmentation pattern for dividing the speech data into a plurality of sections on the time axis based on a segmentation style of a second natural language different from the first natural language. When,
The timing of switching the segmentation pattern section stored in the segmentation pattern storage means and the timing of switching the section of the second segmentation pattern stored in the second segmentation pattern storage means are compared with the learner. Timing stimulus generating means for generating a timing stimulus to be performed;
Voice presentation means for presenting the voice data;
Timing stimulus presentation means for presenting the timing stimulus in synchronization with voice presentation by the voice presentation means;
A pronunciation learning device characterized by comprising:
第一の自然言語のセグメンテーション様式に基づいて前記音声データを時間軸上で複数の区間に分割するセグメンテーションパターンを記憶するセグメンテーションパターン記憶手段と、
前記第一の自然言語とはセグメンテーション様式が異なる第二の自然言語のセグメンテーション様式に基づいて前記音声データを時間軸上で複数の区間に分割する第二セグメンテーションパターンを記憶する第二セグメンテーションパターン記憶手段と、
を有するコンピュータを、
前記セグメンテーションパターン記憶手段に記憶されたセグメンテーションパターンの区間の切り替わりのタイミングと、前記第二セグメンテーションパターン記憶手段に記憶された第二セグメンテーションパターンの区間の切り替わりのタイミングと、を学習者に対比させて知覚させるタイミング刺激を生成するタイミング刺激生成手段、
前記音声データを呈示する音声呈示手段、及び、
該音声呈示手段による音声呈示と同期させて前記タイミング刺激を呈示するタイミング刺激呈示手段、
として機能させるためのプログラム。 And audio data storage means for storing the voice data,
And segmentation pattern storage means for storing a segmentation pattern is divided into a plurality of sections of said audio data on the time axis based on the segmentation mode of the first natural language,
Second segmentation pattern storage means for storing a second segmentation pattern for dividing the speech data into a plurality of sections on the time axis based on a segmentation style of a second natural language different from the first natural language. And
A computer having
The timing of switching the segmentation pattern section stored in the segmentation pattern storage means and the timing of switching the section of the second segmentation pattern stored in the second segmentation pattern storage means are compared with the learner. A timing stimulus generating means for generating a timing stimulus,
Voice presentation means for presenting the voice data; and
Timing stimulus presentation means for presenting the timing stimulus in synchronization with the voice presentation by the voice presentation means;
Program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005110310A JP4678672B2 (en) | 2005-03-09 | 2005-03-09 | Pronunciation learning device and pronunciation learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005110310A JP4678672B2 (en) | 2005-03-09 | 2005-03-09 | Pronunciation learning device and pronunciation learning program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010203823A Division JP4842393B2 (en) | 2010-09-11 | 2010-09-11 | Pronunciation learning device and pronunciation learning program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006251744A JP2006251744A (en) | 2006-09-21 |
JP4678672B2 true JP4678672B2 (en) | 2011-04-27 |
Family
ID=37092261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005110310A Expired - Fee Related JP4678672B2 (en) | 2005-03-09 | 2005-03-09 | Pronunciation learning device and pronunciation learning program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4678672B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5605005B2 (en) | 2010-06-16 | 2014-10-15 | 住友電気工業株式会社 | Silicon carbide semiconductor device manufacturing method and silicon carbide semiconductor device manufacturing apparatus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187028A (en) * | 1996-12-20 | 1998-07-14 | Matsushita Electric Ind Co Ltd | Vocalization training device |
JP2003162291A (en) * | 2001-11-22 | 2003-06-06 | Ricoh Co Ltd | Language learning device |
JP2004334164A (en) * | 2002-10-24 | 2004-11-25 | Toshimasa Ishihara | System for learning pronunciation and identification of english phonemes "l" and "r" |
JP2004347786A (en) * | 2003-05-21 | 2004-12-09 | Casio Comput Co Ltd | Speech display output controller, image display controller, and speech display output control processing program, image display control processing program |
-
2005
- 2005-03-09 JP JP2005110310A patent/JP4678672B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187028A (en) * | 1996-12-20 | 1998-07-14 | Matsushita Electric Ind Co Ltd | Vocalization training device |
JP2003162291A (en) * | 2001-11-22 | 2003-06-06 | Ricoh Co Ltd | Language learning device |
JP2004334164A (en) * | 2002-10-24 | 2004-11-25 | Toshimasa Ishihara | System for learning pronunciation and identification of english phonemes "l" and "r" |
JP2004347786A (en) * | 2003-05-21 | 2004-12-09 | Casio Comput Co Ltd | Speech display output controller, image display controller, and speech display output control processing program, image display control processing program |
Also Published As
Publication number | Publication date |
---|---|
JP2006251744A (en) | 2006-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khouw et al. | Perceptual correlates of Cantonese tones | |
JPH10153998A (en) | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method | |
JP2003186379A (en) | Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system | |
JP2011250100A (en) | Image processing system and method, and program | |
WO2007058263A1 (en) | Language learning device, language learning supporting method, program, and recording medium | |
JP2023007405A (en) | Voice conversion device, voice conversion method, program, and storage medium | |
JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
JP4564416B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP2011232775A (en) | Pronunciation learning device and pronunciation learning program | |
Louko et al. | Issues in collecting and transcribing speech samples | |
JP4678672B2 (en) | Pronunciation learning device and pronunciation learning program | |
JP6314879B2 (en) | Reading aloud evaluation device, reading aloud evaluation method, and program | |
JP2844817B2 (en) | Speech synthesis method for utterance practice | |
JP6291808B2 (en) | Speech synthesis apparatus and method | |
Torre | Production and perception of smiling voice | |
JP4842393B2 (en) | Pronunciation learning device and pronunciation learning program | |
JP5248365B2 (en) | Memory support system, memory support program, and memory support method | |
JP2007139868A (en) | Language learning device | |
JP2006139162A (en) | Language learning system | |
JP2014240902A (en) | Learning support device | |
Bashford Jr et al. | Polling the effective neighborhoods of spoken words with the verbal transformation effect | |
JP4543919B2 (en) | Language learning device | |
JP7432879B2 (en) | speech training system | |
CN109346058B (en) | Voice acoustic feature expansion system | |
JP2006162760A (en) | Language learning apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101101 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4678672 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |