JP2007139868A - Language learning device - Google Patents
Language learning device Download PDFInfo
- Publication number
- JP2007139868A JP2007139868A JP2005330100A JP2005330100A JP2007139868A JP 2007139868 A JP2007139868 A JP 2007139868A JP 2005330100 A JP2005330100 A JP 2005330100A JP 2005330100 A JP2005330100 A JP 2005330100A JP 2007139868 A JP2007139868 A JP 2007139868A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- word
- pitch
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、語学学習を支援する技術に関する。 The present invention relates to a technique for supporting language learning.
外国語あるいは母国語の語学学習、特に、発音あるいは発話の独習においては、CD(Compact Disk)等の記録媒体に記録された模範音声を再生し、その模範音声の真似をして発音あるいは発話するという学習方法が広く用いられている。これは模範音声の真似をすることで正しい発音を身につけることを目的とするものであるが、学習をより効果的に進めるためには、自分の音声を具体的に把握し、模範音声と自分の音声との差を知って自分の発音を正しい発音に近づける必要がある。 In language learning of a foreign language or native language, especially in self-study of pronunciation or utterance, the model voice recorded on a recording medium such as a CD (Compact Disk) is played, and the model voice is imitated to pronounce or speak. The learning method is widely used. This is intended to acquire the correct pronunciation by imitating the model voice, but in order to advance learning more effectively, you need to know your voice specifically, You need to know the difference from your voice and bring your pronunciation closer to the correct pronunciation.
学習者が自分の音声を具体的に把握できるようにする技術としては、例えば特許文献1、2に開示された技術がある。特許文献1には、学習者の音声波形、パワー、ピッチ等を表示する技術が開示されている。また、特許文献2には、模範となる音声の音声波形と、学習者の音声の音声波形とを並べて表示する技術が開示されている。
特許文献1に開示された技術によれば、音声の音声波形やパワー、ピッチ等が視覚化されるため、学習者は自分の音声を把握することができる。また、特許文献2に開示された技術によれば、学習者は、音声波形を比較して、模範となる音声と自分の音声との違いを見ることができる。しかしながら、特許文献1に開示された技術では、音声波形について専門的な知識を持たない普通の学習者が波形等の違いから発音の改善点を把握するのは難しく、自分の音声と模範音声との差を具体的に把握し、発音の悪い部分を把握するのが難しいという問題がある。また、特許文献2に開示された技術においては、模範音声の波形と学習者の音声の波形とが並べて表示されるものの、音声波形について専門的な知識を持たない普通の学習者が波形の違いを把握するのは難しく、どのように発音を改善すれば良いのか学習者自身では分かりにくいという問題がある。 According to the technique disclosed in Patent Document 1, since the voice waveform, power, pitch, and the like of the voice are visualized, the learner can grasp his / her voice. Further, according to the technique disclosed in Patent Document 2, the learner can compare the speech waveforms and see the difference between the model speech and his / her speech. However, with the technique disclosed in Patent Document 1, it is difficult for ordinary learners who do not have specialized knowledge about speech waveforms to grasp improvements in pronunciation based on differences in waveforms and the like. There is a problem that it is difficult to grasp the difference between them specifically and to understand the part where pronunciation is bad. In the technique disclosed in Patent Document 2, the waveform of the model speech and the waveform of the learner's speech are displayed side by side, but an ordinary learner who does not have specialized knowledge about the speech waveform has a difference in waveform. There is a problem that it is difficult for the learner himself to understand how to improve pronunciation.
本発明は、上述した背景の下になされたものであり、模範音声と学習者の音声の相違点を学習者が容易に把握できるようにする技術を提供することを目的とする。 The present invention has been made under the above-described background, and an object of the present invention is to provide a technique that enables a learner to easily grasp the difference between a model voice and a learner's voice.
上述した課題を解決するために本発明は、会話の例文と、前記例文中の各単語の発話音声のピッチとを記憶した記憶手段と、音声が入力される音声入力手段と、前記音声入力手段に入力された音声から、前記例文中の各単語に対応する発話音声を抽出する発話音声抽出手段と、前記発話音声抽出手段により抽出された各音声のピッチを抽出するピッチ抽出手段と、前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各単語の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の単語と、該単語の発話音声を表す帯状図形とを対応付けて表示する表示手段と、前記例文中の各単語の上下方向の表示位置を、前記記憶手段に記憶されている各単語の発話音声のピッチの高低に応じて決定すると共に、前記複数の帯状図形の上下方向の表示位置を、前記ピッチ抽出手段で抽出された単語毎のピッチの高低に応じて決定する表示位置決定手段とを有する語学学習装置を提供する。 In order to solve the above-mentioned problems, the present invention provides a storage means for storing an example sentence of conversation and a pitch of the uttered voice of each word in the example sentence, a voice input means for inputting a voice, and the voice input means. Utterance voice extraction means for extracting utterance voice corresponding to each word in the example sentence, pitch extraction means for extracting the pitch of each voice extracted by the utterance voice extraction means, and the storage The example sentences stored in the means are displayed in horizontal composition, and a plurality of band-like figures representing the utterances of each word extracted by the utterance voice extraction means are displayed in horizontal composition, and the words in the example sentences Display means for displaying the word-like speech voice in association with the display, and the vertical display position of each word in the example sentence, the pitch of the speech voice of each word stored in the storage means To high and low And a display position determining means for determining the vertical display positions of the plurality of strip-shaped figures according to the pitch of each word extracted by the pitch extracting means. To do.
また、本発明は、会話の例文と、前記例文中の各単語の発話音声の発話時間とを記憶した記憶手段と、音声が入力される音声入力手段と、前記音声入力手段に入力された音声から、前記例文中の各単語に対応する発話音声を抽出する発話音声抽出手段と、前記発話音声抽出手段により抽出された発話音声毎に発話時間を抽出する発話時間抽出手段と、前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各単語の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の単語と、該単語の発話音声を表す帯状図形とを対応付けて表示する表示手段と、前記例文中の各単語の表示長さを、前記記憶手段に記憶されている各単語の発話音声の発話時間の長短に応じて決定すると共に、前記複数の帯状図形の表示長さを、前記発話時間抽出手段で抽出された単語毎の発話時間の長短に応じて決定する表示長さ決定手段とを有する語学学習装置を提供する。 Further, the present invention provides a storage means for storing an example sentence of conversation and an utterance time of an utterance voice of each word in the example sentence, a voice input means for inputting voice, and a voice input to the voice input means. Utterance voice extraction means for extracting utterance voice corresponding to each word in the example sentence, utterance time extraction means for extracting utterance time for each utterance voice extracted by the utterance voice extraction means, and the storage means The stored example sentences are displayed in horizontal composition, and a plurality of band-like figures representing the utterances of each word extracted by the utterance voice extraction means are displayed in horizontal composition, and the words in the example sentences, Display means for displaying in association with a band-like figure representing the utterance voice of a word, and the display length of each word in the example sentence to the length of the utterance time of the utterance voice of each word stored in the storage means As well as to decide Wherein the plurality of the display length of the strip shape, to provide a language learning apparatus and a display length determining means for determining in accordance with the length of speech time of each word extracted by said utterance time extracting means.
また、本発明は、例文と、前記例文中の各音素あるいは音節の発話音声のピッチとを記憶した記憶手段と、音声が入力される音声入力手段と、前記音声入力手段に入力された音声から、前記例文中の各音素あるいは音節に対応する発話音声を抽出する発話音声抽出手段と、前記発話音声抽出手段により抽出された各音素あるいは音節のピッチを抽出するピッチ抽出手段と、前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各音素あるいは音節の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の音素あるいは音節と、該音素あるいは音節の発話音声を表す帯状図形とを対応付けて表示する表示手段と、前記例文中の各音素あるいは音節の上下方向の表示位置を、前記記憶手段に記憶されている各音素あるいは音節の発話音声のピッチの高低に応じて決定すると共に、前記複数の帯状図形の上下方向の表示位置を、前記ピッチ抽出手段で抽出された音素あるいは音節毎のピッチの高低に応じて決定する表示位置決定手段とを有する語学学習装置を提供する。 Further, the present invention provides a storage means for storing example sentences and pitches of speech sounds of each phoneme or syllable in the example sentences, a voice input means for inputting a voice, and a voice input to the voice input means. Utterance voice extraction means for extracting utterance voice corresponding to each phoneme or syllable in the example sentence, pitch extraction means for extracting the pitch of each phoneme or syllable extracted by the utterance voice extraction means, and the storage means The stored example sentences are displayed in horizontal composition, and a plurality of band-like figures representing the speech sounds of each phoneme or syllable extracted by the utterance voice extraction means are displayed in horizontal composition, and the phonemes in the example sentences or Display means for displaying the syllable and the band-like figure representing the phoneme or the utterance voice of the syllable in association with each other, and the display position in the vertical direction of each phoneme or syllable in the example sentence, Each of the phonemes or syllables stored in the memory means is determined according to the pitch of the utterance voice, and the vertical display positions of the plurality of band-like figures are determined for each phoneme or syllable extracted by the pitch extracting means. There is provided a language learning device having display position determining means for determining the pitch according to the height of the pitch.
本発明によれば、学習者は、模範音声と学習者の音声の相違点を容易に把握することができる。 According to the present invention, the learner can easily grasp the difference between the model voice and the learner's voice.
以下、図面を参照して本発明の実施形態について説明する。
[実施形態の構成]
図1は、本発明の実施形態に係る語学学習装置1のハードウェア構成を例示したブロック図である。図1に示したように、語学学習装置1の各部は、バス101に接続されており、このバス101を介して各部間で信号やデータの授受を行う。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Configuration of the embodiment]
FIG. 1 is a block diagram illustrating a hardware configuration of a language learning device 1 according to an embodiment of the invention. As shown in FIG. 1, each unit of the language learning device 1 is connected to a
マイクロホン109は、音声処理部108に接続されており、入力される音声を電気信号(以下、音声信号と称する)に変換して音声処理部108へ出力する。スピーカ110は、音声処理部108に接続されており、音声処理部108から出力される信号に対応した音を出力する。音声処理部108は、マイクロホン109から入力される音声信号をデジタルデータ(以下、学習者データと称する)に変換して出力する機能や、音声を表すデジタルデータをアナログの音声信号に変換し、スピーカ110へ出力する機能を備えている。
The
表示部106は、例えば、液晶ディスプレイ等の表示デバイスを備えており、CPU102の制御の下、文字列や各種メッセージ、語学学習装置1を操作するためのメニュー画面等を表示する。入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
The
記憶部105は、例えば、HDD(Hard Disk Drive)装置を備えており、各種データを記憶する。具体的には、記憶部105は、音声処理部108から出力される学習者データを記憶する。また、記憶部105は、語学学習に用いられる例文を表す例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声(以下、模範音声と称する)を表すデジタルデータ(以下、模範データと称する)とを記憶している。記憶部105は、図2に例示したフォーマットの例文テーブルTB1を記憶しており、このテーブルに例文テキストデータと、ネイティブスピーカが例文を読み上げた時の音声を表す模範データのファイル名と、各例文テキストデータを一意に識別する識別子とを対応付けて格納している。また、記憶部105は、例文に含まれている単語を示す単語テキストデータと、模範音声中における各単語の発音音声のピッチ、および模範音声中における各単語の発話開始時間とを記憶している。記憶部105は、図3に例示したフォーマットの単語テーブルTB2を記憶しており、このテーブルに、例文を示す識別子と、例文に含まれている各単語のテキストデータと、各単語の発音音声のピッチおよび発話開始時間とを対応付けて格納している。また、記憶部105は、音声処理部108が出力した学習者データを記憶する。
The
CPU(Central Processing Unit)102は、ROM(Read Only Memory)103に記憶されているプログラムを、RAM(Random Access Memory)104を作業エリアにして実行する。CPU102がプログラムを実行すると、CPU102によって各部が制御され、模範音声と学習者の音声との相違点を表示する機能が実現する。
A CPU (Central Processing Unit) 102 executes a program stored in a ROM (Read Only Memory) 103 using a RAM (Random Access Memory) 104 as a work area. When the
[実施形態の動作]
次に本実施形態の動作について説明する。
まず、学習者が例文の一覧の表示を指示する操作を行うと、CPU102は例文テーブルTB1に格納されている例文テキストデータを読み出し(図4:ステップSA1)、読み出したデータが表す例文の一覧を表示部106に表示する(ステップSA2)。この後、学習者が入力部107を操作し、表示された例文の一つを選択する操作を行うと(ステップSA3;YES)、CPU102は、表示部106に表示されている画面と、入力部107から送られる信号に基づいて、選択された例文を特定する(ステップSA4)。CPU102は、選択された例文を特定すると、例文テーブルTB1において、選択された例文に対応付けて格納されている模範データのファイル名を読み出す(ステップSA5)。例えば、図2に示したテーブルにおいて、識別子が「001」である例文が選択された場合、ファイル名「a001」が読み出される。
[Operation of the embodiment]
Next, the operation of this embodiment will be described.
First, when the learner performs an operation to instruct display of a list of example sentences, the
次にCPU102は、読み出したファイル名で特定される模範データを記憶部105から読み出し、読み出した模範データを音声処理部108へ出力する(ステップSA6)。音声処理部108に模範データが入力されると、デジタルデータである模範データがアナログの信号に変換されてスピーカ110へ出力され、スピーカ110から模範音声が再生される。
Next, the
CPU102は、模範音声の再生が終了すると、表示部106を制御し、例えば、「キーを押してから発音し、発音が終わったら再度キーを押してください」という、例文の発音を促すメッセージを表示する(ステップSA7)。学習者は、スピーカ110から出力された模範音声を聞いた後、メッセージに従って入力部107を操作し、模範音声を真似て例文を読み上げる。学習者が発音すると、学習者の音声(以下、学習者音声と称する)がマイクロホン109によって音声信号に変換され、変換された信号が音声処理部108へ出力される。音声処理部108は、マイクロホン109から出力された音声信号が入力されると、音声信号をデジタルデータである学習者データに変換する。この学習者データは、音声処理部108から出力されて記憶部105に記憶される。
When the reproduction of the model voice is finished, the
学習者が発音を終了して入力部107を操作すると(ステップSA8;YES)、CPU102は、学習者データが示す音声の長さを調整し、模範音声データが示す模範音声の長さと、学習者データが示す学習者の音声の長さとが同じとなるように学習者データを処理する(ステップSA9)。図5は、模範音声の波形とマイクロホン107に入力された学習者音声の波形とを例示した図である。図5においては、模範音声の波形および学習者音声の波形は同じ例文を発話した時のものを示しているが、発話速度が異なっているため、音声波形の長さが異なっている。CPU102は、模範音声データと学習者データを解析し、模範音声の長さと学習者音声の長さ(図5のΔt)を求める。図5に示したように、学習者音声の長さが模範音声の長さよりΔt長い場合、学習者音声の長さをΔt分だけ縮める処理を行う。
When the learner finishes pronunciation and operates the input unit 107 (step SA8; YES), the
次にCPU102は、模範音声の波形と学習者音声の波形とを、図6に示したように所定の時間間隔で区切って複数のフレームに分割する。そして、模範音声の各フレームの音声波形と、学習者音声の各フレームの音声波形との対応付けをDP(Dynamic Programming)マッチング法を用いて行う(ステップSA10)。例えば、図6に例示した波形においては、模範音声のフレームA1は、学習者音声のフレームB1に対応付けされ、模範音声のフレームA3は、学習者音声のフレームB4に対応付けされる。
Next, the
CPU102は、模範音声と学習者音声との対応付けが終了すると、各音声波形を単語の発音毎に分割する(ステップSA11)。具体的には、まず、模範音声については、単語テーブルTB1から発話開始時間を読み出す。ここで、学習者が選択した例文が「The critical region for ecology though is the east end of Panama.」であるので、まず、「The」の発話開始時間「0.0sec」が単語テーブルTB2から読み出される。CPU102は、図6に示したように、音声波形の「0.0sec」の位置のフレームに(フレームA1)単語の区切りを示す情報(以下、単語区切り情報Cと称する)を付加する。次にCPU102は「critical」の発話時間「0.3sec」を単語テーブルTB2から読み出し、発音開始から0.3sec後の位置に対応したフレーム(フレームA3)に単語区切り情報Cを付加する。
When the association between the model voice and the learner voice ends, the
CPU102は、模範音声について最後の単語「Panama」まで単語区切り情報Cを付加すると、次に、学習者音声について単語区切り情報を付加する。まず、CPU102は、模範音声において単語区切り情報が付加されたフレームを抽出する。そして、抽出されたフレームに対応したフレームを、学習者音声において特定し、特定したフレームに単語区切り情報Cを付加する。例えば、単語区切り情報Cが付加されたフレームA1が抽出されると、上述したステップSA10の処理によってフレームA1はフレームB1に対応付けされているので、CPU102は、フレームA1に対応しているフレームB1を特定し、このフレームB1に単語区切り情報を付加する。また、単語区切り情報が付加されたフレームA3が抽出されると、上述したステップSA10の処理によってフレームA3はフレームB4に対応付けされているので、CPU102は、フレームA3に対応付けされたフレームB4を特定し、このフレームB4に単語区切り情報Cを付加する。
After adding the word break information C to the last word “Panama” for the model voice, the
CPU102は、フレームに単語区切り情報を付加して音声波形を単語の発音毎に分割すると、まず、模範音声については、各単語の発話時間を算出する(ステップSA12)。例えば、模範音声の「The」の場合、「The」の発音を表す音声波形として、フレームA1〜フレームA2までの音声波形が抽出される。そして、抽出した音声波形が解析され、発音時間とが算出される。
When the
次にCPU102は、学習者音声について、各単語の音声のピッチと発話時間とを算出する(ステップSA13)。例えば、学習者音声の「The」の場合、「The」の発音を表す音声波形として、フレームB1〜フレームB3までの音声波形が抽出される。そして、抽出した音声波形が解析され、音声のピッチと発音時間とが算出される。
Next, the
CPU102は、各単語の音声のピッチと発話時間との算出が終了すると、求めたピッチと発話時間とに従って、図7に例示したように、単語毎にピッチと発話時間とを表示する(ステップSA14)。
図7のピッチ表示部A1において、単語が内部に表示されている帯は、模範音声の発音を表し、内部が塗りつぶされている帯は学習者の発音を表している。単語が内部に表示されている帯の上下方向の配置位置は、単語テーブルTB2において各単語に対応付けて格納されているピッチに応じて決定され、内部が塗りつぶされている帯の上下方向の配置位置は、ステップS13で求めた学習者の音声のピッチに応じて決定される。各帯は、画面の所定の表示位置を基準にして発音のピッチの高低に応じて画面上に配置され、ピッチが高いと帯は上方向に表示され、ピッチが低いと帯は下方向に表示される。例えば、「The」が内部に表示されている帯の配置位置は、単語テーブルTB2において、「The」に対応付けて格納されているピッチに応じて決定され、学習者の「The」の発音を表す帯は、ステップS13で算出されたピッチに応じて決定される。ここで、模範音声のピッチと学習者の音声のピッチが一致している場合には、学習者の発音を示す帯は表示されない。例えば、学習者の「The」の発音のピッチと、模範音声の「The」の発音のピッチとが同じである場合、図7に例示したように、内部が塗りつぶされている帯が表示されない。
When the calculation of the voice pitch and the utterance time of each word is completed, the
In the pitch display part A1 in FIG. 7, the band in which the word is displayed inside represents the pronunciation of the model voice, and the band in which the inside is filled represents the pronunciation of the learner. The vertical position of the band in which the word is displayed is determined according to the pitch stored in association with each word in the word table TB2, and the vertical position of the band in which the inside is filled The position is determined according to the pitch of the learner's voice obtained in step S13. Each band is arranged on the screen according to the pitch of the pronunciation based on a predetermined display position on the screen. When the pitch is high, the band is displayed upward, and when the pitch is low, the band is displayed downward. Is done. For example, the arrangement position of the band in which “The” is displayed is determined in accordance with the pitch stored in association with “The” in the word table TB2, and the learner pronounces “The”. The band to be represented is determined according to the pitch calculated in step S13. Here, when the pitch of the model voice matches the pitch of the learner's voice, a band indicating the pronunciation of the learner is not displayed. For example, when the pitch of the pronunciation of the learner “The” and the pitch of the pronunciation of the model voice “The” are the same, as illustrated in FIG. 7, a band whose interior is filled is not displayed.
また、模範音声のピッチが学習者の音声のピッチより高い場合、例えば、図7に例示したように、「critical」という単語が内部に表示されている帯、即ち、模範音声の発音を示す帯が、学習者の「critical」の発音を示す帯よりも上に表示される。また、模範音声のピッチが学習者の音声のピッチよりも低い場合、例えば、図7に例示したように、「region」という単語が内部に表示されている帯、即ち、模範音声の発音を示す帯が、学習者の「region」の発音を示す帯よりも下に表示される。 When the pitch of the model voice is higher than the pitch of the learner's voice, for example, as illustrated in FIG. 7, a band in which the word “critical” is displayed, that is, a band indicating the pronunciation of the model voice. Is displayed above the band indicating the pronunciation of the learner's “critical”. When the pitch of the model voice is lower than the pitch of the learner's voice, for example, as illustrated in FIG. 7, a band in which the word “region” is displayed, that is, the pronunciation of the model voice is shown. A band is displayed below the band indicating the pronunciation of the learner's “region”.
また、図7の発話時間表示部A2において、単語が内部に表示されている帯は、模範音声の発話時間を表し、内部に色がついている帯は学習者の発話時間を表している。
模範音声の発話時間の長さを表している帯の長さは、ステップSA12で算出された発話時間に応じて決定され、内部に色がつけられている帯の長さは、ステップSA13で算出された発話時間に応じて決定される。例えば、「The」が内部に表示されている帯の長さは、ステップSA12で算出された発話時間に応じて決定され、学習者の「The」の発音を表す帯の長さは、ステップSA13で算出された発話時間に応じて決定される。ここで、模範音声の発話時間と学習者の発話時間とが一致している場合には、模範音声の発話時間を表す帯と学習者の発話時間を表す帯は同じ長さになる。例えば、学習者の「region」の発話時間と、模範音声の「region」の発話時間とが同じである場合、図7に例示したように、模範音声の「region」の発話時間を表す帯と、学習者の「region」の発話時間を表す帯は同じ長さとなる。
Further, in the utterance time display part A2 of FIG. 7, the band in which the word is displayed inside represents the utterance time of the model voice, and the colored band inside represents the utterance time of the learner.
The length of the band representing the length of the utterance time of the model voice is determined according to the utterance time calculated in Step SA12, and the length of the band colored inside is calculated in Step SA13. It is determined according to the utterance time. For example, the length of the band in which “The” is displayed is determined according to the utterance time calculated in step SA12, and the length of the band indicating the pronunciation of the learner “The” is determined in step SA13. It is determined according to the utterance time calculated in (1). Here, when the utterance time of the model voice matches the utterance time of the learner, the band representing the utterance time of the model voice and the band representing the utterance time of the learner have the same length. For example, if the utterance time of the learner “region” is the same as the utterance time of the “region” of the model voice, a band representing the utterance time of the “region” of the model voice as illustrated in FIG. The bands representing the utterance time of the learner's “region” have the same length.
また、模範音声の発話時間が学習者の発話時間よりも長い場合、例えば、図7に例示したように、「critical」という単語が内部に表示されている帯、即ち、模範音声の発話時間を示す帯が、学習者の「critical」の発話時間を示す帯よりも長く表示される。また、模範音声の発話時間が学習者の発話時間よりも短い場合、例えば、図7に例示したように、「though」という単語が内部に表示されている帯、即ち、模範音声の発話時間を示す帯が、学習者の「though」の発話時間を示す帯よりも短く表示される。 When the utterance time of the model voice is longer than the utterance time of the learner, for example, as illustrated in FIG. 7, the band in which the word “critical” is displayed inside, that is, the utterance time of the model voice is set. The band shown is displayed longer than the band showing the utterance time of the learner's “critical”. Also, when the utterance time of the model voice is shorter than the utterance time of the learner, for example, as illustrated in FIG. 7, the band in which the word “though” is displayed inside, that is, the utterance time of the model voice is set. The band indicated is displayed shorter than the band indicating the utterance time of the learner's “though”.
以上説明したように、本実施形態によれば、単語毎に模範音声のピッチと、学習者の音声のピッチとが一緒に表示されるため、模範音声と異なる点を容易に知ることができると共に、模範音声と学習者の音声との相違を具体的に把握することができる。また、模範音声の発話時間と、学習者の音声の発話時間とが一緒に表示されるため、発話時間に関しても、模範音声と異なる点を容易に知ることができると共に、模範音声と学習者の音声との相違を具体的に把握することができる。 As described above, according to the present embodiment, the pitch of the model voice and the pitch of the learner's voice are displayed together for each word, so that the difference from the model voice can be easily known. The difference between the model voice and the learner's voice can be specifically grasped. In addition, since the voice time of the model voice and the voice time of the learner's voice are displayed together, it is possible to easily know the points different from the model voice, and the voice of the model voice and the learner's voice. The difference from the voice can be grasped specifically.
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. For example, the present invention may be implemented by modifying the above-described embodiment as follows.
上述した実施形態においては、一つの画面にピッチと発話時間との両方を表示しているが、ピッチのみ、または発音スピードのみを表示するようにしてもよく、また、ピッチと発音スピードのどちらを表示するか、学習者の操作により選択できるようにしてもよい。また、上述した実施形態においては、図8に例示したように、模範音声とは発音が異なることを報知するアイコンを、模範音声と異なる発音の部分に表示するようにしてもよい。 In the embodiment described above, both the pitch and the utterance time are displayed on one screen, but only the pitch or only the pronunciation speed may be displayed, and either the pitch or the pronunciation speed may be displayed. It may be displayed or selected by a learner's operation. Further, in the above-described embodiment, as illustrated in FIG. 8, an icon for notifying that the pronunciation is different from the model voice may be displayed in a portion of the pronunciation different from the model voice.
上述した実施形態においては、単語毎にピッチや発話時間を表示しているが、音素あるいは音節毎に模範音声を記憶し、模範音声と学習者の音声と比較して、音素毎にピッチや発話時間を表示するようにしてもよい。 In the embodiment described above, the pitch and utterance time are displayed for each word, but the model voice is stored for each phoneme or syllable, and the pitch and utterance for each phoneme are compared with the model voice and the learner's voice. You may make it display time.
上述した実施形態においては、模範音声や学習者音声に無音区間がある場合、図9に示したように空白の帯によって無音区間を表すようにしてもよい。 In the above-described embodiment, when there is a silent section in the model voice or the learner voice, the silent section may be represented by a blank band as shown in FIG.
また、上述した実施形態においては、図10(a)に例示したように、発話時間を表す帯を隣の帯に密着させて表示するようにしてもよい。また、この態様においては、単語の発話時間を表している帯をクリックする操作が行われた場合、クリックされた帯の表示位置を基準にして各帯の表示位置を変更するようにしてもよい。例えば、図10(a)のように各単語の発話時間が表示されている時に「region」の単語の発話時間を表す帯をクリックする操作が行われると、語学学習装置は図10(b)に示したように模範音声の「region」の帯の左端の位置と、学習者音声の「region」の帯の左端の位置とを揃えて表示し、他の帯の表示位置を「region」の表示位置に合わせて表示するようにしてもよい。 In the above-described embodiment, as illustrated in FIG. 10A, a band representing the speech time may be displayed in close contact with the adjacent band. Further, in this aspect, when an operation of clicking a band representing the utterance time of a word is performed, the display position of each band may be changed based on the display position of the clicked band. . For example, when the utterance time of each word is displayed as shown in FIG. 10 (a), if an operation of clicking on a band representing the utterance time of the word “region” is performed, the language learning device will As shown in Fig. 4, the left edge position of the "region" band of the model voice is aligned with the left edge position of the "region" band of the learner voice, and the display positions of the other bands are set to "region". You may make it display according to a display position.
また、上述した実施形態においては、学習者の単語の発話時間が対応する模範音声の単語の発話時間より著しく長かった場合、この単語の前の単語の帯を、発話時間が長かった単語の帯から離して表示するようにしてもよい。 Further, in the above-described embodiment, when the utterance time of the learner's word is significantly longer than the utterance time of the word of the model voice corresponding to the learner's word, the word band before the word is replaced with the word band having the longer utterance time You may make it display away from.
1・・・語学学習装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・表示部、107・・・入力部、108・・・音声処理部、109・・・マイクロホン、110・・・スピーカ。 DESCRIPTION OF SYMBOLS 1 ... Language learning apparatus, 101 ... Bus, 102 ... CPU, 103 ... ROM, 104 ... RAM, 105 ... Memory | storage part, 106 ... Display part, 107 ... Input unit, 108... Voice processing unit, 109... Microphone, 110.
Claims (3)
音声が入力される音声入力手段と、
前記音声入力手段に入力された音声から、前記例文中の各単語に対応する発話音声を抽出する発話音声抽出手段と、
前記発話音声抽出手段により抽出された各音声のピッチを抽出するピッチ抽出手段と、
前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各単語の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の単語と、該単語の発話音声を表す帯状図形とを対応付けて表示する表示手段と、
前記例文中の各単語の上下方向の表示位置を、前記記憶手段に記憶されている各単語の発話音声のピッチの高低に応じて決定すると共に、前記複数の帯状図形の上下方向の表示位置を、前記ピッチ抽出手段で抽出された単語毎のピッチの高低に応じて決定する表示位置決定手段と
を有する語学学習装置。 Storage means for storing an example sentence of the conversation and a pitch of the utterance voice of each word in the example sentence;
Voice input means for inputting voice;
Utterance voice extraction means for extracting utterance voice corresponding to each word in the example sentence from the voice input to the voice input means;
Pitch extraction means for extracting the pitch of each voice extracted by the utterance voice extraction means;
The example sentences stored in the storage means are displayed in horizontal composition, and a plurality of band-like figures representing the utterance voices of the words extracted by the utterance voice extraction means are displayed in horizontal composition, Display means for displaying a word in association with a band-like figure representing the speech of the word;
The vertical display position of each word in the example sentence is determined according to the pitch of the utterance voice of each word stored in the storage means, and the vertical display position of the plurality of band-like figures is determined. A language learning apparatus comprising: display position determining means that determines the pitch according to the pitch of each word extracted by the pitch extracting means.
音声が入力される音声入力手段と、
前記音声入力手段に入力された音声から、前記例文中の各単語に対応する発話音声を抽出する発話音声抽出手段と、
前記発話音声抽出手段により抽出された発話音声毎に発話時間を抽出する発話時間抽出手段と、
前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各単語の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の単語と、該単語の発話音声を表す帯状図形とを対応付けて表示する表示手段と、
前記例文中の各単語の表示長さを、前記記憶手段に記憶されている各単語の発話音声の発話時間の長短に応じて決定すると共に、前記複数の帯状図形の表示長さを、前記発話時間抽出手段で抽出された単語毎の発話時間の長短に応じて決定する表示長さ決定手段と
を有する語学学習装置。 Storage means for storing an example sentence of a conversation and an utterance time of an utterance voice of each word in the example sentence;
Voice input means for inputting voice;
Utterance voice extraction means for extracting utterance voice corresponding to each word in the example sentence from the voice input to the voice input means;
Utterance time extraction means for extracting the utterance time for each utterance voice extracted by the utterance voice extraction means;
The example sentences stored in the storage means are displayed in horizontal composition, and a plurality of band-like figures representing the utterance voices of the words extracted by the utterance voice extraction means are displayed in horizontal composition, Display means for displaying a word in association with a band-like figure representing the speech of the word;
The display length of each word in the example sentence is determined according to the length of the utterance time of the utterance voice of each word stored in the storage means, and the display length of the plurality of band-like figures is determined by the utterance A language learning apparatus, comprising: a display length determining unit that determines according to the length of the utterance time of each word extracted by the time extracting unit.
音声が入力される音声入力手段と、
前記音声入力手段に入力された音声から、前記例文中の各音素あるいは音節に対応する発話音声を抽出する発話音声抽出手段と、
前記発話音声抽出手段により抽出された各音素あるいは音節のピッチを抽出するピッチ抽出手段と、
前記記憶手段に記憶されている例文を横組みで表示し、且つ、前記発話音声抽出手段により抽出された各音素あるいは音節の発話音声を表す複数の帯状図形を横組みで表示すると共に、前記例文中の音素あるいは音節と、該音素あるいは音節の発話音声を表す帯状図形とを対応付けて表示する表示手段と、
前記例文中の各音素あるいは音節の上下方向の表示位置を、前記記憶手段に記憶されている各音素あるいは音節の発話音声のピッチの高低に応じて決定すると共に、前記複数の帯状図形の上下方向の表示位置を、前記ピッチ抽出手段で抽出された音素あるいは音節毎のピッチの高低に応じて決定する表示位置決定手段と
を有する語学学習装置。 Storage means for storing an example sentence and the pitch of the utterance voice of each phoneme or syllable in the example sentence;
Voice input means for inputting voice;
Utterance voice extraction means for extracting utterance voice corresponding to each phoneme or syllable in the example sentence from the voice input to the voice input means;
Pitch extraction means for extracting the pitch of each phoneme or syllable extracted by the speech voice extraction means;
The example sentences stored in the storage means are displayed in horizontal composition, and a plurality of band-like figures representing the speech sounds of each phoneme or syllable extracted by the utterance voice extraction means are displayed in horizontal composition. Display means for displaying the phoneme or syllable in the middle and a band-like figure representing the utterance voice of the phoneme or syllable;
The display position in the vertical direction of each phoneme or syllable in the example sentence is determined according to the pitch of the utterance voice of each phoneme or syllable stored in the storage means, and the vertical direction of the plurality of band-like figures Display position determining means for determining the display position according to the phoneme extracted by the pitch extracting means or the pitch of each syllable.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330100A JP2007139868A (en) | 2005-11-15 | 2005-11-15 | Language learning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005330100A JP2007139868A (en) | 2005-11-15 | 2005-11-15 | Language learning device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007139868A true JP2007139868A (en) | 2007-06-07 |
Family
ID=38202852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005330100A Pending JP2007139868A (en) | 2005-11-15 | 2005-11-15 | Language learning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007139868A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157097A (en) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | Reading-aloud evaluation device, reading-aloud evaluation method, and program |
JP2017015823A (en) * | 2015-06-29 | 2017-01-19 | ブラザー工業株式会社 | Speech training device, display control method and program |
JP2017156615A (en) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | Reading aloud training device, display control method, and program |
KR20190041105A (en) * | 2017-10-12 | 2019-04-22 | 주식회사 스터디맥스 | Learning system and method using sentence input and voice input of the learner |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60245000A (en) * | 1984-05-21 | 1985-12-04 | 富士通株式会社 | Enunciation training apparatus |
JPS6148885A (en) * | 1984-08-17 | 1986-03-10 | 富士通株式会社 | Vocalization training apparatus |
JP2003186379A (en) * | 2001-12-13 | 2003-07-04 | Animo:Kk | Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system |
JP2004302285A (en) * | 2003-03-31 | 2004-10-28 | Casio Comput Co Ltd | Device and program for information output |
-
2005
- 2005-11-15 JP JP2005330100A patent/JP2007139868A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60245000A (en) * | 1984-05-21 | 1985-12-04 | 富士通株式会社 | Enunciation training apparatus |
JPS6148885A (en) * | 1984-08-17 | 1986-03-10 | 富士通株式会社 | Vocalization training apparatus |
JP2003186379A (en) * | 2001-12-13 | 2003-07-04 | Animo:Kk | Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system |
JP2004302285A (en) * | 2003-03-31 | 2004-10-28 | Casio Comput Co Ltd | Device and program for information output |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157097A (en) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | Reading-aloud evaluation device, reading-aloud evaluation method, and program |
JP2017015823A (en) * | 2015-06-29 | 2017-01-19 | ブラザー工業株式会社 | Speech training device, display control method and program |
JP2017156615A (en) * | 2016-03-03 | 2017-09-07 | ブラザー工業株式会社 | Reading aloud training device, display control method, and program |
KR20190041105A (en) * | 2017-10-12 | 2019-04-22 | 주식회사 스터디맥스 | Learning system and method using sentence input and voice input of the learner |
KR101992372B1 (en) * | 2017-10-12 | 2019-09-27 | 주식회사 스터디맥스 | Learning system and method using sentence input and voice input of the learner |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4363590B2 (en) | Speech synthesis | |
JP5029167B2 (en) | Apparatus, program and method for reading aloud | |
JP4797597B2 (en) | Language learning device | |
JP2007206317A (en) | Authoring method and apparatus, and program | |
JP2003186379A (en) | Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system | |
JP2007086316A (en) | Speech synthesizer, speech synthesizing method, speech synthesizing program, and computer readable recording medium with speech synthesizing program stored therein | |
JP2009003395A (en) | Device for reading out in voice, and program and method therefor | |
JP2007139868A (en) | Language learning device | |
JP4856560B2 (en) | Speech synthesizer | |
JP5360489B2 (en) | Phoneme code converter and speech synthesizer | |
JP4654889B2 (en) | Playback device | |
JP2008175851A (en) | Recording time calculator, device for pronunciation practice, method of calculating recording time, processing method for pronunciation practice, its program, and electronic dictionary | |
JP2000250401A (en) | Method and device for learning language, and medium where program is recorded | |
JP2006023758A (en) | Pronunciation evaluation system | |
JP2013033103A (en) | Voice quality conversion device and voice quality conversion method | |
JP5605731B2 (en) | Voice feature amount calculation device | |
JP3785892B2 (en) | Speech synthesizer and recording medium | |
JP2001134283A (en) | Device and method for synthesizing speech | |
JP2000347560A (en) | Pronunciation marking device | |
JP4543919B2 (en) | Language learning device | |
JP2006349787A (en) | Method and device for synthesizing voices | |
JP5042485B2 (en) | Voice feature amount calculation device | |
JP5093387B2 (en) | Voice feature amount calculation device | |
JP5471138B2 (en) | Phoneme code converter and speech synthesizer | |
JP6260227B2 (en) | Speech synthesis apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110119 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110405 |