JP5248365B2 - Memory support system, memory support program, and memory support method - Google Patents

Memory support system, memory support program, and memory support method Download PDF

Info

Publication number
JP5248365B2
JP5248365B2 JP2009036130A JP2009036130A JP5248365B2 JP 5248365 B2 JP5248365 B2 JP 5248365B2 JP 2009036130 A JP2009036130 A JP 2009036130A JP 2009036130 A JP2009036130 A JP 2009036130A JP 5248365 B2 JP5248365 B2 JP 5248365B2
Authority
JP
Japan
Prior art keywords
unit
voice
image
audio
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009036130A
Other languages
Japanese (ja)
Other versions
JP2010191235A (en
Inventor
洋一 時岡
和広 奥田
啓吉 広瀬
美知子 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
POWERSHIFT INC.
Original Assignee
POWERSHIFT INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by POWERSHIFT INC. filed Critical POWERSHIFT INC.
Priority to JP2009036130A priority Critical patent/JP5248365B2/en
Publication of JP2010191235A publication Critical patent/JP2010191235A/en
Application granted granted Critical
Publication of JP5248365B2 publication Critical patent/JP5248365B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for effectively supporting learning of foreign language at a daily conversation level. <P>SOLUTION: A voice unit acquisition part 13 is configured to divide an original voice with a predetermined pause condition and acquire voice units. A speed adjusting part 14 and a voice reproducing part 15 are configured to reproduce the voice units having a length equal to or longer than the limit of the human short-term memory among the voice units while increasing the reproducing speed so that the reproducing time may be within a predetermined time. The learner repeatedly produces the same voice unit after the voice units are outputted through a voice output part 2. A related-image display part 16 is configured to display the image corresponding to the meaning of the voice unit on a display part 3 at the same time when reproducing the voice unit, accordingly, the system can support the learner to understand the concept. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、外国語の習得、言語訓練、記憶を伴う各種学習などのための記憶支援システムに関する。また本発明は該システムを実現するためのプログラム、及び記憶支援のための方法に関する。   The present invention relates to a memory support system for foreign language acquisition, language training, various learnings involving memory, and the like. The present invention also relates to a program for realizing the system and a method for storage support.

グローバル化が進む現代社会において、外国語習得の重要性はますます高まっている。特に、通訳が出来るといった高いレベルのものではなく、例えば挨拶や買い物、簡単な人間関係を構築することができる程度の、いわば日常会話レベルの外国語習得の需要はかなり高い。しかしながら、何年もかけて外国語を勉強しているのにもかかわらず、実際に使える程度にまで至らないケースが少なからず見られる。   In today's globalized society, learning foreign languages is becoming increasingly important. In particular, there is a high level of demand for foreign language acquisition at the level of daily conversation, which is not a high level of interpreting, but is capable of building greetings, shopping, and simple human relationships. However, despite many years of studying foreign languages, there are quite a few cases where it is not practical.

この様な現状にあって、初学者がより効果的に外国語を習得できる学習方法の研究が止むことなく行われている。例えば特許文献1には、通常速の外国文と再生速度を上げた外国文とを交互に再生することで学習効果を高める方法が開示されている。しかしながら、特許文献1に記載の方法も含めて、数多くの外国語学習方法が提案されてきているものの、初学者が実際に効率よく外国語を習得できる方法は確立されていない。   Under such circumstances, research on learning methods that enable beginners to learn foreign languages more effectively has been conducted without stopping. For example, Patent Document 1 discloses a method for enhancing the learning effect by alternately reproducing a normal-speed foreign sentence and a foreign sentence having a higher reproduction speed. However, although many foreign language learning methods have been proposed, including the method described in Patent Document 1, no method has been established for a beginner to actually learn a foreign language efficiently.

特開2003−241644号公報JP 2003-241644 A

都築正喜、「小学校英語教育とプロソディ理論」、日本英語音声学会九州沖縄四国支部第4回研究大会、2003年12月6日Masaki Tsuzuki, “Elementary School English Education and Prosody Theory”, Japanese English Phonetic Society Kyushu Okinawa Shikoku Branch 4th Research Conference, December 6, 2003 玉井健、「リスニング力向上におけるシャドーイングの効果について」、日本通訳学会第3会年次大会講演集、2002年9月23日、p.178−192Takeshi Tamai, “Effects of shadowing on improving listening skills”, Proceedings of the 3rd Annual Meeting of the Interpreting Society of Japan, September 23, 2002, p. 178-192 望月通子、「シャドーイング法の日本語教育への応用を探る」、関西大学視聴覚教育、第29号、2006年、p.37−53Michiko Mochizuki, “Searching for Application of Shadowing Method to Japanese Language Education”, Kansai University Audiovisual Education No. 29, 2006, p. 37-53 田中深雪、「シャドーイングをめぐる議論についての私見」、日本通訳学会第3回年次大会シンポジウム講演集、2002年9月23日、p.211−214Miyuki Tanaka, “Personal View on the Discussion of Shadowing”, Proceedings of the 3rd Annual Conference of the Interpreting Society of Japan, September 23, 2002, p. 211-214 本條勝彦、「メニー・シャドウイングス・モデル("Many Shadowings" Model)」、日本通訳学会第8回年次大会講演集、2007年9月22日Katsuhiko Motosu, “Many Shadowings Model”, Proceedings of the 8th Annual Conference of the Interpreting Society of Japan, September 22, 2007 ミラー(Mille G. A.)、「ザ・マジカル・ナンバー・セブン、プラス・オア・マイナス・トゥー:サム・リミッツオンアーワキャパシティフォー・プロセッシング・インフォメイション(The magical number seven, plus or minus two: Some limits on our capacity for processing information)」、サイコロジカル・レビュー(Psychological Review)、63巻、p.81−97Miller GA, “The Magical Number Seven, Plus or Minus Two: Some Limits, Some Limits on our capacity for processing information), Psychological Review, Volume 63, p. 81-97

日常会話程度の外国語を習得するためには、以下の4つの能力を高める必要があると考えられる。
(1)音声そのものを聞き取る能力
(2)聞き取った音声と意味(または概念)とを結びつける能力
(3)音声そのものの発声能力
(4)発声している(または発声しようとする)音声と意味(または概念)とを結びつける能力
In order to learn a foreign language equivalent to everyday conversation, it is considered necessary to improve the following four abilities.
(1) Ability to listen to the voice itself (2) Ability to link the heard voice and meaning (or concept) (3) Ability to speak the voice itself (4) Voice and meaning (or to speak) Or the concept)

ここでいう発声能力とは、単なる単語単位の「発音」能力だけを指すものではなく、日常会話の実際の場面において当該言語のネイティブ話者にとって自然(ナチュラル)と感じられる「発声=音声」であり、言語学上プロソディ(韻律)と呼ばれる、イントネーション(抑揚)・リズム(律動)・ストレス(強勢)・ピッチ(高低)・トーン(音調)、テンポ、さらには声の大小、発声速度など、様々な音声学的特徴を指す。小学校の英語教育で、このプロソディ的側面を重要視した発声(発音)教育も提案されている(非特許文献1参照)。   The utterance ability here is not just a word-based “pronunciation” ability, but “speech = speech” that is felt natural to the native speaker of the language in the actual scene of everyday conversation. Yes, variously called prosody (prosodic) in linguistics, such as intonation (intonation), rhythm (rhythm), stress (strength), pitch (high and low), tone (tone), tempo, voice size, and speaking speed Refers to phonetic features. In English education at elementary schools, speech (pronunciation) education that emphasizes this prosody aspect has also been proposed (see Non-Patent Document 1).

上記の能力を効果的に向上させる訓練法として、これまでの研究や実際の教育結果から効果があるとされている主なものには、「シャドーイング」、「パラフレージング」、「リプロダクション」等がある。   The main training methods that effectively improve the above-mentioned skills are known to be effective from previous research and actual educational results, such as "shadowing", "paraphrasing", and "reproduction". Etc.

「シャドーイング」は、ネイティブ話者等による発音を聞きながら、それにかぶせるようにして訓練者が聞き取った音を発声するという方法である。これはもともとプロの同時通訳者を目指す者を対象とした訓練法であって、シャドーイングを行うことにより、上記4つの能力、特に上記の(1)、(3)の能力を向上させるのに有効であると言われている(非特許文献2、3など参照)。しかしながら、シャドーイングは、ある程度の構文の知識や意味の理解がなければ行うことができないため、初学者や初級者には向かず、適切な効果が得られない場合もよく見受けられる(非特許文献4、5など参照)。   “Shadowing” is a method of uttering the sound heard by the trainer while listening to the pronunciation of a native speaker or the like. This is a training method for those who aim to become professional simultaneous interpreters. To improve the above four abilities, especially the abilities (1) and (3) above, by shadowing. It is said to be effective (see Non-Patent Documents 2, 3, etc.). However, since shadowing cannot be performed without a certain level of syntax knowledge and understanding of meaning, it is not suitable for beginners and beginners, and there are many cases where appropriate effects cannot be obtained (Non-Patent Documents). 4, 5, etc.).

また、シャドーイングは、自分の発声(自分の骨を伝って聞こえてしまう音)を聞きながら、同時に模範となるネイティブ話者の音声(以下「原文」という)を聴かなければならないという点で、認知的負荷の高い作業を課していることになる。その結果として、特に全く未知の言語を成人してから学ぶ初期の段階では、原文の聞き落としや副唱発声自体の品質低下を招いている可能性もあることが、本願発明者らの実験によってわかってきている。   In addition, shadowing means that you must listen to the voice of the native speaker (hereinafter referred to as the “original text”) as an example while listening to your voice (the sound you hear through your bones). It imposes a cognitively burdensome task. As a result, in the early stage of learning a completely unknown language after adulthood, it is possible that the original text may be overlooked or the quality of the advocate itself may be degraded. I know.

「パラフレージング」は、学習者がある程度の長さの原文を聞いた後、その意味を表す別の構文を発声するものである。しかしながら、これも原文の意味を正確に理解する能力や新たな構文を自力で創り出す能力が要求されるため、やはり初学者には向かないと言える。   In “paraphrasing”, after the learner hears the original text of a certain length, it speaks another syntax that expresses its meaning. However, this is also not suitable for beginners because it requires the ability to accurately understand the meaning of the original text and the ability to create new syntax on its own.

「リプロダクション」は、ある程度の長さの原文を聞いた直後に、学習者がそれを真似て発声するという訓練方法である。一般的なリプロダクションでは、原文をセンテンス(ひとかたまりの意味を持つ文)毎に区切ってその音声を一旦停止するため、原文の長さは様々であり、場合によってはかなり長くなる場合もある。しかしながら、本願発明者らが行った実験によれば、原文が時間的に長くなればなるほど、学習者による原文の再現性(正確な副唱発声の品質)が失われる傾向にあり、その質が落ちることが判明した。これは言語音声に対する人間の短期記憶の理論(非特許文献6参照)にも関係する。こうしたことから、従来の行われているリプロダクションも、必ずしも効率的な学習方法であるとは言えない。   “Reproduction” is a training method in which a learner imitates and speaks immediately after listening to an original text of a certain length. In general reproduction, the original text is divided into sentences (sentences having a meaning of a group) and the sound is temporarily stopped. Therefore, the length of the original text varies, and in some cases, it may become considerably long. However, according to experiments conducted by the inventors of the present application, the longer the original text is, the more likely the learner's reproducibility of the original text (accurate advocate quality) tends to be lost. It turned out to fall. This is also related to the theory of human short-term memory for verbal speech (see Non-Patent Document 6). For these reasons, the conventional re-production is not necessarily an efficient learning method.

本発明は上記のような従来の課題に鑑みてなされたものであり、その目的とするところは、例えば全くの初学者が新たな外国語を習得する際などにおいて効率的な訓練を行うことができる、記憶支援システム、記憶支援プログラム及び記憶支援方法を提供することである。   The present invention has been made in view of the above-described conventional problems, and the purpose of the present invention is to provide efficient training when, for example, a completely beginner learns a new foreign language. A memory support system, a memory support program, and a memory support method are provided.

リプロダクションに関する本願発明者が行った実験によれば、前述したように、原文が時間的に長くなればなるほど、学習者による原文の再現性は失われる傾向にある。一方で、原文の時間的長さがある一定の時間内に収まっている場合には、学習者が原文の意味を全く理解していない場合であっても(特に全く未知の言語を成人してから学ぶ初学者であっても)、原文を聴いた直後にそれを真似て行った発声は、ネイティブ話者にとっても自然な発音に聞こえることが判明した。   According to the experiment conducted by the present inventor regarding re-production, as described above, as the original text becomes longer in time, the reproducibility of the original text by the learner tends to be lost. On the other hand, if the length of the original text is within a certain amount of time, even if the learner does not understand the meaning of the original text at all (especially if an unknown language is used as an adult) It was found that utterances imitated immediately after listening to the original sound sound natural for native speakers.

さらに、本願発明者は、成人した後に外国語として英語又は英語以外の言語を学び、しかも語学学校や通信教育による学習を行わなかったのにも拘わらずその言語による日常会話を現地の人たちと同程度に使いこなすことができる人たちを対象としたアンケート調査の結果の中で、それぞれの言語の日常会話能力を習得した方法に共通点があることに着目した。それは、その言語に出会った初期の段階でネイティブ話者の発音を短い単位で繰り返し真似て発声していたという点である。また、それを日常生活の中で実際に出会う事物の知覚と共に行っていた点にも注目した。   Furthermore, the inventor of the present application learned English or a language other than English as a foreign language after adulthood, and despite having not studied at a language school or distance learning, he / she conducted daily conversation with the local people. In the results of the questionnaire survey for those who can use it to the same extent, we focused on the common points in the method of acquiring the daily conversation ability of each language. That is, at the early stage of encountering the language, the native speaker's pronunciation was repeated and reproduced in short units. I also paid attention to the fact that I was doing it with the perception of things I actually met in my daily life.

以上のような研究結果に基づき、本願発明者らは、原文を正確な言語音声の短期記憶が可能な長さに加工した上でリプロダクションを実行させるという、とりわけ初学者にとって効果的な言語の訓練を支援するシステムに想到した。   Based on the above research results, the inventors of the present application are particularly effective for beginners who are able to execute re-production after processing the original text into a length that allows short-term memory of accurate linguistic speech. I came up with a system that supports training.

本発明に係る記憶支援システムは、以上のような知見及び研究によって成されたものであり、原音声に基づいて音声出力部から出力される再生音声に従ってユーザが発声することにより記憶を支援するための記憶支援システムであって、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得部と、
b)前記音声単位取得部によって取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整部と、
c)前記速度調整部で該当する音声単位の再生速度を調整しつつ、前記音声単位取得部で取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生部と、
を備えることを特徴とする。
The memory support system according to the present invention is based on the above knowledge and research, and supports the memory by the user uttering according to the reproduced voice output from the voice output unit based on the original voice. Memory support system,
a) a voice unit acquisition unit that sequentially acquires voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech units obtained by the speech-unit acquisition unit, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed A speed adjustment unit to increase the playback speed,
c) an audio reproduction unit that reproduces the audio unit acquired by the audio unit acquisition unit at a predetermined time interval from the audio output unit while adjusting the reproduction speed of the corresponding audio unit by the speed adjustment unit;
It is characterized by providing.

上記所定の時間長は、正確な言語音声の短期記憶が可能な長さの範囲に設定されることが好ましい。非特許文献6などの過去の研究によれば、一般的な短期記憶の限界は15〜20秒程度であると言われているが、これは記憶対象の意味や概念を理解している場合であると考えられ、そうした理解がない場合や欠けている場合には記憶可能な時間はかなり短縮される。本願発明者らのこれまでの実験によれば、特に全く未知の言語を成人してから学ぶ初期の段階では、記憶に留めることが可能であるのは数秒以内にすぎない。そこで、こうした学習においては、上記所定の時間長を例えば3〜5秒程度にしておくのがよい。また、学習の進度に応じて、つまりは原文の意味や概念に対する認識が進んだ段階では、上記所定の時間長を例えば5〜10秒程度と長くすることが有効である。   The predetermined time length is preferably set in a range of a length that allows accurate short-term storage of speech. According to past studies such as Non-Patent Document 6, it is said that the limit of general short-term memory is about 15 to 20 seconds, but this is when the meaning and concept of the memory object are understood. If you don't understand or lack that understanding, the time you can remember is considerably reduced. According to the experiments conducted by the inventors of the present application, it is only within a few seconds that it is possible to keep in memory, particularly in the early stage of learning a completely unknown language after adulthood. Therefore, in such learning, the predetermined time length is preferably set to about 3 to 5 seconds, for example. Further, it is effective to increase the predetermined time length to about 5 to 10 seconds, for example, at the stage where recognition of the meaning and concept of the original text has advanced according to the progress of learning.

さらに、前記速度調整部が再生速度を上げる際には、原音声の音高よりも再生される音高を高くすることが望ましい。これは、音高の調整を特に行わずに再生速度を上げることにより、自然に達成される。   Furthermore, when the speed adjusting unit increases the playback speed, it is desirable that the pitch to be played is higher than the pitch of the original voice. This is naturally achieved by increasing the playback speed without particularly adjusting the pitch.

ある音声の再生速度を上げると、これに伴って音高が上がる。この場合、従来一般には再生速度が上がっても音高が原音声の音高とほぼ同じとなるように音声処理をする。しかし、発明者らが行った別の実験によれば、再生速度を上げた際に、音高を下げる処理を行わずに、音高が上がったままの音声の方が自然で聞きとりやすく、学習しやすいと感じる人の方が多いことがわかった。さらに加えて、従来の研究より、ネイティブ話者による外国語を聞く際、話速を変化させながら聞くことにより、滑舌や構音能力が上がるだけでなく、内容の理解までもが向上することがわかっている。再生速度を上げた時に音高を上げる(音高を下げる処理を行わない)ことにより、以上のような優れた効果がもたらされる。   When the playback speed of a certain voice is increased, the pitch increases accordingly. In this case, conventionally, sound processing is generally performed so that the pitch is substantially the same as the pitch of the original voice even when the playback speed is increased. However, according to another experiment conducted by the inventors, when the playback speed is increased, the process of lowering the pitch without performing the process of lowering the pitch is more natural and easier to hear. I found that there are more people who feel that it is easy to learn. In addition, when listening to a foreign language spoken by a native speaker, listening to the speaker while changing the speaking speed not only improves the tongue and articulation ability, but also improves the understanding of the content. know. By raising the pitch when the playback speed is increased (no processing for lowering the pitch is performed), the above excellent effects are brought about.

先に述べたように、日常会話程度の外国語を短期間で習得するためには、学習者が聞き取る原音声及び学習者が発声する音声と、その意味又は概念とを結びつけることが肝要である。
そこで、本発明に係る記憶支援システムは、予め用意された種々の画像を記憶する画像記憶部と、前記音声再生部が再生する各音声単位に関連した画像を前記画像記憶部から読み出し、少なくとも音声単位の再生中にその画像をユーザに対して表示部等を介して表示する関連画像表示部と、を更に備える構成とすることが望ましい。これによって、ユーザは聞き取った音声とその意味とを結びつけることが可能になるとともに、自分が発声する音声とその意味とを結びつけることが可能になる。
As mentioned earlier, in order to acquire a foreign language equivalent to daily conversation in a short period of time, it is important to link the original voice heard by the learner and the voice uttered by the learner with its meaning or concept. .
Therefore, a storage support system according to the present invention reads out an image storage unit that stores various images prepared in advance and an image associated with each audio unit that the audio reproduction unit reproduces from the image storage unit, and at least audio It is desirable to further include a related image display unit that displays the image to the user via the display unit or the like during unit reproduction. As a result, the user can link the voice that has been heard and its meaning, and can also link the voice that the user utters and its meaning.

また、本願発明者らの実験によれば、上記のような正確な言語音声の短期記憶が可能な長さに加工した原文を対象に学習者にリプロダクションを実行させた場合、特に、発声の時間長が原文の時間長にほぼ一致した場合に、プロソディの各要素も高品質で再現(複唱)されている(即ち、ネイティブ話者の評価が高い)ことが判明した。このことから、学習者の複唱発声を録音し、その時間長を計測し、原文の音声の時間長との差を自動計時することにより、ネイティブ話者である教師がいなくても、学習者の複唱発声の品質、即ち発声の正確度を自動評価することが可能となる。   In addition, according to the experiments by the inventors of the present application, when the learner performs the reproduction on the original text processed into a length capable of short-term memory of the above-mentioned accurate linguistic speech, in particular, When the time length almost coincided with the time length of the original text, it was found that each element of the prosody was reproduced (duplicated) with high quality (ie, the native speaker was highly evaluated). Therefore, by recording the learner's double vocalization, measuring the time length, and automatically measuring the difference from the time length of the original speech, the learner can learn without having to be a native speaker. It is possible to automatically evaluate the quality of the double utterance of the voice, that is, the accuracy of the utterance.

即ち、本発明に係る記憶支援システムの好ましい一態様は、
ユーザの発声を入力する音声入力部と、
前記音声出力部から出力された音声単位の長さと、直後に該音声入力部から入力されたユーザの発声長さとの比較を行い、その比較に基づいてユーザの発声を評価して評価結果をユーザに通知する通知部と、
を更に備える構成とするとよい。
That is, a preferable aspect of the storage support system according to the present invention is as follows.
A voice input unit for inputting a user's utterance;
The length of the voice unit output from the voice output unit is compared with the user's utterance length input from the voice input unit immediately thereafter, and the user's utterance is evaluated based on the comparison, and the evaluation result is determined by the user. A notification unit to notify
It is good to set it as the structure further provided.

また、本発明に係る記憶支援プログラムは上記の記憶支援システムに用いられるプログラムであって、コンピュータを、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得部と、
b)前記音声単位取得部によって取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整部と、
c)前記速度調整部で該当する音声単位の再生速度を調整しつつ、前記音声単位取得部で取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生部と、
して機能させることを特徴とする。
A storage support program according to the present invention is a program used in the storage support system described above.
a) a voice unit acquisition unit that sequentially acquires voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech units obtained by the speech-unit acquisition unit, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed A speed adjustment unit to increase the playback speed,
c) an audio reproduction unit that reproduces the audio unit acquired by the audio unit acquisition unit at a predetermined time interval from the audio output unit while adjusting the reproduction speed of the corresponding audio unit by the speed adjustment unit;
It is characterized by functioning.

また、本発明に係る記憶支援方法は、
原音声に基づいて音声出力部から出力される再生音声に従ってユーザが発声することによる言語の訓練を支援するための記憶支援方法であって、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得ステップと、
b)前記音声単位取得ステップにおいて取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整ステップと、
c)前記速度調整ステップで該当する音声単位の再生速度を調整しつつ、前記音声単位取得ステップにおいて取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生ステップと、
から成ることを特徴とする。
In addition, the memory support method according to the present invention includes:
A storage support method for supporting language training by a user uttering according to reproduced sound output from a sound output unit based on original sound,
a) a voice unit acquisition step for sequentially acquiring voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech unit acquired in the speech unit acquiring step, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed The speed adjustment step to increase the playback speed,
c) an audio reproduction step of reproducing the audio unit acquired in the audio unit acquisition step from the audio output unit at a predetermined time interval while adjusting the reproduction speed of the corresponding audio unit in the speed adjustment step;
It is characterized by comprising.

本発明に係る記憶支援システム、記憶支援プログラム及び記憶支援方法によれば、原音声が所定の長さの音声単位に分割される。このとき、ある音声単位が所定の時間長以上の長さであれば、その再生時間がその所定の時間長内に収まるように、その再生速度が調整される。学習者は一つの音声単位が出力された直後にその音声単位の音声を真似て発音するが、どの音声単位も所定の時間内、好ましくは短期記憶が可能な長さであるため、非常に正確に発音を行うことができる。このため、正しく発音が出来たか否かを教師などに判定してもらう必要がなく、一人でも効果性が高い外国語の学習を行うことが可能となる。   According to the storage support system, the storage support program, and the storage support method according to the present invention, the original speech is divided into speech units of a predetermined length. At this time, if a certain audio unit is longer than a predetermined time length, the playback speed is adjusted so that the playback time is within the predetermined time length. The learner imitates the sound of the sound unit immediately after the output of one sound unit, but every sound unit is of a length that can be memorized within a predetermined time, preferably short-term memory, so it is very accurate. Can pronounce pronunciation. For this reason, it is not necessary for a teacher to determine whether or not pronunciation has been correctly performed, and even one person can learn a foreign language that is highly effective.

なお、本発明に係る記憶支援システム、記憶支援プログラム及び記憶支援方法は、上記のような外国語学習、特に初学者の学習に効果があるのみならず、例えば各種の疾病等により母語の認知能力が低下した人の言語の訓練にも有効である。さらには、より一般的な記憶を伴う学習、例えば各種入試や資格試験のための学習などにも利用することができる。   Note that the memory support system, the memory support program, and the memory support method according to the present invention are not only effective for foreign language learning as described above, particularly for beginners, but also for example, ability to recognize native language due to various diseases, etc. It is also effective for language training of people who have fallen. Furthermore, it can be used for learning with more general memory, such as learning for various entrance examinations and qualification tests.

本発明に係る記憶支援システムの一実施形態である言語訓練支援システムを模式的に示した図。The figure which showed typically the language training assistance system which is one Embodiment of the memory | storage assistance system which concerns on this invention. 前記実施形態に係る語学訓練支援システムの処理を表すフローチャート。The flowchart showing the process of the language training assistance system which concerns on the said embodiment. 音声単位取得部及び速度調整部が実行する処理を模式的に示した説明図。Explanatory drawing which showed typically the process which an audio | voice unit acquisition part and a speed adjustment part perform. 関連画像表示部が表示する画像の一例。An example of the image which a related image display part displays. 画像作成部が画像を作成する処理を模式的に示した説明図。Explanatory drawing which showed typically the process which an image preparation part produces an image.

本発明に係る記憶支援システムの一実施形態は、原音声に基づいて音声出力部から出力される再生音声を聴いたユーザ(以下、適宜「学習者」と称する)が、それに基づいて発声することで言語の訓練を行うという形態で用いられるものである。   In one embodiment of the storage support system according to the present invention, a user who listens to a reproduced sound output from the sound output unit based on the original sound (hereinafter referred to as “learner” as appropriate) utters based on the sound. It is used in the form of language training.

以下、本発明に係る記憶支援システムの一実施形態について、図面を参照しつつ詳細な説明を行う。図1は、本実施形態による言語訓練支援システムを模式的に示した図である。   Hereinafter, an embodiment of a storage support system according to the present invention will be described in detail with reference to the drawings. FIG. 1 is a diagram schematically showing a language training support system according to the present embodiment.

本実施形態に係る言語訓練支援システム1は、CPUやメモリ、大容量記憶媒体などを含んで成る一般的なコンピュータ(専用のデバイスを含む)において実現することができる。
記憶媒体の中には、種々の原音声が記憶された原音声記憶部11及び、種々の画像が記憶された画像記憶部12が設けられている。また、CPU(図示せず)が所定のプログラム(即ち言語訓練支援プログラム)を実行することにより、音声単位取得部13、速度調整部14、音声再生部15、関連画像表示部16、不一致通知部17等がソフトウェア的に実現される。
The language training support system 1 according to the present embodiment can be realized in a general computer (including a dedicated device) including a CPU, a memory, a large-capacity storage medium, and the like.
In the storage medium, an original sound storage unit 11 in which various original sounds are stored and an image storage unit 12 in which various images are stored are provided. Moreover, when a CPU (not shown) executes a predetermined program (that is, a language training support program), a voice unit acquisition unit 13, a speed adjustment unit 14, a voice reproduction unit 15, a related image display unit 16, a mismatch notification unit 17 etc. are realized by software.

また、言語訓練支援システム1には学習者に対して音声を出力するためのヘッドホンやスピーカ等の音声出力部2、画像を含む各種情報を表示するための例えば液晶モニタである表示部3、学習者の音声を入力するために設けられる音声入力部としてのマイク4が接続される。これらの音声出力部2、表示部3、マイク4は、言語訓練支援システム1自体に一体的に形成、つまり内蔵されていても良いし、外付けされていても良い。   The language training support system 1 includes a voice output unit 2 such as headphones and speakers for outputting voice to the learner, a display unit 3 that is a liquid crystal monitor, for example, for displaying various information including images, and learning. A microphone 4 is connected as a voice input unit provided to input a person's voice. The voice output unit 2, the display unit 3, and the microphone 4 may be integrally formed, that is, built in the language training support system 1 itself, or may be externally attached.

なお、言語訓練支援システム1において音声は、実際にはアナログ信号、デジタル信号(圧縮信号、非圧縮信号)、音波などにその形態を変化させるが、本発明ではいずれも単に音声として取り扱う。   Note that in the language training support system 1, the form of speech is actually changed to an analog signal, a digital signal (compressed signal, uncompressed signal), a sound wave, etc., but in the present invention, all are simply treated as speech.

以下、言語訓練支援システム1を用いて日本語を母語とする学習者が英語の訓練を行う場合を想定し、この処理を図2のフローチャートを参照しつつ説明する。また、図3には以下における説明の補足として、音声単位取得部13及び速度調整部14が実行する処理を模式的に示す。   Hereinafter, it is assumed that a learner whose native language is Japanese performs English training using the language training support system 1, and this process will be described with reference to the flowchart of FIG. FIG. 3 schematically shows processing executed by the audio unit acquisition unit 13 and the speed adjustment unit 14 as a supplement to the description below.

まず、学習者が再生ボタン(図示せず)などを押下することにより、学習の開始の指示を入力する。このとき、原音声記憶部11に含まれている複数の音声のうちから、所望する音声を選択するようにしても良い。この入力を受けると音声単位取得部13は、指定された又は予め定められた原音声を読み出す(ステップS1)。ここでは例として、図3に示すように原音声が、"Yesterday I called you but you were not at home. I just called to say I love you and I mean it from the bottom of my heart. Well, to tell you the truth, I couldn't help but call you."であったとする。   First, the learner inputs a learning start instruction by pressing a play button (not shown) or the like. At this time, a desired sound may be selected from a plurality of sounds included in the original sound storage unit 11. Upon receiving this input, the voice unit acquisition unit 13 reads the designated or predetermined original voice (step S1). Here, as an example, as shown in FIG. 3, the original voice is "Yesterday I called you but you were not at home.I just called to say I love you and I mean it from the bottom of my heart. Well, to tell You the truth, I couldn't help but call you. "

音声単位取得部13はこの原音声を所定の区切り条件で以て分割し、音声単位を取得する(ステップS2)。ここでは例として1秒(1000ms)以上の無音区間が検出された場合に分割を行うものとする。本例の場合、音声単位取得部13は"…at home"と"I just…"との間に1200msの無音区間、"…my heart"と"Well, …"の間に1500msの無音区間が存在していることを検出する。そこで、原音声をこれら2個所の無音区間で分割し、以下の3つの音声単位<1>〜<3>を取得する。   The voice unit acquisition unit 13 divides the original voice with a predetermined delimiter condition and acquires a voice unit (step S2). Here, as an example, it is assumed that division is performed when a silent section of 1 second (1000 ms) or longer is detected. In this example, the voice unit acquisition unit 13 has a silent period of 1200 ms between “… at home” and “I just…”, and a silent period of 1500 ms between “… my heart” and “Well,…”. Detect the presence. Therefore, the original voice is divided by these two silent sections to obtain the following three voice units <1> to <3>.

音声単位<1>:Yesterday I called you but you were not at home.
音声単位<2>:I just called to say I love you and I mean it from the bottom of my heart.
音声単位<3>:Well, to tell you the truth, I couldn't help but call you.
Voice unit <1>: Yesterday I called you but you were not at home.
Voice unit <2>: I just called to say I love you and I mean it from the bottom of my heart.
Voice unit <3>: Well, to tell you the truth, I couldn't help but call you.

なお、各音声単位と音声単位の間に存在していた、区切り条件として検出された無音区間は、ステップS2において取得される音声単位には含めないようにする。   It should be noted that the silent section detected as a delimiter condition that existed between each voice unit is not included in the voice unit acquired in step S2.

次に、速度調整部14は、音声単位<1>の再生時間が3.5秒、音声単位<2>の再生時間が7.2秒、音声単位<3>の再生時間が4.5秒であることを検出する。本実施例においては、再生時間の限界長さが5秒として予め設定されているものとする。(なお、上述したように、この再生時間の限界長さは短期記憶の可能な秒数の限界長さの範囲内で設定されるのが好ましい。)このうち、音声単位<1>及び<3>の再生時間はいずれも5秒を下回っているが、音声単位<2>の再生時間は7.2秒であって5秒を上回っている。そこで、速度調整部14は、音声単位<2>の再生時間が、予め設定されている再生時間の限界長さ5秒と同一になるようにその再生速度を上げる(ステップS3)。なお、「再生速度を上げる」とは、後述するように音声再生部15が音声単位を再生する際に、その再生速度が上がるように適宜の音声処理を行うという意味である。   Next, the speed adjustment unit 14 reproduces the audio unit <1> with a reproduction time of 3.5 seconds, the audio unit <2> with a reproduction time 7.2 seconds, and the audio unit <3> with a reproduction time 4.5 seconds. Is detected. In this embodiment, it is assumed that the limit length of the reproduction time is set in advance as 5 seconds. (As described above, the limit length of the reproduction time is preferably set within the limit length of the number of seconds that can be stored in a short-term memory.) Among these, the audio units <1> and <3 The playback time of> is less than 5 seconds, but the playback time of the audio unit <2> is 7.2 seconds, which exceeds 5 seconds. Therefore, the speed adjustment unit 14 increases the playback speed so that the playback time of the audio unit <2> is the same as the preset limit time of 5 seconds (step S3). Note that “increasing the reproduction speed” means that, as will be described later, when the audio reproduction unit 15 reproduces an audio unit, appropriate audio processing is performed so that the reproduction speed is increased.

再生速度が上がると音高は自然に高くなるが、本実施例の言語訓練支援システム1では、これに対して特に何の処理も行わず、音高が高くなった状態のままにしておく。   As the playback speed increases, the pitch naturally increases. However, in the language training support system 1 of the present embodiment, no particular processing is performed and the pitch remains high.

次に音声再生部15は、上記ステップS3において得られた、再生速度の調整が終了した(ただし、音声単位<1>及び<3>は速度調整なし)音声単位のうち、最初の音声単位である音声単位<1>を音声出力部2を介して再生する(ステップS4)。   Next, the audio reproduction unit 15 finishes adjusting the reproduction speed obtained in step S3 (however, the audio units <1> and <3> are not adjusted). A certain audio unit <1> is reproduced via the audio output unit 2 (step S4).

また、ステップS4において、関連画像表示部16は音声再生部15が再生しようとする音声単位に含まれる概念(意味)を抽出し、画像記憶部12に保存されている多数の画像の中から、予め定められた画像を選択、又はその概念に最も近い画像を選出して読み出し、その画像を表示部3に表示する。この画像は、少なくとも対応する音声単位が再生されている間、表示部3に表示するのが良い。また、この画像は音声単位の再生が終了した後も、次の音声単位の再生が開始されるまで表示し続けてもよい。   In step S4, the related image display unit 16 extracts the concept (meaning) included in the audio unit to be reproduced by the audio reproduction unit 15, and from among a large number of images stored in the image storage unit 12, A predetermined image is selected or an image closest to the concept is selected and read, and the image is displayed on the display unit 3. This image is preferably displayed on the display unit 3 at least while the corresponding audio unit is being reproduced. Further, this image may continue to be displayed until the reproduction of the next audio unit is started after the reproduction of the audio unit is completed.

例えば、音声単位<1>に対応して、図4に示すような、「昨日、私の側から電話をあなたの家に電話をしたが、あなたは家にはいなかった」を表す画像が表示されることで、学習者は、"Yesterday I called you but you were not at home."の英文の意味に対応する概念を把握することができる。   For example, corresponding to the voice unit <1>, an image representing “Yesterday, I called you from your side but you were not at home” is displayed as shown in FIG. By doing so, the learner can grasp the concept corresponding to the meaning of the English sentence “Yesterday I called you but you were not at home.”.

このように、関連画像表示部16が音声単位の意味に関連した画像を表示部3に表示することによって、学習者は原音声を聞き取りながらその概念を視覚的に直ちに把握することができる。従って、学習者は聞き取った音声とその意味とを結びつける処理を行うと同時に、その後で発声する音声とその意味とを結び付ける処理を行うことが可能となり、日常会話程度の外国語を効率よく習得する上で有効な訓練を、自然な仕方で実施することができる。   As described above, the related image display unit 16 displays an image related to the meaning of the voice unit on the display unit 3, so that the learner can visually grasp the concept visually while listening to the original voice. Therefore, the learner can perform the process of associating the spoken voice with its meaning, and at the same time, the learner can perform the process of associating the voice uttered with the meaning, thereby efficiently learning a foreign language equivalent to daily conversation. The above effective training can be carried out in a natural way.

音声再生部15は音声単位<1>を再生し終わった後、所定長さの無音時間を設ける(ステップS5)。この無音時間、即ち一つの音声単位が再生されてから次の音声単位が再生されるまでの時間間隔は、学習者が音声出力部2を通して音声単位を聴いた後に、各音声単位を真似て発声することができるのに十分な時間であれば良い。これは例えば10秒のように固定の長さとしてもよいし、速度調整部14が基準として用いる再生時間の限界長さ(本実施例では5秒)に若干の秒数を加えたものとしてもよい。また、各音声単位の長さに対し、若干の秒数を加えた長さとすることもできる。この場合には各音声単位の再生時間に合わせて時間間隔が変化することになる。   After the audio reproduction unit 15 finishes reproducing the audio unit <1>, the audio reproduction unit 15 provides a predetermined length of silence time (step S5). The silent time, that is, the time interval from the reproduction of one audio unit to the reproduction of the next audio unit is determined by imitating each audio unit after the learner listens to the audio unit through the audio output unit 2. It suffices if the time is sufficient to be able to. For example, this may be a fixed length such as 10 seconds, or may be obtained by adding a slight number of seconds to the limit length of the reproduction time (5 seconds in this embodiment) used as a reference by the speed adjustment unit 14. Good. Moreover, it can also be set as the length which added some seconds to the length of each audio | voice unit. In this case, the time interval changes according to the playback time of each audio unit.

次いで学習者は、上記ステップS5において設けられる無音時間が開始された直後に、つまり一つの音声単位を聴いた直後に、聞き取った音声単位を繰り返すようにして発声する。この発声はマイク4を通して不一致通知部17に送られる(ステップS6)。   Next, the learner speaks in such a manner as to repeat the heard voice unit immediately after the silent time provided in step S5 is started, that is, immediately after listening to one voice unit. This utterance is sent to the mismatch notification unit 17 through the microphone 4 (step S6).

不一致通知部17は、直前に音声出力部2から出力された音声単位の長さと、その直後にマイク4から入力された学習者の発声の長さとの比較を行う(ステップS7)。両者の長さが常に完全に一致することは期待できないから、比較する上で適宜の誤差を許容することが望ましい。例えば±1秒の誤差を許容する場合、再生時間が3.5秒である音声単位<1>が出力された直後にマイク4から入力された学習者の発声の長さが4.0秒であったとすると、不一致通知部17は両者の値が誤差の間に収まっていると判定し、何の処理も行わず、次のステップに進む(ステップS7のYes)。又はここで、表示部3等に何らかの表示(例えば「OK」と表示する)を行うことで、学習者に対して発声長さが良好であったことを通知することもできる。   The discrepancy notifying unit 17 compares the length of the voice unit output from the voice output unit 2 immediately before with the length of the utterance of the learner input from the microphone 4 immediately after that (step S7). Since it cannot be expected that the lengths of the two always coincide completely, it is desirable to allow an appropriate error in comparison. For example, when an error of ± 1 second is allowed, the length of the learner's utterance input from the microphone 4 immediately after the output of the voice unit <1> whose reproduction time is 3.5 seconds is 4.0 seconds. If there is, the mismatch notification unit 17 determines that the two values are within the error, does not perform any processing, and proceeds to the next step (Yes in step S7). Alternatively, by performing some kind of display (for example, “OK” is displayed) on the display unit 3 or the like, the learner can be notified that the utterance length is good.

一方、再生時間が3.5秒である音声単位<1>が出力された直後にマイク4から入力される学習者の発声の長さが5.5秒であったり、2.0秒であったりした場合、即ち許容誤差の範囲に収まっていない場合(ステップS7のNo)には、不一致通知部17は、音声単位の長さとその直後に入力された学習者の発声長さとが一致していないと判断し、両者の値が不一致である旨を学習者に対して通知する(ステップS8)。これは例えば表示部3に「一致しません」との表示を行えば良い。   On the other hand, the length of the learner's utterance input from the microphone 4 immediately after the output of the voice unit <1> whose playback time is 3.5 seconds is 5.5 seconds or 2.0 seconds. In other words, that is, when it does not fall within the allowable error range (No in step S7), the discrepancy notification unit 17 matches the length of the speech unit with the length of the learner's utterance input immediately after that. It is determined that there is no match, and the learner is notified that the two values do not match (step S8). For example, the display unit 3 may display “does not match”.

このように不一致通知部17が動作することで、学習者は自分が正しく発声を行うことができたか否かを確実に知ることができる。これは上述したとおり、原音声の長さが短期記憶が可能な時間内であって、聞き取った音声を復唱することができさえすれば、通常は正確に発声することが出来ることが知られているという理由に基づく。   By operating the discrepancy notification unit 17 in this way, the learner can surely know whether or not he / she was able to speak correctly. As described above, it is known that the length of the original voice is within the time that short-term memory is possible, and it is usually possible to utter accurately as long as the heard voice can be repeated. Based on why.

本実施形態において、不一致通知部17は音声の長さのみを比較対象として学習者の発声の正確性を判定するが、音声の波形を比較することでより厳密に発声の正確性を判定するようにしても勿論構わない。   In the present embodiment, the discrepancy notification unit 17 determines the accuracy of the learner's utterance by comparing only the length of the speech, but the accuracy of the utterance is more strictly determined by comparing the waveforms of the speech. But of course.

次に、ステップS9において再生すべき音声単位が残っているか否かが判断される。本実施例の場合、音声単位<2>及び<3>がまだ残っているので(ステップS9のYes)、プロセスは前記ステップS4に戻る。このステップS4において、音声再生部15は音声単位<2>を、再生速度を上げて、再生時間が5秒となるように再生する。以後は音声単位<1>に関する場合と同様にステップS5〜S9を実行する。ステップS9において再生すべき音声単位が残っていると判断されるので、プロセスは前記ステップS4に再度戻り、音声単位<3>に関してもステップS5〜S9が実行され、最後にステップS9においてNoと判断されることにより、一連の処理(学習者にとっては訓練)が終了する。   Next, in step S9, it is determined whether there are any remaining audio units to be reproduced. In this embodiment, since the audio units <2> and <3> still remain (Yes in step S9), the process returns to step S4. In step S4, the audio reproduction unit 15 reproduces the audio unit <2> so that the reproduction speed is increased and the reproduction time is 5 seconds. Thereafter, Steps S5 to S9 are executed as in the case of the voice unit <1>. Since it is determined in step S9 that there are remaining audio units to be played back, the process returns to step S4, and steps S5 to S9 are executed for the audio unit <3>. Finally, it is determined No in step S9. As a result, a series of processing (training for the learner) is completed.

以上、本発明の一実施形態に係る言語訓練支援システムについて具体的に動作の説明を行った。しかしながら、上述の実施形態はあくまでも例であって、本発明の精神内で様々な追加や変形、改良を行うことができることは言うまでもない。以下に一つの変形例を述べる。   The operation of the language training support system according to the embodiment of the present invention has been specifically described above. However, the above-described embodiment is merely an example, and it goes without saying that various additions, modifications, and improvements can be made within the spirit of the present invention. One modification will be described below.

上記の例では、関連画像表示部16が音声単位に関連した画像を画像記憶部12から選択して、それを表示部3に表示するようにしていた。この場合には、音声単位に関連する画像を予め準備しておき、それを画像記憶部12に記憶させておく前準備が必要になる。音声単位がどのような概念を有しているかが予めわかっている場合には良いが、そうでない場合には、様々な概念に対応することができるように、画像記憶部12に多数の画像を用意しておく必要が生じる。   In the above example, the related image display unit 16 selects an image related to the audio unit from the image storage unit 12 and displays it on the display unit 3. In this case, it is necessary to prepare in advance an image related to the audio unit and store it in the image storage unit 12. This is good if the concept of the sound unit is known in advance, but if not, many images are stored in the image storage unit 12 so that various concepts can be handled. It is necessary to prepare.

そこで、画像を構成する基となる複数の画像パーツが記憶された画像パーツ記憶部18と、音声単位の音声から意味を抽出し、その意味に対応する一又は複数の画像パーツを画像パーツ記憶部18より選択し、選択した画像パーツを組み合わせることによって画像を作成し、その作成された画像を学習者に表示する画像作成部19を設けることもできる。音声単位の概念に対応した画像を提示するという意味において画像作成部19は上述した関連画像表示部16と同様の働きをするが、両者は共存させても良いし、関連画像表示部16の代わりに画像作成部19を設けても良い。これらに合わせて画像記憶部12と画像パーツ記憶部18も適宜に設ける。   Therefore, an image part storage unit 18 in which a plurality of image parts serving as the basis of an image are stored, and a meaning is extracted from the sound in units of sound, and one or a plurality of image parts corresponding to the meaning are extracted from the image part storage unit. It is also possible to provide an image creating unit 19 that creates an image by selecting from 18 and combining the selected image parts and displays the created image to the learner. In the sense that an image corresponding to the concept of the audio unit is presented, the image creating unit 19 functions in the same manner as the related image display unit 16 described above, but both may coexist, or instead of the related image display unit 16. An image creating unit 19 may be provided. In accordance with these, an image storage unit 12 and an image parts storage unit 18 are also provided as appropriate.

いま、例として、音声単位<1>:"Yesterday I called you but you were not at home."に対応する画像(即ち図4に示したような画像)を、画像作成部19が画像パーツを用いて作成する場合の処理を図5を参照しつつ説明する。画像作成部19は、音声単位<1>の音声に対して所定の構文解析を実行することにより、画像パーツ記憶部18から、「昨日」「私」「電話」「する」「あなた」「家」「いない」のそれぞれに対応する画像パーツを選択する(図5の上段)。次に、構文解析の結果に基づき、これらの7つの画像パーツを適宜に組み合わせることで、画像を作成する(図5の下段)。このようにして作成された画像は、表示部3を介して学習者に表示される。   As an example, an image corresponding to the audio unit <1>: “Yesterday I called you but you were not at home.” (That is, an image as shown in FIG. 4) is used by the image creating unit 19 using image parts. The process for creating the file will be described with reference to FIG. The image creation unit 19 performs a predetermined syntax analysis on the voice of the voice unit <1>, thereby “Yesterday”, “I”, “Telephone”, “Do”, “You”, “Home”. The image parts corresponding to each of “NO” are selected (the upper part of FIG. 5). Next, based on the result of syntax analysis, an image is created by appropriately combining these seven image parts (the lower part of FIG. 5). The image created in this way is displayed to the learner via the display unit 3.

このように、本発明の一実施形態である言語訓練支援システム1に画像パーツ記憶部18と画像作成部19とを更に設けることにより、音声単位の概念を示す画像をより高い自由度で以て作成することができるようになる。   As described above, by further providing the image parts storage unit 18 and the image creation unit 19 in the language training support system 1 according to the embodiment of the present invention, an image showing the concept of the voice unit can be obtained with a higher degree of freedom. Will be able to create.

また、上記の実施例では、音声単位取得部13は原音声を1秒間以上の無音区間という区切り条件で以て分割していたが、この無音区間の長さをさらに短くしてもよい。これにより、学習者にとっては訓練がより容易となる。同時に、一つの音声単位に含まれる概念がより少なくなるから、例えば画像作成部19が生成する画像の正確性が一層高まる。   In the above-described embodiment, the voice unit acquisition unit 13 divides the original voice by the delimiter condition of a silent period of 1 second or longer. However, the length of the silent period may be further shortened. This makes training easier for the learner. At the same time, since the concept contained in one audio unit is reduced, for example, the accuracy of the image generated by the image creating unit 19 is further increased.

更に、上述した実施例では、全ての音声単位の再生速度が速度調整部14によって調整された(されなかった場合も含む)後に音声再生部15が音声単位の再生を行っていたが、速度調整部14及び音声再生部15の処理は平行して実行してももちろん構わない。同様に、図2のフローチャートに示した処理の順番はあくまでも一例であり、複数の処理が適宜に前後して、又は同時に実行されたとしても構わないことは言うまでもない。   Furthermore, in the above-described embodiment, the audio playback unit 15 performs playback in units of audio after the playback speed of all audio units has been adjusted by the speed adjustment unit 14 (including the case where it has not been performed). Of course, the processing of the unit 14 and the audio playback unit 15 may be executed in parallel. Similarly, the order of the processes shown in the flowchart of FIG. 2 is merely an example, and it goes without saying that a plurality of processes may be executed appropriately before and after or simultaneously.

また、本発明の記憶支援システムの付加的な機能として、学習者の指示に応じて、出力される音声単位の再生速度を一律に上げたり又は下げたりし、且つ音高の調整は行わないような速度調整機能を設けることもできる。これにより、学習者は任意に様々な速度で原音声を聴くことが可能となり、聞き取り能力の更なる向上を図ることができる。   Further, as an additional function of the storage support system of the present invention, the playback speed of the output voice unit is uniformly increased or decreased according to the instruction of the learner, and the pitch is not adjusted. A speed adjusting function can be provided. Thereby, the learner can listen to the original voice arbitrarily at various speeds, and can further improve the listening ability.

本発明に係る記憶支援システムは、原音声がユーザの母語とは異なる外国語の音声である場合、即ち外国語の訓練の支援において有効であるが、このシステムの使用形態は何ら限定されるものではない。例えば、原音声をユーザの母語としてもよい。この場合、例えば認知症、脳梗塞の後遺症などで母語の認知能力が低下した人の訓練用として本発明に係る記憶支援システムを好適に使用することができる。さらにまた本発明は、より一般的な記憶を伴う学習などのシステムに用いることもできる。   The memory support system according to the present invention is effective in the case where the original voice is a foreign language voice different from the user's native language, that is, in support of training of a foreign language, but the usage form of this system is not limited at all. is not. For example, the original voice may be the user's native language. In this case, for example, the memory support system according to the present invention can be suitably used for training a person whose native language cognitive ability has declined due to dementia, sequelae of cerebral infarction, or the like. Furthermore, the present invention can also be used in systems such as learning with more general memory.

1…言語訓練支援システム
2…音声出力部
3…表示部
4…マイク
11…原音声記憶部
12…画像記憶部
13…音声単位取得部
14…速度調節部
15…音声再生部
16…関連画像表示部
17…不一致通知部
18…画像パーツ記憶部
19…画像作成部
DESCRIPTION OF SYMBOLS 1 ... Language training support system 2 ... Audio | voice output part 3 ... Display part 4 ... Microphone 11 ... Original audio | voice storage part 12 ... Image storage part 13 ... Audio | voice unit acquisition part 14 ... Speed control part 15 ... Audio | voice reproduction | regeneration part 16 ... Related image display Unit 17: Discrepancy notifying unit 18 Image part storage unit 19 Image creating unit

Claims (16)

原音声に基づいて音声出力部から出力される再生音声に従ってユーザが発声することにより記憶を支援するための記憶支援システムであって、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得部と、
b)前記音声単位取得部によって取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整部と、
c)前記速度調整部で該当する音声単位の再生速度を調整しつつ、前記音声単位取得部で取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生部と、
を備えることを特徴とする記憶支援システム。
A storage support system for supporting storage by a user uttering according to reproduced sound output from a sound output unit based on original sound,
a) a voice unit acquisition unit that sequentially acquires voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech units obtained by the speech-unit acquisition unit, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed A speed adjustment unit to increase the playback speed,
c) an audio reproduction unit that reproduces the audio unit acquired by the audio unit acquisition unit at a predetermined time interval from the audio output unit while adjusting the reproduction speed of the corresponding audio unit by the speed adjustment unit;
A memory support system comprising:
前記所定の時間長が3秒乃至10秒の範囲に設定されることを特徴とする請求項1に記載の記憶支援システム。   The storage support system according to claim 1, wherein the predetermined time length is set in a range of 3 to 10 seconds. 前記速度調整部は、再生速度を上げる際に原音声の音高よりも音高を高くすることを特徴とする請求項1又は2に記載の記憶支援システム。   The storage support system according to claim 1 or 2, wherein the speed adjustment unit makes the pitch higher than the pitch of the original voice when increasing the playback speed. 前記音声単位取得部は、所定の長さ以上の無音が続くことを前記区切り条件としたものであることを特徴とする請求項1〜3のいずれかに記載の記憶支援システム。 The speech-unit acquisition unit, serial 憶支 assistance system according to any one of claims 1 to 3, characterized in that that a predetermined length or more silence followed those with the delimiter condition. 予め用意された種々の画像を記憶する画像記憶部と、
前記音声再生部が再生する各音声単位に関連した画像を前記画像記憶部から読み出し、少なくとも音声単位の再生中に該画像をユーザに表示する関連画像表示部と、
を更に備えることを特徴とする請求項1〜4のいずれかに記載の記憶支援システム。
An image storage unit for storing various images prepared in advance;
An associated image display unit that reads an image associated with each audio unit reproduced by the audio reproduction unit from the image storage unit, and displays the image to the user at least during reproduction of the audio unit;
The storage support system according to claim 1, further comprising:
画像を構成する基となる複数の画像パーツが記憶された画像パーツ記憶部と、
音声単位の音声から意味を抽出し、該意味に対応する一又は複数の画像パーツを前記画像パーツ記憶部より選択し、選択した画像パーツを組み合わせることによって画像を作成し、該作成された画像をユーザに表示する画像作成部と、
を更に備えることを特徴とする請求項1〜5のいずれかに記載の記憶支援システム。
An image parts storage unit that stores a plurality of image parts that form the basis of the image;
The meaning is extracted from the voice of the voice unit, one or a plurality of image parts corresponding to the meaning is selected from the image part storage unit, an image is created by combining the selected image parts, and the created image is An image creation unit to be displayed to the user;
The storage support system according to claim 1, further comprising:
ユーザの発声を入力する音声入力部と、
前記音声出力部から出力された音声単位の長さと、直後に該音声入力部から入力されたユーザの発声長さとの比較を行い、その比較に基づいてユーザの発声を評価して評価結果をユーザに通知する通知部と、
を更に備えることを特徴とする請求項1〜6のいずれかに記載の記憶支援システム。
A voice input unit for inputting a user's utterance;
The length of the voice unit output from the voice output unit is compared with the user's utterance length input from the voice input unit immediately thereafter, and the user's utterance is evaluated based on the comparison, and the evaluation result is determined by the user. A notification unit to notify
The storage support system according to claim 1, further comprising:
原音声に基づいて音声出力部から出力される再生音声に従ってユーザが発声することにより記憶を支援するための記憶支援システムに用いられるプログラムであって、コンピュータを、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得部と、
b)前記音声単位取得部によって取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整部と、
c)前記速度調整部で該当する音声単位の再生速度を調整しつつ、前記音声単位取得部で取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生部と、
して機能させることを特徴とする記憶支援プログラム。
A program used in a storage support system for supporting storage by a user uttering according to reproduced sound output from a sound output unit based on original sound, the computer comprising:
a) a voice unit acquisition unit that sequentially acquires voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech units obtained by the speech-unit acquisition unit, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed A speed adjustment unit to increase the playback speed,
c) an audio reproduction unit that reproduces the audio unit acquired by the audio unit acquisition unit at a predetermined time interval from the audio output unit while adjusting the reproduction speed of the corresponding audio unit by the speed adjustment unit;
A memory support program characterized in that it is made to function.
前記所定の時間長が3秒乃至10秒の範囲に設定されることを特徴とする請求項8に記載の記憶支援プログラム。   The storage support program according to claim 8, wherein the predetermined time length is set in a range of 3 to 10 seconds. 前記速度調整部は、再生速度を上げる際に原音声の音高よりも音高を高くすることを特徴とする請求項8又は9に記載の記憶支援プログラム。   The storage support program according to claim 8 or 9, wherein the speed adjustment unit makes the pitch higher than the pitch of the original voice when increasing the playback speed. 予め用意された種々の画像を記憶する画像記憶部を更に備えるコンピュータを、更に
前記音声再生部が再生する各音声単位に関連した画像を前記画像記憶部から読み出し、少なくとも音声単位の再生中に該画像をユーザに表示する関連画像表示部として機能させることを特徴とする請求項8〜10のいずれかに記載の記憶支援プログラム。
A computer further comprising an image storage unit for storing various images prepared in advance, further reads out an image associated with each audio unit reproduced by the audio reproduction unit from the image storage unit, and at least during reproduction of the audio unit The storage support program according to any one of claims 8 to 10, wherein the storage support program functions as a related image display unit that displays an image to a user.
画像を構成する基となる複数の画像パーツが記憶された画像パーツ記憶部を更に備えるコンピュータを、更に、
音声単位の音声から意味を抽出し、該意味に対応する一又は複数の画像パーツを前記画像パーツ記憶部より選択し、選択した画像パーツを組み合わせることによって画像を作成し、該作成された画像をユーザに表示する画像作成部として機能させることを特徴とする請求項8〜11のいずれかに記載の記憶支援プログラム。
A computer further comprising an image parts storage unit in which a plurality of image parts serving as the basis of an image are stored;
The meaning is extracted from the voice of the voice unit, one or a plurality of image parts corresponding to the meaning is selected from the image part storage unit, an image is created by combining the selected image parts, and the created image is 12. The storage support program according to claim 8, wherein the storage support program functions as an image creation unit to be displayed to a user.
ユーザの発声を入力する音声入力部を更に備えるコンピュータを、更に、
前記音声出力部から出力された音声単位の長さと、直後に該音声入力部から入力されたユーザの発声長さとの比較を行い、その比較に基づいてユーザの発声を評価して評価結果をユーザに通知する通知部として機能させることを特徴とする請求項8〜12のいずれかに記載の記憶支援プログラム。
A computer further comprising a voice input unit for inputting a user's utterance;
The length of the voice unit output from the voice output unit is compared with the user's utterance length input from the voice input unit immediately thereafter, and the user's utterance is evaluated based on the comparison, and the evaluation result is determined by the user. The storage support program according to any one of claims 8 to 12, wherein the storage support program is made to function as a notification unit for notifying a user.
原音声に基づいて音声出力部から出力される再生音声に従ってユーザが発声することにより記憶を支援するための記憶支援方法であって、
a)原音声を所定の区切り条件で以て分割した音声単位を順次取得する音声単位取得ステップと、
b)前記音声単位取得ステップにおいて取得された音声単位のうち、通常の再生速度で再生したときに所定の時間長以上となる音声単位に関してのみ、その再生時間が前記所定の時間長内に収まるように再生速度を上げる速度調整ステップと、
c)前記速度調整ステップで該当する音声単位の再生速度を調整しつつ、前記音声単位取得ステップにおいて取得した音声単位を所定の時間間隔で以て音声出力部から再生する音声再生ステップと、
から成ることを特徴とする記憶支援方法。
A storage support method for supporting storage by a user uttering according to reproduced sound output from a sound output unit based on original sound,
a) a voice unit acquisition step for sequentially acquiring voice units obtained by dividing the original voice by a predetermined separation condition;
b) Of the speech unit acquired in the speech unit acquiring step, Tenomi relates speech unit to be a predetermined length of time or more, the playback time fit in the predetermined time in length when played at normal playback speed The speed adjustment step to increase the playback speed,
c) an audio reproduction step of reproducing the audio unit acquired in the audio unit acquisition step from the audio output unit at a predetermined time interval while adjusting the reproduction speed of the corresponding audio unit in the speed adjustment step;
A memory support method comprising:
前記所定の時間長が3秒乃至10秒の範囲に設定されることを特徴とする請求項14に記載の記憶支援方法。   The storage support method according to claim 14, wherein the predetermined time length is set in a range of 3 to 10 seconds. 前記速度調整ステップにおいて再生速度を上げる際に原音声の音高よりも音高を高くすることを特徴とする請求項14又は15に記載の記憶支援方法。   16. The storage support method according to claim 14, wherein the pitch is set higher than the pitch of the original voice when the playback speed is increased in the speed adjustment step.
JP2009036130A 2009-02-19 2009-02-19 Memory support system, memory support program, and memory support method Active JP5248365B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009036130A JP5248365B2 (en) 2009-02-19 2009-02-19 Memory support system, memory support program, and memory support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009036130A JP5248365B2 (en) 2009-02-19 2009-02-19 Memory support system, memory support program, and memory support method

Publications (2)

Publication Number Publication Date
JP2010191235A JP2010191235A (en) 2010-09-02
JP5248365B2 true JP5248365B2 (en) 2013-07-31

Family

ID=42817327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009036130A Active JP5248365B2 (en) 2009-02-19 2009-02-19 Memory support system, memory support program, and memory support method

Country Status (1)

Country Link
JP (1) JP5248365B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6535999B2 (en) * 2014-09-17 2019-07-03 カシオ計算機株式会社 Language learning apparatus, language learning method and program
JP6450127B2 (en) * 2014-09-30 2019-01-09 正文 立原 Language training device
JP2017072763A (en) * 2015-10-08 2017-04-13 シナノケンシ株式会社 Digital content reproduction device and digital content reproduction method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0620448A (en) * 1992-07-03 1994-01-28 Sony Corp Reproducing device
JPH09293133A (en) * 1996-04-25 1997-11-11 Atsushi Matsushita Abstract medium supplementing method and its system
JP2003307997A (en) * 2002-04-15 2003-10-31 Sony Corp Language education system, voice data processor, voice data processing method, voice data processing program, and recording medium
JP2003323102A (en) * 2002-05-06 2003-11-14 Toichiro Sato Method for training listening comprehension of foreign language by discriminating tone, recording medium and accompanying textbook for the same
JP4797597B2 (en) * 2005-11-24 2011-10-19 ヤマハ株式会社 Language learning device

Also Published As

Publication number Publication date
JP2010191235A (en) 2010-09-02

Similar Documents

Publication Publication Date Title
JP4545787B2 (en) Method and apparatus for improving speech recognition among language disabled persons
US6865533B2 (en) Text to speech
Adank et al. Accent imitation positively affects language attitudes
JP5580019B2 (en) Language learning support system and language learning support method
JP5248365B2 (en) Memory support system, memory support program, and memory support method
Strik ASR-based systems for language learning and therapy
Klopfenstein Speech naturalness ratings and perceptual correlates of highly natural and unnatural speech in hypokinetic dysarthria secondary to Parkinson's disease
KR101967849B1 (en) Foreign language acquisition practice method through the combination of shadowing and speed listening based on the processes of mother language acquisition, apparatus and computer readable program medium thereof
Nagamine An experimental study on the teachability and learnability of English intonational aspect: Acoustic analysis on F0 and native-speaker judgment task
JP2004334164A (en) System for learning pronunciation and identification of english phonemes &#34;l&#34; and &#34;r&#34;
Öster Computer-based speech therapy using visual feedback with focus on children with profound hearing impairments
JPH10268753A (en) Computer-readable recording medium recording chinese learning program, and chinese learning device
KR20050024845A (en) Prosody-centered foreign language acquisition system using graphic caption
JP2014240902A (en) Learning support device
Shi et al. Relative weighting of semantic and syntactic cues in native and non-native listeners’ recognition of English sentences
Barcroft Acoustic variation and lexical acquisition
RU2747910C1 (en) Simulator for developing speech and practicing pronunciation when learning foreign languages
JP2001042758A (en) Voice of foreign language learning method and voice of foreign language learning materials to be used for the method
Antonova The use of software tools Praat and Audacity in teaching Chinese L2 pronunciation
Thijs Power Roles and Their Impact on Speech in Daily Life
Cheeli Phonological Surveillance of/p/in Comparison with/b/.
Reinisch What we (don't) perceive as foreign accent
Mirosław et al. THE PACE OF SPEECH OF PEOPLE WITH MODERATE INTELLECTUAL DISABILITY (as compared to the norm and to mild intellectual disability)
Hirozane Perception of English rate by Japanese L2 learners of English
Masapollo et al. Infant recognition of infant vocal signals

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120210

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130410

R150 Certificate of patent or registration of utility model

Ref document number: 5248365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250