JP2010185967A - Pronunciation training device - Google Patents
Pronunciation training device Download PDFInfo
- Publication number
- JP2010185967A JP2010185967A JP2009028881A JP2009028881A JP2010185967A JP 2010185967 A JP2010185967 A JP 2010185967A JP 2009028881 A JP2009028881 A JP 2009028881A JP 2009028881 A JP2009028881 A JP 2009028881A JP 2010185967 A JP2010185967 A JP 2010185967A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- trainer
- language
- instructor
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Transforming Electric Information Into Light Information (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
この発明は、訓練者が発した言語及び指導者が発した言語をそれぞれ可視化した文字を表示領域に表示する発音訓練装置に関する。 The present invention relates to a pronunciation training device that displays characters in a display area, each of which visualizes a language uttered by a trainee and a language uttered by a trainer.
特許文献1には、一人でも容易に正しい発声又は発音練習を行うことができるようにした音声表示装置が開示されている。特許文献1の音声表示装置では、表示部が、話し手の発声又は発音を示す検出パターン形状と、予め登録された正しい発声又は発音を示す基準パターン形状とを並べて表示し、話し手は、検出パターン形状と基準パターン形状とを、表示部の画面上で並べて視認することができる。 Patent Document 1 discloses a voice display device that enables one person to easily perform correct utterance or pronunciation practice. In the voice display device of Patent Document 1, the display unit displays the detection pattern shape indicating the utterance or pronunciation of the speaker and the reference pattern shape indicating the correct utterance or pronunciation registered in advance, and the speaker displays the detection pattern shape. And the reference pattern shape can be viewed side by side on the screen of the display unit.
したがって、話し手は、表示部の画面上に表示された検出パターン形状及び基準パターン形状を見ながら、両パターン形状の差異を無くすように、発声又は発音を繰り返すことにより、自分の発声又は発音を修正して、正しい発声又は発音を習得することができる。 Therefore, the speaker corrects his or her utterance by repeating the utterance or pronunciation while observing the detected pattern shape and the reference pattern shape displayed on the screen of the display unit so as to eliminate the difference between the two pattern shapes. Thus, the correct utterance or pronunciation can be acquired.
また、特許文献2には、音源の方向を推定すると共に、推定された音源位置近傍の映像をカメラで採取し、ディスプレイに表示された前記音源位置近傍の映像上に、音源位置を表示する音源探査システムに関する技術が開示されている。 Patent Document 2 discloses a sound source that estimates the direction of a sound source, collects an image near the estimated sound source position with a camera, and displays the sound source position on the image near the sound source position displayed on a display. Techniques relating to exploration systems are disclosed.
ところで、上記の音声表示装置では、話し手である訓練者は、画面上に表示された基準パターン形状を視認することはできるが、基準パターン形状に対応する音声を発する際の唇の形や動き等を直接的に視認することはできなかった。このため、訓練者は、直接的に唇の形や動き等を知ることができないため、検出パターンと基準パターンとの差異を無くする訓練を行う場合には、基準パターン形状に対応する音声を発することが可能な唇の形や動き等を想定し、何度も試行錯誤しながら、検出パターン形状を基準パターン形状に近づけることを繰り返さなければならなかった。 By the way, in the voice display device described above, the trainer who is a speaker can visually recognize the reference pattern shape displayed on the screen, but the shape and movement of the lips when the voice corresponding to the reference pattern shape is emitted. Was not directly visible. For this reason, since the trainee cannot directly know the shape or movement of the lips, when performing training to eliminate the difference between the detection pattern and the reference pattern, the trainer emits a sound corresponding to the reference pattern shape. Assuming possible lip shapes and movements, it was necessary to repeat the process of bringing the detected pattern shape closer to the reference pattern shape through trial and error.
したがって、上記の音声表示装置では、訓練者が、検出パターン形状を基準パターン形状に近づけるまでに長時間を要することがあり、効率良く発音の訓練を行っているとは言い難かった。 Therefore, in the voice display device described above, it may take a long time for the trainee to bring the detected pattern shape closer to the reference pattern shape, and it is difficult to say that training of pronunciation is performed efficiently.
この発明は、このような状況に鑑み提案されてものであって、訓練者が、正しい発音を行うための唇の形や動き等を直接的に確認することができると共に、効率良く発音の訓練を行うことができる発音訓練装置を提供することを目的とする。 The present invention is proposed in view of such a situation, and the trainer can directly confirm the shape and movement of the lips for correct pronunciation, and can efficiently train the pronunciation. An object of the present invention is to provide a pronunciation training device capable of performing
請求1の発明に係る発音訓練装置は、カメラによって撮像した訓練者の画像及び指導者の画像を含む撮像画像を表示可能な表示領域を有する表示手段と、前記訓練者が発した音声である訓練者音声及び前記指導者が発した音声である指導者音声をそれぞれ集音可能な集音手段と、前記集音手段によって集音した前記訓練者音声及び前記指導者音声に基づいて、該訓練者音声が発せられた訓練者音声発生位置及び該指導者音声が発せられた指導者音声発生位置をそれぞれ特定する位置特定手段と、前記位置特定手段によって特定した前記訓練者音声発生位置と、前記表示領域に表示する撮像画像内における訓練者音声可視化表示位置とを相関付けすると共に、前記位置特定手段によって特定した前記指導者音声発生位置と、前記表示領域に表示する撮像画像内における指導者音声可視化表示位置とを相関付けする相関手段と、前記訓練者音声発生位置において前記訓練者が発した言語である訓練者発生言語及び前記指導者音声発生位置において前記指導者が発した言語である指導者発生言語をそれぞれ認識する言語認識手段と、前記言語認識手段によって認識した前記訓練者発生言語を可視化した訓練者発生言語可視化文字に変換すると共に、前記言語認識手段によって認識した前記指導者発生言語を可視化した指導者発生言語可視化文字に変換する文字変換手段と、前記相関手段によって前記訓練者音声発生位置と相関付けされた前記訓練者音声可視化表示位置に前記訓練者発生言語可視化文字を表示する制御を行うと共に、前記相関手段によって前記指導者音声発生位置と相関付けされた前記指導者音声可視化表示位置に前記指導者発生言語可視化文字を表示する制御を行う表示制御手段と、を備えることを特徴とする。
請求項1の発明に係る発音訓練装置によれば、表示制御手段によって、訓練者の画像及び指導者の画像を含む撮像画像内における訓練者音声可視化表示位置に訓練者発生言語可視化文字を表示する制御を行うと共に、前記撮像画像内における指導者音声可視化表示位置に指導者発生言語可視化文字を表示する制御を行う。
これにより、上記の表示領域には、訓練者の画像及び指導者の画像を含む撮像画像を表示すると同時に、該撮像画像内に訓練者発生言語可視化文字や指導者発生言語可視化文字を表示することができる。
したがって、訓練者が、表示領域に表示された訓練者発生言語可視化文字と指導者発生言語可視化文字とを比較して、該訓練者発生言語可視化文字が該指導者発生言語可視化文字とは異なることを確認することにより、訓練者自らが発した言語が指導者が発した言語とは異なることを認識することができる。
加えて、訓練者は、訓練者自らが発した言語が指導者が発した言語とは異なることを認識すると同時に、表示領域に表示された指導者の画像によって表される唇の形や動き等を直接的に確認しながら、訓練者の唇の形や動き等を指導者の唇の形や動き等に合わせることが可能となる。
これに伴って、訓練者は、訓練者自らが発する言語を指導者が発する言語に近づけるように矯正する訓練を効率良く行うことができる。
The pronunciation training device according to the first aspect of the present invention is a training that is a voice generated by the trainer and display means having a display area capable of displaying a captured image including a trainer image and a trainer image captured by a camera. A voice collecting means capable of collecting the voice of the leader and the voice of the leader, and the trainer based on the voice of the trainer and the voice of the leader collected by the sound collecting means. The position of the trainer voice generation position where the voice is uttered and the position of the trainer voice generation position where the voice of the instructor is uttered, the trainer voice generation position specified by the position specification means, and the display The trainer voice visualization display position in the captured image displayed in the area is correlated, and the instructor voice generation position specified by the position specifying means is displayed in the display area. Correlation means for correlating the display position of the trainer voice in the captured image, the trainer-generated language that is a language issued by the trainer at the trainer speech generation position, and the guidance at the trainer speech generation position Language recognition means for recognizing instructor-generated languages, which are languages issued by a trainee, and converting the trainer-generated language recognized by the language recognition means into visualized trainee-generated language visualized characters, and the language recognition means Character conversion means for converting the instructor-generated language recognized by the operator into visualized instructor-generated language visualized characters, and the training in the trainer speech visualization display position correlated with the trainer speech generation position by the correlating means In addition to performing control to display the person-generated language visualization characters, the correlation means correlates with the instructor voice generation position Characterized in that it comprises a display control means performs control to display the leader generation language visualization characters to the leader speech visualization position it is.
According to the pronunciation training device of the first aspect of the present invention, the trainer-generated language visualized character is displayed at the trainer speech visualization display position in the captured image including the trainer image and the trainer image by the display control means. While performing control, it performs control which displays a leader generation language visualization character in a leader voice visualization display position in the above-mentioned picked-up image.
Thereby, in the above display area, the captured image including the image of the trainer and the image of the instructor is displayed, and at the same time, the trainer-generated language visualization character and the instructor-generated language visualization character are displayed in the captured image. Can do.
Therefore, the trainee compares the trainer-generated language visualized character displayed in the display area with the trainer-generated language visualized character, and the trainer-generated language visualized character is different from the trainer-generated language visualized character. By confirming, it is possible to recognize that the language that the trainee himself has spoken is different from the language that the instructor has spoken.
In addition, the trainer recognizes that the language that the trainee himself has spoken is different from the language that the trainer has spoken, and at the same time the shape and movement of the lips represented by the trainer image displayed in the display area, etc. It is possible to match the shape and movement of the trainee's lips with the shape and movement of the instructor's lips while directly confirming.
Along with this, the trainer can efficiently perform training for correcting the language that the trainee himself speaks to be close to the language that the trainer speaks.
請求項2の発明は、請求項1において、前記集音手段は、前記訓練者音声及び前記指導者音声をそれぞれ集音するために、所定の水平間隔を隔てて配置された一対のマイクロフォン同士を互いに直交して配置したマイクロフォン群と、前記訓練者音声及び前記指導者音声をそれぞれ集音するために、前記一対のマイクロフォンを構成する各マイクロフォンから前記水平間隔と同一の間隔である対向間隔を隔てて配置された対向マイクロフォンと、を備え、前記位置特定手段は、前記訓練者音声が、前記一対のマイクロフォンに到達する時間差及び前記各マイクロフォンと前記対向マイクロフォンとの間に到達する時間差をそれぞれ用い、双曲線法によって、前記訓練者音声発生位置を算出すると共に、前記指導者音声が、前記一対のマイクロフォンに到達する時間差及び前記各マイクロフォンと前記対向マイクロフォンとの間に到達する時間差をそれぞれ用い、双曲線法によって、前記指導者音声発生位置を算出することを特徴とする。
請求項2の発明によれば、位置特定手段が、マイクロフォン群を構成する所定の間隔を隔てて配置された各一対のマイクロフォン及び各一対のマイクロフォンを構成する各マイクロフォンと対向マイクロフォンとの間にそれぞれ到達する訓練者音声や指導者音声の到達時間差を用い、双曲線法によって、訓練者音声発生位置や指導者音声発生位置を算出する。
このため、訓練者音声が発せられた位置や指導者音声が発せられた位置が順次変化した場合であっても、双曲線法により、各一対のマイクロフォンの間や、上記の各マイクロフォンと対向マイクロフォンとの間をそれぞれ通過する複数の双曲線軌跡の交点を、前記訓練者音声発生位置や前記指導者音声発生位置として定めることができる。
A second aspect of the present invention is directed to the first aspect, wherein the sound collecting means collects a pair of microphones arranged at a predetermined horizontal interval in order to collect the trainer voice and the instructor voice, respectively. In order to collect the microphone group arranged orthogonal to each other and the trainer voice and the instructor voice, the microphones constituting the pair of microphones are separated from each other by a facing interval that is the same as the horizontal interval. The position identification means uses a time difference when the trainee's voice reaches the pair of microphones and a time difference between the microphones and the opposite microphone, respectively. The trainer voice generation position is calculated by a hyperbolic method, and the instructor voice is converted into the pair of microphones. Using the time difference reaching the O emissions and the time difference to reach between the microphone and the counter microphone respectively, by hyperbola method, and calculates the leader sound generation position.
According to the invention of claim 2, the position specifying means includes a pair of microphones arranged at a predetermined interval constituting the microphone group, and a pair of microphones constituting the pair of microphones and a counter microphone. The trainer voice generation position and the teacher voice generation position are calculated by the hyperbolic method using the arrival time difference between the trainer voice and the leader voice to reach.
For this reason, even if the position where the trainer's voice is emitted and the position where the leader's voice is emitted change sequentially, the hyperbolic method can be used between each pair of microphones or each of the above microphones and the opposed microphones. The intersections of a plurality of hyperbolic trajectories that respectively pass between the two can be determined as the trainer voice generation position and the instructor voice generation position.
請求項3の発明は、請求項1又は2において、前記言語認識手段によって認識した前記訓練者発生言語と前記言語認識手段によって認識した前記指導者発生言語とを比較して、前記訓練者発生言語が前記指導者発生言語に一致する正解判定もしくは前記訓練者発生言語が前記指導者発生言語に一致しない不正解判定を行う判定手段と、前記判定手段による前記正解判定の結果もしくは前記不正解判定の結果を前記表示領域に表示する制御を行う判定結果表示制御手段と、を備えることを特徴とする。
請求項3の発明によれば、判定結果表示制御手段により、表示領域に、正解判定の結果もしくは不正解判定の結果を表示する制御を行う。
これにより、判定結果表示制御手段によって表示領域に表示されたいずれかの判定結果(正解判定の結果もしくは不正解判定の結果)に基づいて、訓練者は、該訓練者自らが発した言語が指導者が発した言語に一致する正しい発音ができているか否かを、一目で簡単に確認することができる。
The invention of claim 3 is the trainer-generated language according to claim 1 or 2, wherein the trainer-generated language recognized by the language recognition means is compared with the trainer-generated language recognized by the language recognition means. Determination means for performing a correct answer determination that matches the instructor-generated language or an incorrect answer determination in which the trainer-generated language does not match the instructor-generated language, and a result of the correct answer determination by the determining means or an incorrect answer determination Determination result display control means for performing control to display the result in the display area.
According to the third aspect of the present invention, the determination result display control means performs control for displaying the result of the correct answer determination or the result of the incorrect answer determination in the display area.
Thereby, based on one of the determination results (correct answer determination result or incorrect answer determination result) displayed in the display area by the determination result display control means, the trainer is instructed by the language of the trainee himself / herself. It is possible to easily confirm at a glance whether or not the correct pronunciation corresponding to the language uttered by the person is made.
請求項4の発明は、請求項1ないし3のいずれかにおいて、前記文字変換手段は、前記集音手段によって集音した前記訓練者音声の音量及び前記指導者音声の音量に基づいて、前記訓練者発生言語可視化文字の大きさ及び前記指導者発生言語可視化文字の大きさをそれぞれ変化させ、前記表示制御手段は、前記文字変換手段によって変化させた前記訓練者発生言語可視化文字の大きさで、前記訓練者音声可視化表示位置に前記訓練者発生言語可視化文字を表示すると共に、前記文字変換手段によって変化させた前記指導者発生言語可視化文字の大きさで、前記指導者音声可視化表示位置に前記指導者発生言語可視化文字を表示することを特徴とする。
請求項4の発明によれば、表示制御手段により、訓練者音声の音量に基づいて変化させた訓練者発生言語可視化文字の大きさで、訓練者音声可視化表示位置に訓練者発生言語可視化文字を表示すると共に、指導者音声の音量に基づいて変化させた指導者発生言語可視化文字の大きさで、指導者音声可視化表示位置に指導者発生言語可視化文字を表示する。
このため、訓練者は、訓練者発生言語可視化文字の大きさと指導者発生言語可視化文字の大きさとを比較して、訓練者音声の音量が指導者音声の音量に適合しているか否かを判断することができる。
According to a fourth aspect of the present invention, in any one of the first to third aspects, the character conversion unit is configured to perform the training based on a volume of the trainer voice and a volume of the instructor voice collected by the sound collection unit. The size of the person-generated language visualized character and the size of the instructor-generated language visualized character are each changed, and the display control means is the size of the trainer-generated language visualized character changed by the character converting means, The trainer-generated language visualized character is displayed at the trainer-speech-visualized display position, and the guidance-speaker-spoken language-visualized character size is changed by the character conversion unit, and the guidance is displayed at the trainer-speech-visualized display position. It is characterized by displaying human-generated language visualization characters.
According to the fourth aspect of the present invention, the trainer-generated language visualized character is displayed at the trainer speech visualization display position with the size of the trainer-generated language visualized character changed by the display control means based on the volume of the trainee speech. In addition to displaying, the instructor-generated language visualized character is displayed at the instructor-speech-visualized display position with the size of the instructor-generated language visualized character changed based on the volume of the instructor voice.
For this reason, the trainee compares the size of the trainer-generated language visualized character and the size of the trainer-generated language visualized character to determine whether the volume of the trainer speech matches the volume of the trainer speech. can do.
請求項5の発明は、請求項1ないし4のいずれかにおいて、前記訓練者音声可視化表示位置及び前記指導者音声可視化表示位置を、前記表示領域の任意の位置に調整する表示位置調整手段を備えることを特徴とする。
請求項5の発明によれば、表示位置調整手段により、訓練者音声可視化表示位置及び指導者音声可視化表示位置を、表示領域の任意の位置に調整することができるため、表示領域における訓練者音声可視化表示位置及び指導者音声可視化表示位置を、該表示領域における訓練者の画像及び指導者の画像をそれぞれ遮ることがない位置に調整することが可能になる。
これにより、訓練者は、訓練者音声可視化表示位置の訓練者発生言語可視化文字及び指導者音声可視化表示位置の指導者発生言語可視化文字を、訓練者の画像及び指導者の画像からそれぞれ離して別個に確認することができる。
このため、訓練者発生言語可視化文字と指導者発生言語可視化文字との比較や、訓練者の画像と指導者の画像との比較をそれぞれ容易に行うことができる。
A fifth aspect of the present invention includes the display position adjusting unit according to any one of the first to fourth aspects, wherein the trainer voice visualization display position and the instructor voice visualization display position are adjusted to arbitrary positions in the display area. It is characterized by that.
According to the invention of claim 5, the trainer voice visualization display position and the leader voice visualization display position can be adjusted to arbitrary positions in the display area by the display position adjusting means. The visualization display position and the instructor voice visualization display position can be adjusted to positions that do not block the trainee image and the instructor image in the display area.
Thus, the trainer separates the trainer-generated language visualization character at the trainer speech visualization display position and the trainer-generated language visualization character at the trainer speech visualization display position separately from the trainer image and the trainer image, respectively. Can be confirmed.
For this reason, it is possible to easily compare the trainee-generated language visualized character and the trainer-generated language visualized character, and compare the trainer image and the trainer image.
請求項6の発明は、請求項1ないし5のいずれかにおいて、前記訓練者は聴覚障害者であることを特徴とする。
請求項6の発明によれば、上記の表示領域には、聴覚障害者の画像及び指導者の画像を含む撮像画像を表示すると同時に、該撮像画像内に聴覚障害者発生言語可視化文字や指導者発生言語可視化文字を表示することができる。
したがって、聴覚障害者が、表示領域に表示された聴覚障害者発生言語可視化文字と指導者発生言語可視化文字とを比較して、該聴覚障害者発生言語可視化文字が該指導者発生言語可視化文字とは異なることを確認することにより、聴覚障害者自らが発した言語が指導者が発した言語とは異なることを認識することができる。
加えて、聴覚障害者は、聴覚障害者自らが発した言語が指導者が発した言語とは異なることを認識すると同時に、表示領域に表示された指導者の画像によって表される唇の形や動き等を直接的に確認しながら、聴覚障害者の唇の形や動き等を指導者の唇の形や動き等に合わせることが可能となる。
これに伴って、聴覚障害者は、聴覚障害者が発する言語を指導者が発する言語に近づけるように矯正する訓練を効率良く行うことができる。
According to a sixth aspect of the present invention, in any one of the first to fifth aspects, the trainee is a hearing impaired person.
According to the invention of
Accordingly, the hearing impaired person compares the hearing-impaired person generated language visualized character displayed in the display area with the instructor-generated language visualized character, and the hearing impaired person generated language visualized character is By confirming that they are different, it is possible to recognize that the language spoken by the hearing impaired person is different from the language spoken by the instructor.
In addition, the hearing impaired person recognizes that the language spoken by the hearing impaired person is different from the language spoken by the instructor, and at the same time, the lip shape and the lip shape represented by the image of the instructor displayed in the display area. It is possible to match the shape and movement of the hearing impaired person's lips with the shape and movement of the instructor's lips while directly confirming the movement and the like.
Accordingly, the hearing impaired person can efficiently perform training for correcting the language emitted by the hearing impaired person so as to approach the language emitted by the instructor.
本発明の発音訓練装置によれば、表示制御手段によって、訓練者の画像及び指導者の画像を含む撮像画像内における訓練者音声可視化表示位置に訓練者発生言語可視化文字を表示する制御を行うと共に、前記撮像画像内における指導者音声可視化表示位置に指導者発生言語可視化文字を表示する制御を行う。
これにより、上記の表示領域には、訓練者の画像及び指導者の画像を含む撮像画像を表示すると同時に、該撮像画像内に訓練者発生言語可視化文字や指導者発生言語可視化文字を表示することができる。
したがって、訓練者が、表示領域に表示された訓練者発生言語可視化文字と指導者発生言語可視化文字とを比較して、該訓練者発生言語可視化文字が該指導者発生言語可視化文字とは異なることを確認することにより、訓練者自らが発した言語が指導者が発した言語とは異なることを認識することができる。
加えて、訓練者は、訓練者自らが発した言語が指導者が発した言語とは異なることを認識すると同時に、表示領域に表示された指導者の画像によって表される唇の形や動き等を直接的に確認しながら、訓練者の唇の形や動き等を指導者の唇の形や動き等に合わせることが可能となる。
これに伴って、訓練者は、訓練者自らが発する言語を指導者が発する言語に近づけるように矯正する訓練を効率良く行うことができる。
According to the pronunciation training device of the present invention, the display control means performs control to display the trainer-generated language visualization characters at the trainer speech visualization display position in the captured image including the trainer image and the trainer image. Then, control is performed to display the leader-generated language visualized character at the leader voice visualized display position in the captured image.
Thereby, in the above display area, the captured image including the image of the trainer and the image of the instructor is displayed, and at the same time, the trainer-generated language visualization character and the instructor-generated language visualization character are displayed in the captured image. Can do.
Therefore, the trainee compares the trainer-generated language visualized character displayed in the display area with the trainer-generated language visualized character, and the trainer-generated language visualized character is different from the trainer-generated language visualized character. By confirming, it is possible to recognize that the language that the trainee himself has spoken is different from the language that the instructor has spoken.
In addition, the trainer recognizes that the language that the trainee himself has spoken is different from the language that the trainer has spoken, and at the same time the shape and movement of the lips represented by the trainer image displayed in the display area, etc. It is possible to match the shape and movement of the trainee's lips with the shape and movement of the instructor's lips while directly confirming.
Along with this, the trainer can efficiently perform training for correcting the language that the trainee himself speaks to be close to the language that the trainer speaks.
本発明の実施形態1を、図1ないし図7を参照しつつ説明する。図1は、本実施形態の発音訓練装置1の概略構成図である。発音訓練装置1は、測定ユニット10と、増幅器20と、ローパスフィルタ30と、A/D変換器40と、パーソナルコンピュータ50と、ビデオ入出力ユニット60と、大型ディスプレイ70とを備えている。
Embodiment 1 of the present invention will be described with reference to FIGS. FIG. 1 is a schematic configuration diagram of a pronunciation training device 1 according to the present embodiment. The pronunciation training device 1 includes a
図1に示すように、測定ユニット10は、支持部材15A〜15Cと、基台16と、CCDカメラ17と、マイクロフォン支持台18と、マイクロフォンM1〜M5とを備えている。基台16は、支持部材15A〜15Cの上部に配置されている。マイクロフォン支持台18は、カメラ支持部材によって、基台16上に支持されている。カメラ支持部材には、CCDカメラ17が固定されている。マイクロフォン支持台18には、マイクロフォンM1〜M5が、取り付けられている。
As shown in FIG. 1, the
測定ユニット10では、マイクロフォンM1及びマイクロフォンM4によって、一対のマイクロフォンを構成する。マイクロフォンM1とマイクロフォンM4との水平間隔は、所定の距離に保たれている。さらに、マイクロフォンM2及びマイクロフォンM3によって、他の一対のマイクロフォンを構成する。マイクロフォンM2とマイクロフォンM3との水平間隔は、マイクロフォンM1とマイクロフォンM4との水平間隔と同様に、所定の距離に保たれている。一対のマイクロフォンM1、M4は、他の一対のマイクロフォンM2、M3と直交して配置されている。一対のマイクロフォンM1、M4及び他の一対のマイクロフォンM2、M3によって、マイクロフォン群が形成されている。マイクロフォンM5は、各マイクロフォンM1〜M4よりも上方へ突出するように配置されている。マイクロフォンM5と、各マイクロフォンM1〜M4とのそれぞれの対向間隔は、マイクロフォンM1とマイクロフォンM4との水平間隔やマイクロフォンM2とマイクロフォンM3との水平間隔と同じ距離に保たれている。なお、マイクロフォンM5は、本発明の対向マイクロフォンの一例であり、マイクロフォンM1〜M5は、本発明の集音手段の一例である。
In the
各マイクロフォンM1〜M5は、増幅器20に接続されている。増幅器20は、各マイクロフォンM1〜M5から送信された音圧信号を増幅する。増幅器20は、ローパスフィルタ30に接続されている。ローパスフィルタ30によって、フィルタを通過する周波数の帯域が制限され、所定の周波数以下(ここでは4500Hz以下)の音声信号を通過させる。ローパスフィルタ30は、A/D変換器40に接続されている。A/D変換器40は、上記の音圧信号(アナログ信号)をディジタル信号に変換する。ディジタル信号は、パーソナルコンピュータ50に送信される。
Each microphone M <b> 1 to M <b> 5 is connected to the
CCDカメラ17は、ビデオ入出力ユニット60に接続されている。ビデオ入出力ユニット60は、CCDカメラ17から送信された撮像信号(アナログ信号)をディジタル信号に変換する。ビデオ入出力ユニット60によって、ディジタル信号(撮像信号)は、パーソナルコンピュータ50に送信される。
The
パーソナルコンピュータ50は、大型ディスプレイ70に接続されている。符号71は、大型ディスプレイ70の表示領域である。なお、大型ディスプレイ70は、本発明の表示手段の一例である。
The
図2は、パーソナルコンピュータ50の概略ブロック図である。パーソナルコンピュータ50は、キーボード51と、演算処理部52と、記憶部53とを備えている。
FIG. 2 is a schematic block diagram of the
キーボード51は、演算処理部52に接続されている。キーボード51は、マイクロフォンの数、上述したマイクロフォンM1とマイクロフォンM4との間隔、マイクロフォンM2とマイクロフォンM3との間隔、マイクロフォンM5と各マイクロフォンM1〜M4とのそれぞれの間隔、ローパスフィルタ30を通過させる周波数の設定値等を入力するために用いられる。
The
演算処理部52は、記憶部53、スピーカ54及び大型ディスプレイ70にそれぞれ接続されている。記憶部53は、ディジタル信号(音圧信号)演算処理プログラム記憶部53Aと、発音訓練データ処理プログラム記憶部53Bと、画像表示制御プログラム記憶部53Cと、データ記憶部53Dとを備えている。ディジタル信号(音圧信号)演算処理プログラム記憶部53Aには、後述する周波数分析処理(S5)、音源位置特定処理(S6)、表示画像座標変換処理(S8)等を実行するプログラムが記憶されている。発音訓練データ処理プログラム記憶部53Bには、後述する発音訓練用言語選択処理(S3)、言語認識処理(S7)、発音訓練用言語表示位置調整処理(S9)、文字変換処理(S10)、発音訓練正誤判定処理(S11)を実行するプログラムが記憶されている。画像表示制御プログラム記憶部53Cには、後述する発音訓練画像表示処理(S12)を実行するプログラム等が記憶されている。また、データ記憶部53Dには、大量の音声サンプルを収集して解析したメル周波数ケプストラム係数(MFCC)の基準データが記憶されている。
The
演算処理部52は、後述するように、CCDカメラ17によって撮像された発音の指導者及び聴覚障害者の各撮像画像の画像データや、指導者や聴覚障害者がそれぞれ発した音声を文字に変換した文字画像データに基づいて、上記の表示領域71に表示する表示画像の画像信号、前記文字画像データに関する信号、指導者や聴覚障害者がそれぞれ発した音声に関する音声信号を生成する。続いて、演算処理部52は、生成した画像信号等を大型ディスプレイ70に送信し、表示領域71に、撮像画像に重ね、指導者や聴覚障害者がそれぞれ発した音声に対応させた文字画像を表示する。加えて、演算処理部52は、上記の音声信号をスピーカ54に出力し、スピーカ54は、音声によって指導者や聴覚障害者がそれぞれ発した言語を流す。
As will be described later, the
次に、演算処理部52が表示領域71に指導者及び聴覚障害者のそれぞれの撮像画像、該指導者や該聴覚障害者が発した音声を文字に変換した文字画像を表示する処理について説明する。聴覚障害者は、本発明の訓練者の一例である。発音訓練装置1の電源が投入されると、演算処理部52は、図3に示すように、初期設定処理(S1)を実行する。初期設定処理(S1)では、上記のキーボード51によって入力されたマイクロフォンの数(ここでは5個)、上述したマイクロフォンM1とマイクロフォンM4との間隔、マイクロフォンM2とマイクロフォンM3との間隔、マイクロフォンM5と各マイクロフォンM1〜M4との間隔、ローパスフィルタ30を通過させる周波数の設定値を、データ記憶部53Dに記憶する処理を実行する。
Next, a description will be given of a process in which the
演算処理部52は、初期設定処理(S1)の後に、初期画面表示処理(S2)を実行する。初期画面表示処理(S2)では、上記の画像表示制御プログラム記憶部53Cに記憶されたプログラムを実行することにより、初期画像として、表示領域71に、発声訓練用の言語の選択メニュー画面を表示する処理を実行する。指導者は、選択メニュー画面によって表示された発声訓練用の言語の内から任意の発声訓練用の言語を選択することができる。選択メニュー画面には、後述する訓練用言語表示位置調整ボタンも表示される。
The
演算処理部52は、初期画面表示処理(S2)の後に、発音訓練用言語選択処理(S3)を実行する。発音訓練用言語選択処理(S3)では、指導者によって、上記の選択メニュー画面から、発声訓練用の言語が選択されたか否かを判断する。ここでは、演算処理部52が、指導者によって選択された発音訓練用言語のデータ(発音訓練用言語データ)がデータ記憶部53Dに記憶されているか否かを判断する。発音訓練用言語選択処理(S3)では、発音訓練用の言語が選択されたと判断するまで、該発音訓練用の言語が選択された否かの判断が繰り返し行われる。発音訓練用言語選択処理(S3)では、指導者によって選択された発音訓練用言語データに応じ、文字画像データ(例えば、「ひ」と発音してください。)を生成し、該文字画像データをデータ記憶部53Dに記憶する処理を実行する。
The
演算処理部52は、発音訓練用言語選択処理(S3)の後に、入力信号取得処理(S4)を実行する。入力信号取得処理(S4)では、指導者が発した音声(指導者音声)や聴覚障害者が発した音声(聴覚障害者音声)のそれぞれの音圧レベル(音圧信号)、指導者音声(例えば、図6中の「ひ」)に関する音声信号、聴覚障害者音声(例えば、図6中の「い」)に関する音声信号、上記の撮像信号を取得する処理を実行する。ここでは、上記のマイクロフォンM1〜M5によって検出された音圧信号、音声信号及び上記の撮像信号が、図2に示すように、ディジタル信号として、演算処理部52に入力される。その後、演算処理部52は、音圧信号(音圧レベルデータ)、音声信号(音声データ)及び撮像信号(撮像データ)を、データ記憶部53Dにそれぞれ記憶する処理を実行する。
The
演算処理部52は、入力信号取得処理(S4)の後に、周波数分析処理(S5)を実行する。周波数分析処理(S5)では、上記のディジタル信号(音圧信号)演算処理プログラム記憶部53Aに記憶されたプログラム(フーリエ変換処理プログラム)を用い、入力信号取得処理(S4)によって取得された音圧信号の音圧レベルを分析し、周波数のスペクトル分布を解析する処理を実行する。その後、周波数分析処理(S5)では、周波数のスペクトル分布に基づいて、MFCCを算出する。ここでは、一例として、周波数分析処理(S5)により、指導者音声及び聴覚障害者音声の各周波数スペクトル分布に基づいて、それぞれ12個のMFCCを算出した。加えて、周波数分析処理(S5)では、MFCCのデータをデータ記憶部53Dに記憶する処理を実行する。
The
演算処理部52は、周波数分析処理(S5)の後に、音源位置特定処理(S6)を実行する。音源位置特定処理(S6)では、ディジタル信号(音圧信号)演算処理プログラム記憶部53Aに記憶されたプログラムを用い、双曲線法によって、マイクロフォン群原点位置O(図4参照。)と位置P1、P2(図4参照。)との間の水平角度θ(図4参照。)を算出する処理を実行する。水平角度θのデータは、データ記憶部53Dに記憶される。マイクロフォン群原点位置Oは、マイクロフォンM1とマイクロフォンM4とを結ぶ直線と、マイクロフォンM2とマイクロフォンM3とを結ぶ直線とが交わる位置である。位置P1は、指導者音声が発せられた位置(指導者音声発生位置)であり、位置P2は、聴覚障害者音声が発せられた位置(聴覚障害者音声発生位置)である。図中の符号L1は、マイクロフォン群原点位置Oに正対した位置O1から位置P1、P2までの水平距離であり、符号L2は、マイクロフォン群原点位置Oから位置O1までの距離である。また、符号L4は、位置O1から下方に延ばした垂直線と、位置P1、P2から左方に向けて延ばした水平線との交点O2が、位置O1から離れた距離である。
The
水平角度θの値は、マイクロフォンM1とマイクロフォンM4との間の距離、マイクロフォンM2とマイクロフォンM3との間の距離、位置P1における指導者音声又は位置P2における聴覚障害者音声が一対のマイクロフォンM1、M4に到達する時間差、位置P1における指導者音声又は位置P2における聴覚障害者音声が他の一対のマイクロフォンM2、M3に到達する時間差によって変化する。水平角度θは、下記の式(1)を用いて算出される。なお、DXは、一対のマイクロフォンM1、M4における指導者音声又は聴覚障害者音声の到達時間差であり、DYは、他の一対のマイクロフォンM2、M3における指導者音声又は聴覚障害者音声の到達時間差である。
θ=tan−1(DY/DX)・・・(1)
The value of the horizontal angle θ is the distance between the microphone M1 and the microphone M4, the distance between the microphone M2 and the microphone M3, the voice of the instructor at the position P1 or the voice of the hearing impaired person at the position P2, and the pair of microphones M1 and M4. , And the voice of the instructor at position P1 or the voice of the hearing impaired person at position P2 varies depending on the time difference of reaching the other pair of microphones M2 and M3. The horizontal angle θ is calculated using the following formula (1). Note that DX is the arrival time difference between the leader voice or hearing impaired person voice in the pair of microphones M1 and M4, and DY is the arrival time difference between the leader voice or hearing impaired person voice in the other pair of microphones M2 and M3. is there.
θ = tan −1 (DY / DX) (1)
また、音源位置特定処理(S6)では、マイクロフォンM1〜M4に加え、上記のマイクロフォンM5を用いることにより、下記の式(2)を用い、位置P1、P2からマイクロフォン群原点位置Oを見上げた仰角φ(図4参照。)を算出する。仰角φのデータは、データ記憶部53Dに記憶される。なお、下記のDZ1は、マイクロフォンM5、M1における指導者音声又は聴覚障害者音声の到達時間差、DZ2は、マイクロフォンM5、M2における指導者音声又は聴覚障害者音声の到達時間差、DZ3は、マイクロフォンM5、M3における指導者音声又は聴覚障害者音声の到達時間差、DZ4は、マイクロフォンM5、M4における指導者音声又は聴覚障害者音声の到達時間差をそれぞれ示す。
φ=tan−1{(DZ1+DZ2+DZ3+DZ4)/[2×√3×(√DX2+√DY2)]}・・・(2)
Further, in the sound source position specifying process (S6), by using the above-described microphone M5 in addition to the microphones M1 to M4, the following angle (2) is used to look up the microphone group origin position O from the positions P1 and P2. φ (see FIG. 4) is calculated. The data of the elevation angle φ is stored in the
φ = tan −1 {(DZ1 + DZ2 + DZ3 + DZ4) / [2 × √3 × (√DX 2 + √DY 2 )]} (2)
音源位置特定処理(S6)では、双曲線法を用いることにより、マイクロフォンM1とマイクロフォンM4との間を通過する双曲線軌跡、マイクロフォンM2とマイクロフォンM3との間を通過する双曲線軌跡、マイクロフォンM5と各マイクロフォンM1〜M4との間をそれぞれ通過する双曲線軌跡が交わる点を、位置P1、P2として算出することができる。なお、演算処理部52は、本発明の位置特定手段の一例である。
In the sound source position specifying process (S6), by using the hyperbolic method, a hyperbolic trajectory passing between the microphone M1 and the microphone M4, a hyperbolic trajectory passing between the microphone M2 and the microphone M3, the microphone M5 and each microphone M1. The points at which the hyperbola trajectories passing through M4 intersect can be calculated as positions P1 and P2. The
演算処理部52は、音源位置特定処理(S6)の後に、言語認識処理(S7)を実行する。言語認識処理(S7)では、発音訓練データ処理プログラム記憶部53Bから言語認識プログラムを読み出す。言語認識プログラムは、日本語の認識機能を利用して単語を抽出するプログラムである。その後、言語認識処理(S7)では、言語認識プログラムによって、入力信号取得処理(S4)にて取得した指導者音声(図6中の「ひ」)及び聴覚障害者音声(図6中の「い」)の各音声信号から日本語(ここでは、「ひ」「い」)を抽出する処理を実行する。なお、演算処理部52は、本発明の言語認識手段の一例である。また、日本語「ひ」は本発明の指導者発声言語の一例であり、日本語「い」は本発明の訓練者発声言語の一例である。
The
演算処理部52は、言語認識処理(S7)の後に、表示画像座標変換処理(S8)を実行する。表示画像座標変換処理(S8)では、位置P1(指導者音声発生位置)及び位置P2(聴覚障害者音声発生位置)を、表示領域71の表示位置に相関付けするための処理を実行する。ここでは、図5に示すように、表示領域71の横方向Xを上記の水平角度θ、表示領域71の縦方向を上記の仰角φと対応付けし、位置P1、P2に対応する表示領域71の表示位置を算出する。
The
その後、演算処理部52は、音源位置特定処理(S6)によって算出した水平角度θに任意の水平角度を加算した補正水平角度を算出する処理、該音源位置特定処理(S6)によって算出した仰角φに任意の仰角φを加算した補正仰角を算出する処理を実行する。これにより、補正水平角度に対応する表示領域71の表示位置P5(図6参照。)及び補正仰角に対応する表示領域71の表示位置P6(図6参照。)を、指導者75(図6参照。)の口の画像及び聴覚障害者76(図6参照。)の口の画像をそれぞれ遮ることがない位置に調整することができる。
Thereafter, the
続いて、表示画像座標変換処理(S8)では、表示位置P5、P6のデータを、データ記憶部53Dに記憶する処理を実行する。なお、演算処理部52は、本発明の相関手段の一例である。また、表示位置P5は本発明の指導者音声可視化表示位置の一例であり、表示位置P6は本発明の訓練者音声可視化表示位置の一例である。
Subsequently, in the display image coordinate conversion process (S8), a process of storing the data of the display positions P5 and P6 in the
演算処理部52は、表示画像座標変換処理(S8)の後に、発音訓練用言語表示位置調整処理(S9)を実行する。発音訓練用言語表示位置調整処理(S9)では、データ記憶部53Dに、上記の表示位置P5、P6の各調整データ(水平角度θ、仰角φ)が記憶されているか否かを判断する。各調整データは、上述した訓練用言語表示位置調整ボタンにより、指導者や聴覚障害者が水平角度θや仰角φを指定し、水平角度θや仰角φを任意の値に設定することができる。これにより、例えば、図6に示すように、任意に設定した値に対応する表示位置P5、P6を、指導者75の画像や聴覚障害者76の画像をそれぞれ遮ることがない位置に調整することができる。なお、演算処理部52及び訓練用言語表示位置調整ボタンは、本発明の表示位置調整手段の一例である。
The
その後、発音訓練用言語表示位置調整処理(S9)では、データ記憶部53Dに各調整データが記憶されていると判断した場合には、上記の表示画像座標変換処理(S8)によってデータ記憶部53Dに記憶された表示位置P5、P6のデータに各調整データを上書きする処理を実行する。
Thereafter, in the pronunciation training language display position adjustment process (S9), when it is determined that each adjustment data is stored in the
一方、発音訓練用言語表示位置調整処理(S9)では、データ記憶部53Dに各調整データが記憶されていないと判断した場合には、表示画像座標変換処理(S8)によってデータ記憶部53Dに記憶された表示位置P5、P6のデータを保持する処理を実行する。
On the other hand, in the pronunciation training language display position adjustment process (S9), if it is determined that each adjustment data is not stored in the
演算処理部52は、発音訓練用言語表示位置調整処理(S9)の後に、文字変換処理(S10)を実行する。文字変換処理(S10)では、発音訓練データ処理プログラム記憶部53Bから文字変換プログラムを読み出す。文字変換プログラムは、言語認識処理(S7)によって抽出された単語を文字に変換するプログラムである。ここでは、言語認識処理(S7)によって抽出した単語(「ひ」「い」)を、「ひ」の文字及び「い」の文字に変換する。後述の図6に示すように、「ひ」の文字及び「い」の文字は、表示領域71に表示されることにより可視化される。これにより、目視にて指導者75及び聴覚障害者76が、「ひ」の文字及び「い」の文字を確認することができる。「ひ」「い」の各文字の画像データは、データ記憶部53Dに記憶される。なお、演算処理部52は、本発明の文字変換手段の一例である。また、文字「ひ」は本発明の指導者発声言語可視化文字の一例であり、文字「い」は本発明の訓練者発声言語可視化文字の一例である。
The
さらに、文字変換処理(S10)では、データ記憶部53Dから、入力信号取得処理(S4)によって取得した音圧レベルデータを読み出す。次に、文字変換処理(S10)では、音圧レベルデータを、予め設定された閾値のデータと比較する。ここでは、音圧レベルと閾値のデータとを比較した結果に応じ、「ひ」「い」の各文字の大きさを、大、中、小の各大きさに設定した文字画像データを生成する。大、中、小の各大きさに設定された文字画像データは、データ記憶部53Dに記憶される。なお、聴覚障害者音声の音圧レベルは、本発明の聴覚障害者音声の音量の一例であり、指導者音声の音圧レベルは、本発明の指導者音声の音量の一例である。
Further, in the character conversion process (S10), the sound pressure level data acquired by the input signal acquisition process (S4) is read from the
演算処理部52は、文字変換処理(S10)の後に、発音訓練正誤判定処理(S11)を実行する。発音訓練正誤判定処理(S11)では、データ記憶部53Dから、MFCCの基準データ、周波数分析処理(S5)によって算出したMFCCのデータをそれぞれ読み出す。その後、発音訓練正誤判定処理(S11)では、前記基準データに基づいて、MFCCの基準分布範囲を決定する。さらに、発音訓練正誤判定処理(S11)では、上述した12個のMFCCに基づいて、指導者音声のMFCCの分布範囲を決定すると共に、該12個のMFCCとは異なる他の12個のMFCCに基づいて、聴覚障害者音声のMFCCの分布範囲を決定する。続いて、発音訓練正誤判定処理(S11)では、指導者音声のMFCCの分布範囲及び聴覚障害者音声のMFCCの分布範囲を、MFCCの基準分布範囲とそれぞれ比較し、指導者音声のMFCCの分布範囲を含む指導者音声基準分布範囲及び聴覚障害者音声のMFCCの分布範囲を含む聴覚障害者音声基準分布範囲をそれぞれ選定する。次に、発音訓練正誤判定処理(S11)では、聴覚障害者音声基準分布範囲が、指導者音声基準分布範囲に含まれるか否かを判断する。
The
発音訓練正誤判定処理(S11)では、聴覚障害者音声基準分布範囲が、指導者音声基準分布範囲に含まれると判断したときは、指導者音声(例えば「ひ」)と聴覚障害者音声(「ひ」)とが一致し、聴覚障害者が指導者に合わせて正しい発声を行っている正解判定を行う。さらに、発音訓練正誤判定処理(S11)では、正解判定の結果に応じ、判定結果表示用の文字画像データ(例えば、「正しく発音されています。」)を生成し、該文字画像データをデータ記憶部53Dに記憶する。
In the pronunciation training correct / incorrect determination process (S11), when it is determined that the voice reference distribution range of the hearing impaired person is included in the leader voice reference distribution range, the voice of the leader (for example, “hi”) and the voice of the hearing impaired person (“ Hi)) matches, and the correct answer judgment that the hearing impaired person is speaking correctly in accordance with the instructor is performed. Further, in the pronunciation training correct / incorrect determination process (S11), character image data (for example, “correctly pronounced”) for displaying the determination result is generated according to the correct determination result, and the character image data is stored in the data. Store in the
一方、聴覚障害者音声基準分布範囲が、指導者音声基準分布範囲に含まれないと判断したときは、指導者音声(例えば「ひ」)と聴覚障害者音声(例えば「い」)とが一致せず、聴覚障害者が指導者とは異なる誤った発声を行っている不正解判定を行う。発音訓練正誤判定処理(S11)では、不正解判定の結果に応じ、判定結果表示用の文字画像データ(例えば、「誤って発音されています。」)を生成し、該文字画像データをデータ記憶部53Dに記憶する。なお、演算処理部52は、本発明の判定手段の一例である。
On the other hand, when it is determined that the voice reference distribution range of the hearing impaired person is not included in the leader voice reference distribution range, the voice of the leader (eg, “hi”) matches the voice of the hearing impaired person (eg, “i”). Without correct judgment, the hearing-impaired person is making a wrong utterance different from the leader. In the pronunciation training correct / incorrect determination process (S11), character image data for displaying the determination result (for example, “pronounced pronunciation in error”) is generated according to the result of the incorrect answer determination, and the character image data is stored as data. Store in the
演算処理部52は、発音訓練正誤判定処理(S11)の後に、発音訓練画像表示処理(S12)を実行する。発音訓練画像表示処理(S12)では、画像表示制御プログラム53Cに記憶されたプログラムを用い、入力信号取得処理(S4)によって取得された撮像信号に相当する撮像画像の画像データ、文字変換処理(S10)によって生成された文字画像データ等に基づいて、表示画像座標変換処理(S8)、発音訓練用言語表示位置調整処理(S9)によって決定された表示位置に、指導者音声や聴覚障害者音声をそれぞれ文字に変換した画像を表示する処理を実行する。なお、演算処理部52は、本発明の表示制御手段の一例である。
The
図6には、上述した選択メニュー画面により、発音訓練用の単語として、指導者75が「ひ」を選択し、聴覚障害者76が指導者75とは異なる誤った発声を行っている場合の表示画像の例を示した。上記の位置P1(図4参照。)において、指導者75が「ひ」の音声を発すると共に、聴覚障害者76が、「ひ」と発声しているつもりであっても「い」と発声した場合には、発音訓練画像表示処理(S12)では、以下の処理を実行する。発音訓練画像表示処理(S12)では、データ記憶部53Dから、発音訓練用言語選択処理(S3)によって該データ記憶部53Dに記憶された文字画像データ(「ひ」と発音してください。)、文字変換処理(S10)によって該データ記憶部53Dに記憶された文字画像データ(「ひ」「い」の各文字画像データ)、発音訓練正誤判定処理(S11)によって該データ記憶部53Dに記憶された文字画像データ(「誤って発音されています。」)等を読み出す。さらに、発音訓練画像表示処理(S12)では、入力信号取得処理(S4)によって前記データ記憶部53Dに記憶された撮像画像データ等を読み出す。
FIG. 6 shows a case where the
図6に示すように、発音訓練画像表示処理(S12)では、撮像画像(指導者75及び聴覚障害者76)に重ねて、文字画像(「ひ」と発音してください。)を表示する。その後、表示画像座標変換処理(S8)や発音訓練用言語表示位置調整処理(S9)によってデータ記憶部53Dに記憶されたデータに基づいて、表示位置P5には、円で囲まれた領域内に「ひ」の文字画像を表示すると共に、表示位置P6には、円で囲まれた領域内に「い」の文字画像を表示する。ここでは、聴覚障害者音声の音圧レベルが、指導者音声の音圧レベルと一致しており、「い」の文字画像の大きさと「ひ」の文字画像の大きさが同じ場合の画像例を示した。
As shown in FIG. 6, in the pronunciation training image display process (S12), a character image (pronounce “hi”) is displayed over the captured image (the
続いて、図示するように、表示領域71には、「誤って発音されています。」の文字画像を表示する。これにより、聴覚障害者76に対し、該聴覚障害者76の音声が、指導者75の音声とは異なった音声であることや、両表示位置P5、P6における文字画像が互いに異なることを、表示領域71の画像を通じてそれぞれ知らせることができる。聴覚障害者76は、表示領域71の画像を見ながら、指導者75の唇の形や動き等を直接的に確認すると共に、表示位置P5、P6の文字画像や判定結果を表示する文字画像(「誤って発音されています。」等)を見ながら、聴覚障害者76が発する言語を、指導者75の発する言語(ここでは「ひ」)に近づける訓練を行う。なお、演算処理部52は、本発明の判定結果表示制御手段の一例である。
Subsequently, as shown in the figure, the
一方、聴覚障害者76が発する言語が指導者75が発する言語(「ひ」)と一致し、上記の発音訓練正誤判定処理(S11)によって正解判定がなされたときは、表示位置P6には、「ひ」の文字画像を表示すると共に、図6中の「誤って発音されています。」の文字画像に代えて「正しく発音されています。」の文字画像を表示する。これにより、聴覚障害者76に対し、該聴覚障害者76が発する言語が指導者75が発する言語と一致していることを知らせることができる。
On the other hand, when the language of the hearing impaired
また、聴覚障害者音声の音圧レベルが、指導者音声の音圧レベルと一致しないときは、データ記憶部53Dに記憶された文字画像データ(「ひ」「い」の各文字画像データ)に基づいて、図7に示すように、表示位置P5における「ひ」の文字画像と、表示位置P6における「い」の文字画像とを、異なる大きさで表示する。図示の例は、指導者音声の音圧レベルに比べて聴覚障害者音声の音圧レベルが低いため、「ひ」の文字画像に比べて「い」の文字画像を小さく表示したことを示す。
When the sound pressure level of the hearing impaired person voice does not match the sound pressure level of the instructor voice, the character image data stored in the
発音訓練画像表示処理(S12)の後には、演算処理部52が、発音訓練を続けるか否かを判断する(S13)。ここでは、演算処理部52が、発音訓練装置1の電源がオン状態又はオフ状態であることを判断する。S13において、電源がオン状態であって発音訓練を続けると判断した場合には、上述した各処理(S2〜S12)を繰り返して実行する。一方、S13において、電源がオフ状態であって発音訓練を終了すると判断した場合には、上述した各処理(S2〜S12)を終了する。
After the pronunciation training image display process (S12), the
<本実施形態の効果>
本実施形態の発音訓練装置1では、発音訓練画像表示処理(S12)によって、表示領域71に、聴覚障害者76及び指導者75の各画像を表示すると同時に、表示領域71内の表示位置P6に「い」の文字画像及び該表示領域71内の表示位置P5に「ひ」の文字画像をそれぞれ表示することができる。
したがって、聴覚障害者76が、表示領域71に表示された「ひ」の文字画像と「い」の文字画像とを比較して、聴覚障害者音声(「い」)が指導者音声(「ひ」)とは異なることを確認することにより、聴覚障害者76が発した言語が指導者75が発した言語とは異なることを認識することができる。
加えて、聴覚障害者76は、該聴覚障害者76が発した言語が指導者75が発した言語とは異なることを認識すると同時に、表示領域71に表示された指導者75の画像によって表される唇の形や動き等を直接的に確認しながら、聴覚障害者76の唇の形や動き等を指導者75の唇の形や動き等に合わせることが可能となる。
これに伴って、聴覚障害者76は、該聴覚障害者76が発する言語を指導者75が発する言語に近づけるように矯正する訓練を効率良く行うことができる。
<Effect of this embodiment>
In the pronunciation training device 1 of the present embodiment, each image of the hearing impaired
Therefore, the hearing impaired
In addition, the hearing impaired
Accordingly, the hearing impaired
また、音源位置特定処理(S6)によって、位置P1における指導者音声及び位置P2における聴覚障害者音声がそれぞれ一対のマイクロフォンM1、M4に到達する時間差、該指導者音声及び該聴覚障害者音声が他の一対のマイクロフォンM2、M3に到達する時間差、該指導者音声及び該聴覚障害者音声がマイクロフォンM5と各マイクロフォンM1〜M4との間にそれぞれ到達する時間差を用い、双曲線法によって、位置P1、P2を算出する。
このため、指導者音声が発せられた位置P1や聴覚障害者音声P2が発せられた位置が順次変化した場合であっても、双曲線法により、マイクロフォンM1とマイクロフォンM4との間を通過する双曲線軌跡、マイクロフォンM2とマイクロフォンM3との間を通過する双曲線軌跡及びマイクロフォンM5と各マイクロフォンM1〜M4との間をそれぞれ通過する双曲線軌跡を、順次算出することができる。
これにより、マイクロフォンM1とマイクロフォンM4との間を通過する双曲線軌跡、マイクロフォンM2とマイクロフォンM3との間を通過する双曲線軌跡及びマイクロフォンM5と各マイクロフォンM1〜M4との間をそれぞれ通過する双曲線軌跡がそれぞれ交わる点を、指導者音声が発せられた位置P1や聴覚障害者音声が発せられた位置P2として算出することができる。
In addition, by the sound source position specifying process (S6), the time difference between the voice of the instructor at position P1 and the voice of the hearing impaired person at position P2 reaching the pair of microphones M1 and M4, respectively, The positions P1, P2 are determined by the hyperbolic method using the time difference between the microphones M2 and M3 and the time difference between the microphone M5 and each of the microphones M1 to M4. Is calculated.
For this reason, even if the position P1 where the instructor's voice is emitted and the position where the hearing impaired person's voice P2 is sequentially changed, a hyperbolic locus passing between the microphone M1 and the microphone M4 by the hyperbolic method. The hyperbolic trajectory passing between the microphone M2 and the microphone M3 and the hyperbolic trajectory passing between the microphone M5 and each of the microphones M1 to M4 can be sequentially calculated.
Accordingly, a hyperbolic trajectory passing between the microphone M1 and the microphone M4, a hyperbolic trajectory passing between the microphone M2 and the microphone M3, and a hyperbolic trajectory passing between the microphone M5 and each of the microphones M1 to M4, respectively. The intersecting points can be calculated as the position P1 where the instructor voice is emitted and the position P2 where the hearing impaired person voice is emitted.
さらに、発音訓練画像表示処理(S12)によって、表示領域71に、正解判定結果表示用の文字画像(「正しく発音されています。」)もしくは不正解判定結果用の文字画像(「誤って発音されています。」)の文字画像を表示する。
これにより、表示領域71に表示された文字画像(「正しく発音されています。」もしくは「誤って発音されています。」)に基づいて、聴覚障害者76は、該聴覚障害者76が発した言語が指導者75が発した言語に一致する正しい発音ができているか否かを、一目で簡単に確認することができる。
Further, by the pronunciation training image display process (S12), the character image for displaying the correct answer determination result (“pronounced correctly”) or the character image for the incorrect answer determination result (“pronounced pronounced incorrectly”) is displayed in the
Thus, based on the character image (“pronounced pronounced correctly” or “pronounced pronounced”) displayed in the
加えて、聴覚障害者音声の音圧レベルが、指導者音声の音圧レベルと一致している場合には、発音訓練画像表示処理(S12)によって、図6に示すように、表示位置P6における聴覚障害者音声の文字画像「い」の大きさが、表示位置P5における指導者音声の文字画像「ひ」の大きさと同じになる。
一方、指導者音声の音圧レベルに比べて聴覚障害者音声の音圧レベルが低い場合には、発音訓練画像表示処理(S12)によって、図7に示すように、表示位置P6における聴覚障害者音声の文字画像「い」の大きさが、表示位置P5における指導者音声の文字画像「ひ」の大きさよりも小さくなる。
このため、聴覚障害者76は、「い」の文字画像の大きさと「ひ」の文字画像の大きさとを比較して、聴覚障害者音声の音圧レベルが指導者音声の音圧レベルに一致するか否かを判断することができる。
In addition, when the sound pressure level of the hearing impaired person's voice matches the sound pressure level of the instructor's voice, the pronunciation training image display process (S12) performs display at the display position P6 as shown in FIG. The size of the character image “I” of the hearing impaired person voice is the same as the size of the character image “HI” of the instructor voice at the display position P5.
On the other hand, when the sound pressure level of the hearing impaired person voice is lower than the sound pressure level of the instructor voice, the pronunciation training image display process (S12) causes the hearing impaired person at the display position P6 as shown in FIG. The size of the voice character image “I” is smaller than the size of the character image “HI” of the instructor voice at the display position P5.
For this reason, the hearing impaired
さらに加えて、上述したように、発音訓練用言語表示位置調整処理(S9)によって、図6及び図7に示すように、表示位置P5、P6を、指導者75の画像や聴覚障害者76の画像をそれぞれ遮ることがない位置に調整することができる。
これにより、聴覚障害者76は、表示位置P5における指導者音声の文字画像「ひ」及び表示位置P6における聴覚障害者音声の文字画像「い」を、聴覚障害者76の画像及び指導者75の画像からぞれぞれ離して別個に確認することができる。
このため、聴覚障害者音声の文字画像「い」と指導者音声の文字画像「ひ」との比較や、聴覚障害者76の画像と指導者75の画像との比較をそれぞれ容易に行うことができる。
In addition, as described above, by the pronunciation training language display position adjustment process (S9), as shown in FIGS. 6 and 7, the display positions P5 and P6 are changed to the images of the
As a result, the hearing impaired
For this reason, it is possible to easily compare the character image “I” of the hearing impaired person voice with the character image “hi” of the instructor voice, and the image of the hearing impaired
本発明は、上述した実施形態に限定されるものではなく、発明の趣旨を逸脱しない範囲内において構成の一部を適宜変更して実施することができる。本実施形態の発音訓練装置は、ひとりの聴覚障害者76に限らず、2人以上の聴覚障害者76及び指導者75の各撮像画像等を表示領域71に表示し、2人以上の聴覚障害者76が、各撮像画像を見ることにより、指導者75の唇の形や動き等を直接的に確認しながら発音訓練を行うことに適用してもよい。これにより、一度に2人以上の聴覚障害者76が発音訓練を行うことができ、2人以上の聴覚障害者76が効率的に発音訓練を行うことができる。
The present invention is not limited to the embodiment described above, and can be implemented by appropriately changing a part of the configuration without departing from the spirit of the invention. The pronunciation training apparatus according to the present embodiment displays not only one hearing impaired
また、本実施形態の発音訓練装置は、入力信号取得処理(S4)によって取得した音圧レベルデータに基づいて、各表示位置P5、P6における文字の大きさを大、中、小の3段階に設定することに限定せず、各表示位置P5、P6には、3段階以上の複数の段階に亘って設定された大きさにより、「ひ」「い」等の各文字を表示してもよい。 In addition, the pronunciation training device of the present embodiment has three levels of large, medium, and small characters at the display positions P5 and P6 based on the sound pressure level data acquired by the input signal acquisition process (S4). Not limited to the setting, each display position P5, P6 may display characters such as “hi” and “i” depending on the size set in a plurality of stages of three or more. .
さらに、本実施形態の発音訓練装置は、指導者音声と聴覚障害者音声とが一致することを判断する方法をして、MFCCを用いることに限定せず、入力信号取得処理(S4)によって取得した音声信号に基づいて算出した音声特徴ベクトルや、音声特徴ベクトルとMFCCとの組み合わせを用いたり、確率モデル(例えば、Hidden Markov Model)等を用いてもよい。 Furthermore, the pronunciation training device according to the present embodiment uses a method for determining whether the voice of the instructor and the hearing impaired person match, and is not limited to using MFCC, but is acquired by the input signal acquisition process (S4). A speech feature vector calculated based on the speech signal, a combination of the speech feature vector and MFCC, or a probabilistic model (eg, Hidden Markov Model) may be used.
加えて、本実施形態の発音訓練装置は、聴覚障害者76の発音訓練に限定せず、例えば、幼児や、日本語を学習する外国人が行う発音訓練にそれぞれ適用してもよい。
In addition, the pronunciation training device of the present embodiment is not limited to the pronunciation training for the hearing impaired
さらに加えて、本実施形態の発音訓練装置は、単語の発音訓練に限定せず、単文や長文の発音訓練に適用してもよい。さらに、発音訓練装置は、日本語の発音訓練に限定せず、外国語の発音訓練に適用してもよい。 In addition, the pronunciation training device of the present embodiment is not limited to word pronunciation training, and may be applied to pronunciation training of simple sentences and long sentences. Furthermore, the pronunciation training device is not limited to Japanese pronunciation training, and may be applied to foreign language pronunciation training.
また、本実施形態の発音訓練装置は、聴覚障害者76が指導者75に合わせて正しい発声を行っているか否かを判定することに加え、聴覚障害者76の発音を矯正するために、適宜のメッセージ画像等を表示領域71に表示してもよい。例えば、表示領域71に、唇の形や動き等を具体的に聴覚障害者76へ知らせるメッセージ画像(例えば、「唇を丸めて発音してください。」)等を表示してもよい。これより、聴覚障害者76は、表示領域71に表示されたメッセージ画像等に従って発音訓練を繰り返すことにより、聴覚障害者76の唇の形や動き等を、指導者75の唇の形や動き等に近づけることができる。したがって、聴覚障害者76の発音を指導者75の発音に一致させるように矯正することができる。
In addition to determining whether or not the hearing impaired
1・・発音訓練装置、17・・CCDカメラ、52・・演算処理部、70・・大型ディスプレイ、71・・表示領域、75・・指導者、76・・聴覚障害者、M1〜M5・・マイクロフォン、P1・・指導者音声発生位置、P2・・聴覚障害者音声発生位置、P5、P6・・表示領域の表示位置 1 .... Pronunciation training device, 17 .... CCD camera, 52 ... Operation processing unit, 70 ... Large display, 71 ... Display area, 75 ... Leader, 76 ... Hearing impaired, M1-M5 ... Microphone, P1 .. Leader voice generation position, P2 .. Hearing impaired voice generation position, P5, P6 .. Display area display position
Claims (6)
前記訓練者が発した音声である訓練者音声及び前記指導者が発した音声である指導者音声をそれぞれ集音可能な集音手段と、
前記集音手段によって集音した前記訓練者音声及び前記指導者音声に基づいて、該訓練者音声が発せられた訓練者音声発生位置及び該指導者音声が発せられた指導者音声発生位置をそれぞれ特定する位置特定手段と、
前記位置特定手段によって特定した前記訓練者音声発生位置と、前記表示領域に表示する撮像画像内における訓練者音声可視化表示位置とを相関付けすると共に、前記位置特定手段によって特定した前記指導者音声発生位置と、前記表示領域に表示する撮像画像内における指導者音声可視化表示位置とを相関付けする相関手段と、
前記訓練者音声発生位置において前記訓練者が発した言語である訓練者発生言語及び前記指導者音声発生位置において前記指導者が発した言語である指導者発生言語をそれぞれ認識する言語認識手段と、
前記言語認識手段によって認識した前記訓練者発生言語を可視化した訓練者発生言語可視化文字に変換すると共に、前記言語認識手段によって認識した前記指導者発生言語を可視化した指導者発生言語可視化文字に変換する文字変換手段と、
前記相関手段によって前記訓練者音声発生位置と相関付けされた前記訓練者音声可視化表示位置に前記訓練者発生言語可視化文字を表示する制御を行うと共に、前記相関手段によって前記指導者音声発生位置と相関付けされた前記指導者音声可視化表示位置に前記指導者発生言語可視化文字を表示する制御を行う表示制御手段と、
を備えることを特徴とする発音訓練装置。 Display means having a display area capable of displaying a captured image including an image of a trainee and an image of an instructor captured by a camera;
Sound collecting means capable of collecting each of the trainer voice that is the voice that the trainer has uttered and the leader voice that is the voice that the trainer has uttered;
Based on the trainer voice and the instructor voice collected by the sound collection means, the trainer voice generation position from which the trainer voice is generated and the instructor voice generation position from which the instructor voice is generated, respectively. A position identification means to identify;
The trainer voice generation position specified by the position specifying means and the trainer voice visualization display position in the captured image displayed in the display area are correlated with each other, and the instructor voice generation specified by the position specifying means is correlated. Correlation means for correlating the position and the leader voice visualization display position in the captured image displayed in the display area;
Language recognition means for recognizing a trainer-generated language that is a language issued by the trainer at the trainer speech generation position and a leader-generated language that is a language issued by the trainer at the leader speech generation position;
The trainer-generated language visualized characters visualized by the trainer-generated language recognized by the language recognizing means and the trainer-generated language recognized by the language recognizer are converted to visualized teacher-generated language visualized characters. Character conversion means;
Control is performed to display the trainer-generated language visualization character at the trainer-speech visualization display position correlated with the trainer-speech generation position by the correlation unit, and the correlation unit correlates with the teacher-speech generation position. Display control means for performing control to display the leader-generated language visualization characters at the attached leader voice visualization display position;
A pronunciation training device comprising:
前記訓練者音声及び前記指導者音声をそれぞれ集音するために、所定の水平間隔を隔てて配置された一対のマイクロフォン同士を互いに直交して配置したマイクロフォン群と、
前記訓練者音声及び前記指導者音声をそれぞれ集音するために、前記一対のマイクロフォンを構成する各マイクロフォンから前記水平間隔と同一の間隔である対向間隔を隔てて配置された対向マイクロフォンと、を備え、
前記位置特定手段は、
前記訓練者音声が、前記一対のマイクロフォンに到達する時間差及び前記各マイクロフォンと前記対向マイクロフォンとの間に到達する時間差をそれぞれ用い、双曲線法によって、前記訓練者音声発生位置を算出すると共に、
前記指導者音声が、前記一対のマイクロフォンに到達する時間差及び前記各マイクロフォンと前記対向マイクロフォンとの間に到達する時間差をそれぞれ用い、双曲線法によって、前記指導者音声発生位置を算出することを特徴とする請求項1に記載の発音訓練装置。 The sound collecting means includes
A microphone group in which a pair of microphones arranged at predetermined horizontal intervals are orthogonal to each other in order to collect the trainee voice and the instructor voice, respectively,
In order to collect the trainer's voice and the instructor's voice, respectively, an opposing microphone disposed at an opposing interval that is the same interval as the horizontal interval from each microphone constituting the pair of microphones. ,
The position specifying means includes
The trainer voice uses the time difference to reach the pair of microphones and the time difference to reach between each microphone and the opposing microphone, respectively, to calculate the trainer voice generation position by the hyperbolic method,
The instructor voice generation position is calculated by the hyperbolic method using the time difference when the instructor voice reaches the pair of microphones and the time difference between the microphones and the opposing microphone, respectively. The pronunciation training device according to claim 1.
前記判定手段による前記正解判定の結果もしくは前記不正解判定の結果を前記表示領域に表示する制御を行う判定結果表示制御手段と、
を備えることを特徴とする請求項1又は2に記載の発音訓練装置。 Comparing the trainer-generated language recognized by the language recognizing means with the teacher-generated language recognized by the language recognizing means, the correct answer determination or training that the trainer-generated language matches the leader-generated language A determination means for performing an incorrect answer determination in which a person-generated language does not match the leader-generated language;
Determination result display control means for performing control to display the result of the correct answer determination or the result of the incorrect answer determination by the determining means in the display area;
The pronunciation training apparatus according to claim 1, comprising:
前記表示制御手段は、
前記文字変換手段によって変化させた前記訓練者発生言語可視化文字の大きさで、前記訓練者音声可視化表示位置に前記訓練者発生言語可視化文字を表示すると共に、
前記文字変換手段によって変化させた前記指導者発生言語可視化文字の大きさで、前記指導者音声可視化表示位置に前記指導者発生言語可視化文字を表示する
ことを特徴とする請求項1ないし3のいずれかに記載の発音訓練装置。 The character conversion means, based on the volume of the trainer voice and the volume of the instructor voice collected by the sound collection means, the size of the trainer-generated language visualized characters and the instructor-generated language visualized characters Change the size of each,
The display control means includes
In the size of the trainer-generated language visualized character changed by the character conversion means, the trainer-generated language visualized character is displayed at the trainer voice visualized display position,
4. The instructor-generated language visualized character is displayed at the instructor-speech-visualized display position with the size of the instructor-generated language visualized character changed by the character conversion means. The pronunciation training device described in Crab.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009028881A JP2010185967A (en) | 2009-02-10 | 2009-02-10 | Pronunciation training device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009028881A JP2010185967A (en) | 2009-02-10 | 2009-02-10 | Pronunciation training device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010185967A true JP2010185967A (en) | 2010-08-26 |
Family
ID=42766675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009028881A Pending JP2010185967A (en) | 2009-02-10 | 2009-02-10 | Pronunciation training device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010185967A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021039305A (en) * | 2019-09-05 | 2021-03-11 | 学校法人上智学院 | Auxiliary apparatus for detecting voice |
CN114758647A (en) * | 2021-07-20 | 2022-07-15 | 无锡柠檬科技服务有限公司 | Language training method and system based on deep learning |
-
2009
- 2009-02-10 JP JP2009028881A patent/JP2010185967A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021039305A (en) * | 2019-09-05 | 2021-03-11 | 学校法人上智学院 | Auxiliary apparatus for detecting voice |
JP7367963B2 (en) | 2019-09-05 | 2023-10-24 | 学校法人上智学院 | Auxiliary equipment for the detection of voices |
CN114758647A (en) * | 2021-07-20 | 2022-07-15 | 无锡柠檬科技服务有限公司 | Language training method and system based on deep learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276164B2 (en) | Multi-speaker speech recognition correction system | |
JP4867804B2 (en) | Voice recognition apparatus and conference system | |
US20150056580A1 (en) | Pronunciation correction apparatus and method thereof | |
EP2562746A1 (en) | Apparatus and method for recognizing voice by using lip image | |
Fernandez-Lopez et al. | Towards estimating the upper bound of visual-speech recognition: The visual lip-reading feasibility database | |
WO2001052237A1 (en) | Foreign language learning apparatus, foreign language learning method, and medium | |
KR20160122542A (en) | Method and apparatus for measuring pronounciation similarity | |
US20070003913A1 (en) | Educational verbo-visualizer interface system | |
JPWO2018033979A1 (en) | Language learning system and language learning program | |
WO2014002391A1 (en) | Information processing device and information processing method | |
JP2013088552A (en) | Pronunciation training device | |
Jokisch et al. | Pronunciation learning and foreign accent reduction by an audiovisual feedback system | |
CN109545196B (en) | Speech recognition method, device and computer readable storage medium | |
KR20150024295A (en) | Pronunciation correction apparatus | |
JP2010185967A (en) | Pronunciation training device | |
JPWO2014087571A1 (en) | Information processing apparatus and information processing method | |
KR20080018658A (en) | Pronunciation comparation system for user select section | |
KR20140107067A (en) | Apparatus and method for learning word by using native speakerpronunciation data and image data | |
JP2012088675A (en) | Language pronunciation learning device with speech analysis function and system thereof | |
JPWO2021024869A5 (en) | Speech processing equipment, audio processing methods, and programs | |
KR101020657B1 (en) | Method and Apparatus for speech visualization using speech recognition | |
KR20190091642A (en) | Device and method for communication for the deaf person | |
CN116705070B (en) | Method and system for correcting speech pronunciation and nasal sound after cleft lip and palate operation | |
JP3956115B2 (en) | Utterance language learning device | |
KR20180017905A (en) | Pronunciation correction apparatus and pronunciationn data collection apparatus |