JPH05165494A - Voice recognizing device - Google Patents

Voice recognizing device

Info

Publication number
JPH05165494A
JPH05165494A JP3330807A JP33080791A JPH05165494A JP H05165494 A JPH05165494 A JP H05165494A JP 3330807 A JP3330807 A JP 3330807A JP 33080791 A JP33080791 A JP 33080791A JP H05165494 A JPH05165494 A JP H05165494A
Authority
JP
Japan
Prior art keywords
word
voice
cnt
seg
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3330807A
Other languages
Japanese (ja)
Inventor
Katsuya Oba
克哉 大場
Teru Hirayama
輝 平山
Tadamichi Tagawa
忠道 田川
Masaaki Kato
正明 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Osaka Gas Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Osaka Gas Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd, Osaka Gas Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3330807A priority Critical patent/JPH05165494A/en
Publication of JPH05165494A publication Critical patent/JPH05165494A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To obtain a low-priced system facilitating the study of a learning person without being hourly limited by providing a correspondence display means to display the prescribed acoustic feature amount of a voice signal and a language symbol corresponding to the amount while making them correspondent. CONSTITUTION:This device is equipped with an input means 50 to input the voice of an unspecified speaker, voice recognizing means 51 to obtain the language symbol by executing voice recognition according to the voice signal, and display means 54 to display the contents of making the prescribed acoustic characteristic amount of the voice signal correspondent to the language symbol corresponding to the amount by normalizing them concerning the two kinds of voices at least while making those amount and symbol correspondent. Namely, a normalizing part and graphic display part 54 inputs the voice data of the learning person outputted from the voice recognizing means 51 and model voice data from a model data acquisition part 52, normalizes speaking time for each word to which both data are correspondent, and graphically displays the voice data of the learning person and the model voice data (intonation, stress).

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、教育などの分野に応用
可能な音声認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device applicable to fields such as education.

【0002】[0002]

【従来の技術】従来、例えば、外国語教育における発音
(スピーキング)の訓練を行う方法としては次のような
ものが知られている。(1)外国語教育専門家やネイテ
ィブスピーカーに自分の発音を聞いてもらい、アドバイ
スを受け、学習者の欠点を指摘してもらう。(2)市販
の外国語学習用テープや2カ国語放送などを聞き、それ
をまねて発音する。また、参考書などに記載されている
口の形や調音点等を示す図表をもとに練習する。自分の
発音を、磁気テープなどに録音し、学習用テープに録音
されている音声と聞き比べてみる。(3)計算機等を利
用した発音練習装置により練習する。すなわち、発音練
習用のCAI(computer assisted instruction:コン
ピュータ利用の教育)システムが知られている。これ
は、ネイティブスピーカーの発音を聞く。学習者の声を
録音し、再生する。ネイティブスピーカーの音声波形
と、学習者の音声波形をグラフィック表示する。また、
ホルマントの表示や、時間毎の周波数や音圧の変化が表
示される。
2. Description of the Related Art Conventionally, for example, the following methods have been known as methods for training pronunciation (speaking) in foreign language education. (1) Ask a foreign language education expert or native speaker to listen to their pronunciation, receive advice, and point out the learner's shortcomings. (2) Listen to commercially available foreign language learning tapes and bilingual broadcasts, and imitate them. Also, practice based on the charts that show mouth shapes, articulation points, etc., described in reference books. Record your pronunciation on a magnetic tape and compare it with the voice recorded on the learning tape. (3) Practice using a pronunciation practice device that uses a computer or the like. That is, a CAI (computer assisted instruction) system for pronunciation practice is known. It listens to native speaker pronunciation. Record and play back the learner's voice. Graphic display of native speaker's voice waveform and learner's voice waveform. Also,
Formants are displayed, and changes in frequency and sound pressure are displayed over time.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記の
ような従来の発音練習方法では次のような課題がある。 (1)外国語教育専門家やネイティブスピーカーによる
訓練方法では、大きな効果が期待できるが、時間的な制
約を受け、また費用もかかる。(2)音声テープなどに
よる方法では、いつでも練習でき、また安価ではある
が、発した発音を客観的に評価できないため、学習者は
自分の発音の何処が良くないかを把握することが困難で
ある。(3)計算機などを利用して発音練習を行う方法
では、確かにネイティブスピーカーの音声波形と学習者
の音声波形が表示されるが、そこから何をどの様に読み
取れば、学習者の発音がネイティブスピーカーの発音に
近づくかが分かりにくいという課題がある。
However, the conventional pronunciation training method as described above has the following problems. (1) Training methods by foreign language education specialists and native speakers can be expected to have great effects, but they are time-consuming and costly. (2) With a method using a voice tape, etc., although it is possible to practice anytime and it is inexpensive, it is difficult for the learner to grasp where his or her pronunciation is not good because the pronunciation that is produced cannot be evaluated objectively. is there. (3) In the method of practicing pronunciation using a computer, the native speaker's voice waveform and the learner's voice waveform are displayed, but if you read what from that, the learner's pronunciation will be pronounced. There is a problem that it is difficult to know if it approaches the pronunciation of a native speaker.

【0004】本発明は、このような従来の発音訓練方法
の課題を考慮し、時間的制約を受けず、安価で、しかも
学習者の学習が容易であるようなシステムを実現できる
音声認識装置を提供することを目的とするものである。
In consideration of the above problems of the conventional pronunciation training method, the present invention provides a speech recognition apparatus which can realize a system that is not restricted by time, is inexpensive, and is easy for learners to learn. It is intended to be provided.

【0005】[0005]

【課題を解決するための手段】第1の本発明は、音声を
入力する入力手段と、その音声信号から音声認識を行
い、言語シンボルを得る認識手段と、前記音声信号の所
定の音響的特徴量とそれに対応する前記言語シンボルと
を対応付けながら表示する対応表示手段とを備えた音声
認識装置である。
The first aspect of the present invention is to provide an input means for inputting voice, a recognition means for performing voice recognition from the voice signal to obtain a language symbol, and a predetermined acoustic characteristic of the voice signal. It is a voice recognition device provided with correspondence display means for displaying an amount and the language symbol corresponding thereto in association with each other.

【0006】第2の本発明は、不特定話者の音声を入力
する入力手段と、その音声信号から音声認識を行い、言
語シンボルを得る認識手段と、前記音声信号の所定の音
響的特徴量とそれに対応する前記言語シンボルとの対応
付け内容を、少なくとも2種類の音声について、正規化
して対応させ表示する表示手段とを備えた音声認識装置
である。
A second aspect of the present invention is an input means for inputting a voice of an unspecified speaker, a recognition means for performing voice recognition from the voice signal to obtain a language symbol, and a predetermined acoustic feature amount of the voice signal. And a display means for displaying the content of correspondence between the language symbol and the corresponding language symbol, for at least two types of voices in a normalized manner and in correspondence.

【0007】第3の本発明は、不特定話者の音声を入力
する入力手段と、その音声信号から音声認識を行い、言
語シンボルを得る認識手段と、前記音声信号の所定の音
響的特徴量とそれに対応する前記言語シンボルとの対応
付け内容を、少なくとも2種類の音声について、比較す
る比較手段とを備えた音声認識装置である。
A third aspect of the present invention is an input means for inputting a voice of an unspecified speaker, a recognition means for performing voice recognition from the voice signal to obtain a language symbol, and a predetermined acoustic feature amount of the voice signal. And a comparing means for comparing the content of correspondence between the language symbol and the corresponding language symbol with respect to at least two types of voices.

【0008】[0008]

【作用】第1の本発明では、入力手段で入力された音声
の信号から、認識手段によって音声認識を行い、言語シ
ンボルを得る。また、対応表示手段は、音声信号の所定
の音響的特徴量とそれに対応する言語シンボルとを対応
付けながら表示する。
In the first aspect of the present invention, speech recognition is performed from the speech signal input by the input means by the recognition means to obtain a language symbol. Further, the correspondence display means displays the predetermined acoustic feature amount of the voice signal and the corresponding language symbol in association with each other.

【0009】第2の本発明では、入力手段で入力された
不特定話者の音声信号から音声認識を行い、言語シンボ
ルを得る。表示手段は、音声信号の所定の音響的特徴量
とそれに対応する言語シンボルとの対応付け内容を、少
なくとも2種類の音声について、正規化して表示する。
In the second aspect of the present invention, speech recognition is performed from the speech signal of the unspecified speaker input by the input means to obtain a language symbol. The display means normalizes and displays at least two types of sounds the correspondence content between the predetermined acoustic feature amount of the sound signal and the corresponding language symbol.

【0010】第2の本発明では、入力手段で入力された
不特定話者の音声信号から音声認識を行い、言語シンボ
ルを得る。音声信号の所定の音響的特徴量とそれに対応
する言語シンボルとの対応付け内容を、比較手段によっ
て、少なくとも2種類の音声について、比較する。
In the second aspect of the present invention, speech recognition is performed from the speech signal of the unspecified speaker input by the input means to obtain a language symbol. The comparing means compares the correspondence between the predetermined acoustic feature amount of the voice signal and the corresponding language symbol for at least two types of voice.

【0011】[0011]

【実施例】以下本発明の一実施例について図面を参照し
ながら説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0012】図1は本発明の音声認識装置の一実施例で
ある音声データのグラフィック表示を行うための、コン
ピュータを利用したシステムを示す図である。同図に於
て、学習者の音声がマイク15から入力され、不特定話
者連続音声認識手段14により解析される。本発明の処
理を行うプログラムと必要なデータが磁気ディスク13
に格納されており、CPU11により、メモリ12にロ
ードされる。キーボード17、マウス18は、後に述べ
る練習文を選択する際に使用され、イントネーション、
ストレスなどがディスプレイ16にグラフィック表示さ
れるようになっている。
FIG. 1 is a diagram showing a system using a computer for graphically displaying voice data which is an embodiment of the voice recognition apparatus of the present invention. In the figure, the learner's voice is input from the microphone 15 and analyzed by the unspecified speaker continuous voice recognition means 14. The program for performing the processing of the present invention and necessary data are the magnetic disk 13
Stored in the memory 12 and loaded into the memory 12 by the CPU 11. The keyboard 17 and mouse 18 are used when selecting a practice sentence, which will be described later.
The stress or the like is graphically displayed on the display 16.

【0013】図2は、本発明で使用する不特定話者連続
音声認識手段の出力の一例である音声データである。認
識した単語数21、各単語の文字列の配列22、各単語
のセグメント(認識された音素)数の配列23、各セグ
メントのピッチ周波数の平均の配列24、各セグメント
の音圧の平均の配列25、各セグメントの発話時間の配
列26からなる。
FIG. 2 shows voice data as an example of the output of the unspecified speaker continuous voice recognition means used in the present invention. Number of recognized words 21, array of character strings of each word 22, array of number of segments (recognized phonemes) 23 of each word, array of average pitch frequency 24 of each segment, array of average sound pressure of each segment 25, and an array 26 of utterance times of each segment.

【0014】以下の実施例1は、第1の本発明の一実施
例であって、認識対象である音声信号のイントネーショ
ンまたはストレスを、認識結果である単語に対応させて
表示する装置を示す。
Example 1 below is an example of the first aspect of the present invention and shows an apparatus for displaying the intonation or stress of a voice signal to be recognized in association with a word as a recognition result.

【0015】また、以下の説明で配列のn番目とは、最
初の要素を0番目とし、以下1番目、2番目...とす
る。
Further, in the following description, the nth element of the array means that the first element is the 0th element, and the first element, the second element ,. . . And

【0016】(実施例1)図3は、本発明の実施例1の
ブロック図である。マイクロフォン15等の入力手段3
0から学習者の音声を入力し、図2に示した音声データ
を出力する、認識手段の一例としての音声認識処理部3
1、および音声認識処理部31から出力される音声デー
タを入力とし、これから入力音声のイントネーション、
ストレスを認識結果の単語列に対応させてディスプレイ
に表示する、対応表示手段の一例としてのグラフィック
表示部32からなる。
(First Embodiment) FIG. 3 is a block diagram of a first embodiment of the present invention. Input means 3 such as a microphone 15
A voice recognition processing unit 3 as an example of a recognition unit that inputs a learner's voice from 0 and outputs the voice data shown in FIG.
1, and the voice data output from the voice recognition processing unit 31 as an input, and the intonation of the input voice,
The graphic display unit 32 is an example of correspondence display means for displaying the stress on the display in association with the word string of the recognition result.

【0017】図4は、その音声認識処理部31の内容を
示すフローチャートである。すなわち図4で、ステップ
310では、マイクロフォン15からの音声信号につい
てアナログ処理、A/D変換がおこなわれる。ここで、
入力:アナログ連続音声信号、出力:デジタル音声信
号、処理概要:アンチ・エイリアスフィルタ、サンプリ
ング周波数16kHzで、デジタル信号に変換するもの
である。
FIG. 4 is a flow chart showing the contents of the voice recognition processing section 31. That is, in FIG. 4, in step 310, analog processing and A / D conversion are performed on the audio signal from the microphone 15. here,
Input: analog continuous audio signal, output: digital audio signal, processing outline: anti-alias filter, with a sampling frequency of 16 kHz, to convert to a digital signal.

【0018】ステップ311では、音響パラメータ変換
がおこなわれる。ここで、入力:デジタル音声信号、出
力:フレーム(6.6ミリ秒)毎の23の音響的特徴
量、処理概要:デジタル信号を6.6ミリ秒のフレーム
に分け、スペクトル分析などにより、23の音響的特徴
量を抽出するものである。
At step 311, acoustic parameter conversion is performed. Here, input: digital audio signal, output: 23 acoustic feature values for each frame (6.6 ms), processing outline: the digital signal is divided into 6.6 ms frames, and 23 The acoustic feature quantity of is extracted.

【0019】ステップ312では、音素コード(音素
片)変換がおこなわれる。ここで、入力:フレーム毎の
音響的特徴量、出力:セグメント毎の音素コード(音素
片)、およびセグメント毎の音響的特徴量、処理概要:
フレーム毎の音響的特徴量をもとに各フレームに音素コ
ード(約1800種類)を割り当てるものである。似通
った特徴を持つ隣あったフレームはまとめ、1つのセグ
メントとするものである。
At step 312, phoneme code (phoneme piece) conversion is performed. Here, input: acoustic feature amount for each frame, output: phoneme code (phoneme piece) for each segment, and acoustic feature amount for each segment, processing outline:
A phoneme code (about 1800 kinds) is assigned to each frame based on the acoustic feature amount of each frame. Adjacent frames with similar characteristics are combined into one segment.

【0020】ステップ313では、音素コード(音素
片)/音素変換がおこなわれる。ここで、入力:セグメ
ント毎の音素コード(音素片)およびセグメント毎の音
響的特徴量、出力:セグメント毎の音素の候補、および
セグメント毎の音響的特徴量、外部参照データ:音素コ
ードブック315、処理概要:音素コードブックを参照
し、セグメント毎にそのセグメントが各音素(約50種
類)に対応する可能性を割り当てる。
In step 313, phoneme code (phoneme piece) / phoneme conversion is performed. Here, input: phoneme code (phoneme piece) for each segment and acoustic feature amount for each segment, output: phoneme candidate for each segment, and acoustic feature amount for each segment, external reference data: phoneme codebook 315, Outline of processing: With reference to the phoneme codebook, a possibility that the segment corresponds to each phoneme (about 50 types) is assigned to each segment.

【0021】ステップ314では、音素/単語列変換が
おこなわれる。ここで、入力:セグメント毎の音素の候
補およびセグメント毎の音響的特徴量、出力:単語列お
よびセグメント毎の音響的特徴量、外部参照データ:単
語辞書316、処理概要:単語辞書を参照し、入力のセ
グメント列と各単語に対応する音素列との距離を計算
し、最も近いものを認識結果として出力する。
In step 314, phoneme / word string conversion is performed. Here, input: phoneme candidates for each segment and acoustic feature amount for each segment, output: acoustic feature amount for each word string and segment, external reference data: word dictionary 316, processing outline: refer to word dictionary, The distance between the input segment sequence and the phoneme sequence corresponding to each word is calculated, and the closest one is output as the recognition result.

【0022】なお、上記音素コードブック315は、音
素コード(音素片)毎にその音素コードがある音素であ
る可能性をもつテーブルであり、また、上記単語辞書3
16は、単語文字列とそれに対応する音素列を持つ辞書
である。
The phoneme codebook 315 is a table having a possibility that each phoneme code (phoneme piece) has a phoneme code, and the word dictionary 3 is used.
Reference numeral 16 is a dictionary having word character strings and corresponding phoneme strings.

【0023】図5及び図6は、図3のグラフィック表示
部32の処理フローの例である。
5 and 6 are examples of the processing flow of the graphic display unit 32 of FIG.

【0024】401は、前処理であり、ディスプレイに
X軸、Y軸を表示し、また、各変数の初期化を行う。す
なわち、処理中の単語が認識結果の単語列の何番目かを
示す変数L_word_cnt、処理中のセグメントが認識結果の
セグメントの配列の何番目かを示す変数L_seg_cnt、グ
ラフィック表示する折れ線グラフ(後述する図15参
照)の各標本点の値を示す変数(配列)の0番目L_x
[0],L_y[0]にそれぞれ0を代入する。
Reference numeral 401 is a pre-processing which displays the X-axis and the Y-axis on the display and initializes each variable. That is, a variable L_word_cnt showing which number of the word string of the recognition result is the word being processed, a variable L_seg_cnt showing what number of the array of the segment of the recognition result is the segment being processed, and a line graph to be displayed graphically (see below. 0) L_x of the variable (array) that indicates the value of each sample point
Substitute 0 for each of [0] and L_y [0].

【0025】402では、音声認識結果の音声データの
単語数をL_word_numに代入する。
At 402, the number of words in the voice data of the voice recognition result is substituted into L_word_num.

【0026】403では、L_word_cntとL_word_numの比
較を行う。L_word_cntがL_word_numより小さければ、処
理すべき単語が存在するということであり、ステップ4
04へ進む。L_word_cntがL_word_num以上であれば全て
の単語についてグラフィック表示が終了したということ
であり、全ての処理を終える。
At 403, L_word_cnt and L_word_num are compared. If L_word_cnt is smaller than L_word_num, it means that there is a word to be processed, and step 4
Go to 04. If L_word_cnt is greater than or equal to L_word_num, it means that the graphic display has been completed for all words, and all processing is completed.

【0027】404では、次の折れ線グラフ表示時にX
軸の下部に現在処理している単語を表示することを示す
フラグdisp_word_flagをONにする。
At 404, X is displayed at the next line graph display.
The flag disp_word_flag indicating that the word currently being processed is displayed at the bottom of the axis is set to ON.

【0028】405では、現在処理している単語が何番
目のセグメントまでかを示す変数L_seg_numに音声デー
タの各単語のセグメント数の配列のL_word_cnt番目の要
素を加える。
At 405, the L_word_cnt th element of the array of the segment number of each word of the audio data is added to the variable L_seg_num which indicates up to what segment the word currently being processed is.

【0029】406では、L_seg_cntとL_seg_numとの比
較を行う。L_seg_cntがL_seg_numより小さければ、現在
処理している単語に対応するセグメントに未処理のセグ
メントが存在するということであり、ステップ407へ
進む。L_seg_cntがL_seg_num以上であれば、現在処理し
ている単語に対応する全てのセグメントに対し処理を終
えたということであり、ステップ410へ進む。
At 406, L_seg_cnt and L_seg_num are compared. If L_seg_cnt is smaller than L_seg_num, it means that there is an unprocessed segment in the segment corresponding to the word currently being processed, and the process proceeds to step 407. If L_seg_cnt is greater than or equal to L_seg_num, it means that processing has been completed for all the segments corresponding to the word currently being processed, and the routine proceeds to step 410.

【0030】407では、表示すべき折れ線グラフの標
本点を取得する。すなわち、L_x[L_seg_cnt + 1]に、{L
_x[L_seg_cnt] + (音声データのセグメントの発話時間
の配列のL_seg_cnt番目の要素}を代入し、L_y[L_seg_cn
t + 1]に、(音声データのセグメントのピッチ周波数の
平均の配列のL_seg_cnt番目の要素)または、(音声デ
ータのセグメントの音圧の平均の配列のL_seg_cnt番目
の要素)を代入する。イントネーションの折れ線グラフ
表示時は、セグメントのピッチ周波数の平均の配列の要
素、ストレスの折れ線グラフ表示時には、セグメントの
音圧の平均の配列の要素を代入する。
At 407, sample points of the line graph to be displayed are acquired. That is, L_x [L_seg_cnt + 1] becomes {L
_x [L_seg_cnt] + (L_seg_cnt th element of the utterance time array of the voice data segment) is substituted, and L_y [L_seg_cn
Substituting (L_seg_cnt th element of average array of pitch frequencies of audio data segments) or (L_seg_cnt th element of average array of sound pressure of audio data segments) to [t + 1]. When the line graph of the intonation is displayed, the elements of the average array of the pitch frequencies of the segments are substituted, and when the line graph of the stress is displayed, the elements of the average array of the sound pressure of the segments are substituted.

【0031】408では、実際に折れ線グラフの表示を
行う。すなわち、{(L_x[L_seg_cnt],L_y[L_seg_cnt),
(L_x[L_seg_cnt + 1],L_y[L_seg_cnt +1])}の2点を結
ぶ線分を表示する。
At 408, a line graph is actually displayed. That is, {(L_x [L_seg_cnt], L_y [L_seg_cnt),
Display the line segment connecting the two points (L_x [L_seg_cnt + 1], L_y [L_seg_cnt +1])}.

【0032】409では、X軸の下部に対応する単語文
字列を表示するかどうかの判断を行う。つまり、disp_w
ord_flagがONであるかどうか調べ、ONであればステ
プ410へOFFであれば、ステップ412へ進む。
At 409, it is determined whether to display the word character string corresponding to the lower part of the X axis. That is, disp_w
It is checked whether ord_flag is ON, and if it is ON, the process proceeds to step 410, and if it is OFF, the process proceeds to step 412.

【0033】410では、(L_x[L_seg_cnt + 1],0)の直
下に音声データの単語文字列の配列22のL_word_cnt番
目の要素である文字列を表示する。
At 410, the character string which is the L_word_cnt th element of the word character string array 22 of the voice data is displayed immediately below (L_x [L_seg_cnt + 1], 0).

【0034】411では、1つの単語につき単語文字列
の表示は1度でいいのでdisp_word_flagをOFFにす
る。
In 411, since the display of the word character string need only be performed once for one word, disp_word_flag is turned off.

【0035】412では、処理を次のセグメントに移す
ため、L_seg_cntに1を加え、ステップ406へ戻る。
At 412, 1 is added to L_seg_cnt to move the processing to the next segment, and the process returns to step 406.

【0036】413では、処理を次の単語に移すため、
L_word_cntに1を加え、ステップ403へ戻る。
At 413, since the processing is moved to the next word,
Add 1 to L_word_cnt and return to step 403.

【0037】次に、データの具体例を用いて上記の処理
をより具体的に説明する。
Next, the above processing will be described more specifically by using a specific example of data.

【0038】学習者のマイク15を使用して音声を入力
すると、音声認識手段31でスペクトル分析等の手法に
より音声認識処理を行う。ここでは、音声認識手段31
の出力として、図2に示した音声データが得られたとす
る。
When a voice is input using the learner's microphone 15, the voice recognition means 31 performs a voice recognition process by a technique such as spectrum analysis. Here, the voice recognition means 31
It is assumed that the audio data shown in FIG.

【0039】グラフィック表示部32では、この音声デ
ータを入力として以下の処理を行う。
The graphic display unit 32 receives the voice data and performs the following processing.

【0040】まず、前処理として、X軸、Y軸の表示、
L_word_cnt、L_seg_cnt、L_x[0]、L_y[0]にそれぞれ0
を代入する(ステップ401)。続いて、L_word_numに
音声データの単語数の値である4を代入する(ステップ
402)。
First, as preprocessing, display of X-axis and Y-axis,
0 for L_word_cnt, L_seg_cnt, L_x [0], and L_y [0] respectively
Is substituted (step 401). Then, 4 which is the value of the number of words of the voice data is substituted into L_word_num (step 402).

【0041】ここで、L_word_cntとL_word_numの比較を
行う(ステップ403)が、今L_word_cntが0、L_word
_numが4なので、ステップ404へ進む。
Here, L_word_cnt and L_word_num are compared (step 403). Now, L_word_cnt is 0, L_word
Since _num is 4, the process proceeds to step 404.

【0042】ステップ404では、今から処理する単語
の文字列を次の折れ線表示時にX軸の下部に表示するこ
とを示すdisp_word_flagをONにする。次に、L_seg_nu
mに音声データの各単語のセグメント数の配列のL_word_
cnt番目の要素を加える。ここで、L_seg_num=0、L_wo
rd_cnt=0である。音声データの各単語のセグメント数
の配列の0番目の要素は3であるのでL_seg_num=3と
なる(ステップ405)。
In step 404, the disp_word_flag indicating that the character string of the word to be processed now is displayed at the bottom of the X axis at the time of displaying the next polygonal line is turned ON. Then L_seg_nu
An array L_word_ of the number of segments of each word of audio data in m
Add the cnt th element. Here, L_seg_num = 0, L_wo
rd_cnt = 0. Since the 0th element of the array of the segment number of each word of the voice data is 3, L_seg_num = 3 (step 405).

【0043】ステップ406では、L_seg_cntとL_seg_n
umの比較を行う。今、L_seg_cnt=0、L_seg_num=3な
ので、処理はステップ407へ進む。
In step 406, L_seg_cnt and L_seg_n
Compare um. Since L_seg_cnt = 0 and L_seg_num = 3 now, the process proceeds to step 407.

【0044】ここで、実際に折れ線グラフ表示を行うた
めの標本点を取得する。すなわち、L_x[1]にL_x[0]の値
と音声データの各セグメントの発話時間の配列の0番目
の要素の値を加え、24を代入する。また、例えばイン
トネーションのグラフを表示するのであれば、L_y[1]に
音声データの各セグメントのピッチ周波数の平均の配列
の0番目の要素の値104を代入する(ステップ40
7)。続いて実際に、折れ線グラフを表示する。つま
り、{(L_x[0], L_y[0]), (L_x[1], L_y[1])}の値である
{(0,0),(24,104)}の2点を結ぶ線分を表示する(ステッ
プ408)。
Here, the sample points for actually displaying the line graph are acquired. That is, the value of L_x [0] and the value of the 0th element of the utterance time array of each segment of the audio data are added to L_x [1], and 24 is substituted. Further, for example, if an intonation graph is displayed, the value 104 of the 0th element of the average array of pitch frequencies of each segment of audio data is substituted into L_y [1] (step 40).
7). Then, the line graph is actually displayed. That is, it is the value of {(L_x [0], L_y [0]), (L_x [1], L_y [1])}
A line segment connecting two points {(0,0), (24,104)} is displayed (step 408).

【0045】次に、disp_word_flagがONであるかどう
かを調べ(ステップ409)、今ONなので、X軸の下
部に対応する単語文字列を表示するための処理を行う。
つまり、音声データの単語文字列の配列の0番目の値で
ある"how"を(x[1],0)の直下に表示する(ステップ41
0)。"how"を処理している間、もうこの文字列を表示
する必要はないので、disp_word_flagをOFFにする
(ステップ411)。
Next, it is checked whether or not disp_word_flag is ON (step 409). Since it is ON now, processing for displaying the word character string corresponding to the lower part of the X axis is performed.
That is, "how", which is the 0th value of the word character string array of the voice data, is displayed immediately below (x [1], 0) (step 41).
0). While processing "how", there is no need to display this character string anymore, so disp_word_flag is set to OFF (step 411).

【0046】0番目のセグメントに対する処理が終了し
たので、L_seg_cntに1を加え1として、ステップ40
6へ戻る。1番目のセグメントについても上記と同様に
折れ線グラフ表示を行う(ステップ407、408)。
Since the processing for the 0th segment is completed, 1 is added to L_seg_cnt to make it 1 and step 40
Return to 6. A line graph is displayed for the first segment as well (steps 407 and 408).

【0047】ステップ409では、disp_word_flagがO
FFになっているので、単語文字列の表示処理は行わ
ず、ステップ412へ進む。
At step 409, disp_word_flag is set to O.
Since it is FF, the display process of the word character string is not performed, and the process proceeds to step 412.

【0048】このようにして、2番目のセグメントまで
の処理が終わったとする。このとき、L_seg_cntが3と
なっている(ステップ412)。ステップ406での比
較の結果、L_seg_cntがL_seg_num以上になったので、ス
テップ413へ進み、次の単語へ処理を進めるために、
L_word_cntに1を加え、ステップ403へ戻る。
In this way, the processing up to the second segment is completed. At this time, L_seg_cnt is 3 (step 412). As a result of the comparison in step 406, L_seg_cnt is equal to or more than L_seg_num. Therefore, the process proceeds to step 413, and the process is performed on the next word.
Add 1 to L_word_cnt and return to step 403.

【0049】同様にして、4番目の単語まで全ての処理
が終わったとする。すると、L_word_cntが4となり(ス
テップ413)、403での比較の結果全ての単語に付
いて処理が終わったとして、本実施例の処理が終了す
る。
Similarly, it is assumed that all the processes up to the fourth word have been completed. Then, L_word_cnt becomes 4 (step 413), and as a result of the comparison in 403, it is determined that the processing has been completed for all the words, and the processing of this embodiment ends.

【0050】(実施例2)実施例2は、第2の本発明の
音声認識装置の一実施例であって、外国語発音練習にお
いて、手本となるある文章を入力した音声のイントネー
ションまたはストレスを、認識した単語に対応させてグ
ラフィック表示し、さらに学習者の同じ文章の音声のイ
ントネーションまたはストレスを、認識した単語を一致
させ正規化して、単語毎に、手本のグラフィックに対応
させて表示する装置の例である。
(Embodiment 2) The embodiment 2 is an embodiment of the speech recognition apparatus of the second invention, and is the intonation or stress of the speech in which a certain sentence is input in the practice of pronunciation of a foreign language. Is displayed graphically in correspondence with the recognized words, and the intonation or stress of the learner's voice in the same sentence is normalized by matching the recognized words and displayed in correspondence with the model graphic for each word. It is an example of a device to do.

【0051】図7は、その実施例2のブロック図であ
る。
FIG. 7 is a block diagram of the second embodiment.

【0052】音声認識手段51は、学習者が音声を入力
し、認識結果として、音声データを出力する手段であ
り、実施例1の音声認識手段31と同一の機能を持つ。
また、音声認識処理の結果得られる単語列は、無音部分
を除くと、学習者により選択された練習文の練習文文字
列61(図8参照)と同じであるとする。
The voice recognition means 51 is a means for a learner to input a voice and output voice data as a recognition result, and has the same function as the voice recognition means 31 of the first embodiment.
Further, the word string obtained as a result of the voice recognition processing is assumed to be the same as the practice sentence character string 61 (see FIG. 8) of the practice sentence selected by the learner, except for the silent parts.

【0053】練習文提示部52は、教材データ55に保
存されている教材ファイルの練習文番号60と練習文文
字列61を利用して練習文のリストを表示し、学習者に
これから練習する文と自分の性別の入力を促す。学習者
により練習文が選択され、性別が入力されると、選択さ
れた練習文に対応する練習文番号と性別を出力する。
The practice sentence presenting section 52 displays a list of practice sentences using the practice sentence number 60 and the practice sentence character string 61 of the teaching material file stored in the teaching material data 55, and presents the learner with a sentence to be practiced. And urge you to enter your gender. When the learner selects a practice sentence and inputs the sex, the practice sentence number and the gender corresponding to the selected practice sentence are output.

【0054】手本データ取得部53は、練習文提示部5
2の出力である学習者が選択した練習文の番号と学習者
の性別を入力とし、教材データ55を読み込み、練習文
の番号に対応する音声データファイルを手本音声データ
56から得る手段である。
The model data acquisition unit 53 is a practice sentence presentation unit 5.
It is a means for inputting the number of the practice sentence selected by the learner and the gender of the learner, which is the output of 2, and reading the teaching material data 55 to obtain the voice data file corresponding to the number of the practice sentence from the model voice data 56. ..

【0055】本発明の表示手段の一例としての正規化部
およびグラフィック表示部54は、音声認識手段51か
ら出力される学習者の音声データと手本データ取得部5
3からの手本音声データを入力とし、両者の対応する単
語毎の発話時間を正規化し、学習者の音声データと手本
の音声データ(イントネーション、ストレス)をグラフ
ィック表示する手段である。図15及び図16は、その
ようなグラフィック表示手段54の画面の一例である。
The normalization section and the graphic display section 54 as an example of the display means of the present invention include the learner's voice data and the model data acquisition section 5 output from the voice recognition means 51.
It is a means for inputting the model voice data from No. 3, normalizing the utterance time for each word corresponding to both, and graphically displaying the voice data of the learner and the voice data of the model (intonation, stress). 15 and 16 are examples of screens of such a graphic display means 54.

【0056】図8は、教材ファイルの例であり、練習文
番号61、練習文の文字列62、男性用の音声データフ
ァイル名63、女性用の音声データファイル姪4からな
る。
FIG. 8 shows an example of a teaching material file, which comprises a practice sentence number 61, a practice sentence character string 62, a voice data file name 63 for men, and a voice data file niece 4 for women.

【0057】図9は、手本音声データファイルの例であ
り、学習者の音声を認識した結果の音声データと同じ構
造の手本音声データが保存されている。これら手本のデ
ータは、予め第1の本発明で述べたようにして得られた
ものである。
FIG. 9 is an example of a model voice data file, in which the model voice data having the same structure as the voice data obtained by recognizing the learner's voice is stored. The data of these examples are obtained in advance as described in the first aspect of the present invention.

【0058】図10は、正規化及びグラフィック表示部
54の処理フローの例である。
FIG. 10 shows an example of the process flow of the normalization and graphic display unit 54.

【0059】801は、前処理であり、X軸、Y軸の表
示、現在処理している学習者の音声データの単語が何番
目かを示すL_word_cnt、現在処理している学習者の音声
データのセグメントが何番目かを示すL_seg_cnt、学習
者のイントネーション(ストレス)の折れ線グラフ表示
時の標本点となる配列の0番目の要素L_x[0],L_y[0],
現在処理している手本音声データの単語が何番目かを示
すM_word_cnt,現在処理している手本音声データのセグ
メントが何番目かを示すM_seg_cnt,手本のイントネー
ション(ストレス)の折れ線グラフ表示時の標本点とな
る配列の0番目の要素M_x[0],M_y[0]のそれぞれに0を
代入する。
Reference numeral 801 denotes preprocessing, which is the display of the X-axis and Y-axis, L_word_cnt indicating the number of the word in the voice data of the learner currently being processed, and the voice data of the learner currently being processed. L_seg_cnt indicating the number of the segment, the 0th element L_x [0], L_y [0] of the array that is the sample point when the learner's intonation (stress) line graph is displayed,
M_word_cnt indicating the number of the word of the model voice data currently being processed, M_seg_cnt indicating the number of the segment of the model voice data currently being processed, and the line graph display of the intonation (stress) of the model 0 is assigned to each of the 0th element M_x [0] and M_y [0] of the array which becomes the sample point of.

【0060】8011では、音声認識結果の音声データ
の単語数をL_word_numに代入する。
At 8011, the number of words of the voice data of the voice recognition result is substituted into L_word_num.

【0061】802は、全ての単語について、処理が終
わったかどうかを調べるために、L_word_cntとL_word_n
umの比較を行う。L_word_cntがL_word_numより小さいと
は、まだ処理すべき単語が残っているということであ
り、ステップ803へ進み、そうでないときは、全ての
処理を終了する。
802 checks L_word_cnt and L_word_n in order to check whether processing has been completed for all words.
Compare um. If L_word_cnt is smaller than L_word_num, it means that there are still words to be processed, and the process proceeds to step 803. If not, all the processes are terminated.

【0062】803では、手本音声データのM_word_cnt
番目の単語について折れ線グラフと対応する単語文字列
の表示を行う。このステップの詳細なフローの例を図1
1及び図12に示す。
In 803, M_word_cnt of the model voice data
Display the line graph and the corresponding word string for the th word. An example of the detailed flow of this step is shown in FIG.
1 and FIG.

【0063】805では、L_word_cnt番目の学習者の単
語に対応するイントネーションまたはストレスを手本の
イントネーションまたはストレスに対応させて表示する
ための倍率を求める。この処理の詳細フローの例を図1
3に示す。
At 805, a magnification for displaying the intonation or stress corresponding to the L_word_cnt th learner's word in association with the model intonation or stress is determined. An example of the detailed flow of this processing is shown in FIG.
3 shows.

【0064】806では、L_word_cnt番目の学習者の単
語に対応するイントネーションまたはストレスを折れ線
グラフ表示する。この時805で求めた倍率により手本
の対応する単語と同じ位置(X座標)に表示する。
At 806, the intonation or stress corresponding to the L_word_cnt th learner's word is displayed as a line graph. At this time, it is displayed at the same position (X coordinate) as the corresponding word in the model according to the magnification obtained in 805.

【0065】807では、学習者、手本共に次の単語へ
処理を進めるため、L_word_cnt,M_word_cntの値にそれ
ぞれ1を加える。
At 807, 1 is added to the values of L_word_cnt and M_word_cnt so that the learner and the example can proceed to the next word.

【0066】図11及び図12は、図10のステップ8
03の詳細フローの例である。
11 and 12 show step 8 of FIG.
It is an example of a detailed flow of 03.

【0067】901では、次の折れ線グラフ表示時にX
軸の下部に単語文字列を表示することを示すdisp_word_
flagをONにする。また、この単語を発話するのに要し
た時間を示す変数M_word_durに0を代入する。
In 901, X is displayed at the next line graph display.
Disp_word_, which indicates to display the word string at the bottom of the axis
Turn flag on. Also, 0 is substituted for the variable M_word_dur indicating the time required to speak this word.

【0068】902では、現在処理している単語が何番
目のセグメントまでかを示す変数M_seg_numに音声デー
タの各単語のセグメント数の配列のM_word_cnt番目の要
素を加える。
At 902, the M_word_cnt th element of the array of the segment number of each word of the audio data is added to the variable M_seg_num which indicates up to what segment the word currently being processed is.

【0069】903では、M_seg_cntとM_seg_numとの比
較を行う。M_seg_cntがM_seg_numより小さければ、現在
処理している単語に対応するセグメントに未処理のセグ
メントが存在するということであり、ステップ904へ
進む。M_seg_cntがM_seg_num以上であれば、現在処理し
ている単語に対応する全てのセグメントに対し処理を終
えたということであり、処理を終了する。
At 903, M_seg_cnt and M_seg_num are compared. If M_seg_cnt is smaller than M_seg_num, it means that there is an unprocessed segment in the segment corresponding to the word currently processed, and the process proceeds to step 904. If M_seg_cnt is greater than or equal to M_seg_num, it means that processing has been completed for all the segments corresponding to the word currently being processed, and the processing ends.

【0070】904では、表示すべき折れ線グラフの標
本点を取得する。すなわち、M_x[M_seg_cnt + 1]に、{M
_x[M_seg_cnt] +(音声データのセグメントの発話時間
の配列のM_seg_cnt番目の要素}を代入し、M_y[M_seg_cn
t + 1]に、(音声データのセグメントのピッチ周波数の
平均の配列のM_seg_cnt番目の要素)または、(音声デー
タのセグメントの音圧の平均の配列のM_seg_cnt番目の
要素)を代入する。イントネーションの折れ線グラフ表
示時は、セグメントのピッチ周波数の平均の配列の要
素、ストレスの折れ線グラフ表示時には、セグメントの
音圧の平均の配列の要素を代入する。
At 904, the sample points of the line graph to be displayed are acquired. That is, in M_x [M_seg_cnt + 1],
_x [M_seg_cnt] + (M_seg_cnt th element of the utterance time array of the voice data segment) is substituted, and M_y [M_seg_cn
Substitute (M_seg_cnt th element of average array of pitch frequencies of audio data segments) or (M_seg_cnt th element of average array of sound pressure of audio data segments) to [t + 1]. When the line graph of the intonation is displayed, the elements of the average array of the pitch frequencies of the segments are substituted, and when the line graph of the stress is displayed, the elements of the average array of the sound pressure of the segments are substituted.

【0071】また、同時にM_word_durに音声データのセ
グメントの発話時間の配列のM_seg_cnt番目の要素を加
える。
At the same time, the M_seg_cnt th element of the utterance time array of the voice data segment is added to M_word_dur.

【0072】905では、実際に折れ線グラフの表示を
行う。すなわち、{(M_x[M_seg_cnt],M_y[M_seg_cnt),(M
_x[M_seg_cnt + 1],M_y[M_seg_cnt + 1])}の2点を結ぶ
線分を表示する。
At 905, a line graph is actually displayed. That is, ((M_x [M_seg_cnt], M_y [M_seg_cnt), (M
_x [M_seg_cnt + 1], M_y [M_seg_cnt + 1])} is displayed.

【0073】906では、X軸の下部に対応する単語文
字列を表示するかどうかの判断を行う。つまり、disp_w
ord_flagがONであるかどうか調べ、ONであればステ
ップ907へOFFであれば、ステップ909へ進む。
At 906, it is determined whether to display the word character string corresponding to the lower part of the X axis. That is, disp_w
It is checked whether ord_flag is ON. If it is ON, the process proceeds to step 907. If it is OFF, the process proceeds to step 909.

【0074】907では、(M_x[M_seg_cnt],0)の直下に
認識結果の単語文字列の配列22のM_word_cnt番目の要
素である文字列を表示する。
At 907, the character string which is the M_word_cnt th element of the recognition result word character string array 22 is displayed immediately below (M_x [M_seg_cnt], 0).

【0075】908では、1つの単語につき単語文字列
の表示は1度でいいのでdisp_word_flagをOFFにす
る。
In 908, the word character string need only be displayed once for one word, so disp_word_flag is set to OFF.

【0076】909では、処理を次のセグメントに移す
ため、M_seg_cntに1を加え、ステップ903へ戻る。
In 909, in order to move the processing to the next segment, 1 is added to M_seg_cnt, and the process returns to step 903.

【0077】図13は、図10のステップ805の詳細
フローの例である。
FIG. 13 is an example of the detailed flow of step 805 in FIG.

【0078】1001では、現在処理している学習者の
単語のセグメント数を示す変数L_word_seg_numに音声デ
ータの各単語のセグメント数の配列のL_word_cnt番目の
値を代入し、また、この単語を発話するのに要した時間
を示す変数L_word_dur,ループ用の変数iをそれぞれ0
に初期化する。
In 1001, the L_word_cnt-th value of the array of the segment number of each word of the voice data is substituted into the variable L_word_seg_num which indicates the number of the segment of the word of the learner who is currently processing, and this word is uttered. 0 for the variable L_word_dur, which indicates the time required for
Initialize to.

【0079】1002では、iとL_word_seg_numの比較
を行う。iがL_word_seg_numより小さければステップ1
003へ進み、iがL_word_seg_num以上であればステッ
プ1005へ進む。
At 1002, i is compared with L_word_seg_num. If i is smaller than L_word_seg_num, step 1
The process proceeds to step 003, and if i is greater than or equal to L_word_seg_num, the process proceeds to step 1005.

【0080】1003では、現在処理している単語のi
番目のセグメントの時間をL_word_durに加える。すなわ
ち、学習者の音声データの各セグメントの発話時間の配
列の(L_seg_cnt+i)番目の値をL_word_durに加える。
At 1003, i of the word currently being processed is displayed.
Add the time of the th segment to L_word_dur. That is, the (L_seg_cnt + i) th value of the utterance time array of each segment of the learner's voice data is added to L_word_dur.

【0081】1004では、次のセグメントの発話時間
を求めるためiに1を加える。
At 1004, 1 is added to i to obtain the speech time of the next segment.

【0082】1005では、現在処理している学習者の
単語を表示するときの倍率を求め、処理を終了する。つ
まり、倍率を示す変数rateに(M_word_dur/L_word_dur)
を代入し、処理を終える。
At 1005, the magnification when displaying the word of the learner who is currently processing is calculated, and the processing is ended. In other words, the variable rate that indicates the magnification is (M_word_dur / L_word_dur)
Is assigned and the processing ends.

【0083】図14は、図10のステップ806の詳細
フローの例である。
FIG. 14 is an example of the detailed flow of step 806 in FIG.

【0084】1101では、現在処理中の単語に対応す
るセグメントが全体で何番目のセグメントまでかを示す
変数L_seg_numに音声データの各単語のセグメント数の
配列のL_word_cnt番目の要素の値を加える。
At 1101, the value of the L_word_cnt th element of the array of the number of segments of each word of the audio data is added to the variable L_seg_num which indicates up to which segment in total the segment corresponding to the word currently being processed.

【0085】1102では、現在処理を行っている単語
に対応する全てのセグメントに対し処理を終えたかどう
かを調べる。すなわち、L_seg_cntとL_seg_numの値を比
較し、L_seg_cntがL_seg_numより小さければステップ1
103へ進み、そうでなければ処理を終了する。
At 1102, it is checked whether or not all segments corresponding to the word currently being processed have been processed. That is, the values of L_seg_cnt and L_seg_num are compared, and if L_seg_cnt is smaller than L_seg_num, step 1
If not, the process ends.

【0086】1103では、表示すべき折れ線グラフの
標本点を取得する。すなわち、L_x[L_seg_cnt + 1]に、
{L_x[L_seg_cnt] +(音声データのセグメントの発話時
間の配列のL_seg_cnt番目の要素)*rate}を代入し、L_y
[L_seg_cnt + 1]に、(音声データのセグメントのピッチ
周波数の平均の配列のL_seg_cnt番目の要素)または、
(音声データのセグメントの音圧の平均の配列のL_seg_c
nt番目の要素)を代入する。イントネーションの折れ線
グラフ表示時は、セグメントのピッチ周波数の平均の配
列の要素、ストレスの折れ線グラフ表示時には、セグメ
ントの音圧の平均の配列の要素を代入する。
At 1103, the sample points of the line graph to be displayed are acquired. That is, in L_x [L_seg_cnt + 1],
Substitute {L_x [L_seg_cnt] + (L_seg_cnt th element of the utterance time array of the audio data segment) * rate} and set L_y
In [L_seg_cnt + 1], (L_seg_cnt th element of the average array of pitch frequencies of the audio data segment) or
(L_seg_c of the average array of sound pressures of segments of audio data
nt element). When the line graph of the intonation is displayed, the elements of the average array of the pitch frequencies of the segments are substituted, and when the line graph of the stress is displayed, the elements of the average array of the sound pressure of the segments are substituted.

【0087】1104では、実際に折れ線グラフの表示
を行う。すなわち、{(L_x[L_seg_cnt],L_y[L_seg_cnt),
(L_x[L_seg_cnt + 1],L_y[L_seg_cnt + 1])}の2点を結
ぶ線分を表示する。
At 1104, a line graph is actually displayed. That is, {(L_x [L_seg_cnt], L_y [L_seg_cnt),
Display the line segment connecting the two points (L_x [L_seg_cnt + 1], L_y [L_seg_cnt + 1])}.

【0088】1105では、処理を次のセグメントに移
すため、M_seg_cntに1を加え、ステップ1102へ戻
る。
At 1105, 1 is added to M_seg_cnt to move the processing to the next segment, and the process returns to step 1102.

【0089】次に、データの具体例を用いて上記の処理
を説明する。
Next, the above processing will be described using a specific example of data.

【0090】練習文提示部52により、図8の教材ファ
イルをもとに練習文リストが学習者に提示されたとす
る。
It is assumed that the practice sentence presenting section 52 presents the practice sentence list to the learner based on the teaching material file shown in FIG.

【0091】続いて、学習者により、練習文として、"h
ow do you do"が選択され、また、学習者は男性である
とする。
Then, the learner gives a practice sentence "h
ow do you do "is selected and the learner is male.

【0092】手本データ取得部53は、教材ファイル5
5を参照し、"how do you do"の男性用の手本音声デー
タファイル名"M_m1.dat"を得る。"M_m1.dat"の内容は、
図9に示す手本データファイルの例と同一であるとす
る。
The model data acquisition unit 53 uses the teaching material file 5
Referring to step 5, obtain a model voice data file name "M_m1.dat" for men of "how do you do". The content of "M_m1.dat" is
It is assumed that it is the same as the example of the model data file shown in FIG.

【0093】さらに、学習者の音声入力による音声認識
手段51の出力は、図2に示すとおりであるとする。
Further, it is assumed that the output of the voice recognition means 51 by the voice input of the learner is as shown in FIG.

【0094】正規化及びグラフィック表示部54では、
学習者音声データ、手本音声データを入力とし、以下の
ように処理を行う。
In the normalization and graphic display section 54,
The learner voice data and the model voice data are input, and the processing is performed as follows.

【0095】まず、X軸、Y軸の表示、各種変数の初期
化を行う(ステップ801)。
First, the X and Y axes are displayed and various variables are initialized (step 801).

【0096】次に、L_word_numに学習者の音声データの
単語数を代入する。ここでは、4が代入される(ステッ
プ8011)。
Next, the number of words in the learner's voice data is substituted into L_word_num. Here, 4 is substituted (step 8011).

【0097】ここで、L_word_cntとL_word_numの比較を
行う(ステップ802)が、今L_word_cntが0、L_word
_numが4なので、ステップ803へ進む。
Here, L_word_cnt and L_word_num are compared (step 802), but now L_word_cnt is 0, L_word
Since _num is 4, the process proceeds to step 803.

【0098】ステップ803では、L_word_cnt番目の手
本音声データの単語に対応するイントネーション(スト
レス)を表示する。
At step 803, the intonation (stress) corresponding to the word of the L_word_cnt th model voice data is displayed.

【0099】すなわち、ステップ901では、手本にお
けるその単語の発話時間を示す変数M_word_durを0に初
期化し、さらに今から処理する単語の文字列を次の折れ
線グラフ表示時にX軸の下部に表示することを示すdisp
_word_flagをONにする。
That is, in step 901, the variable M_word_dur indicating the utterance time of the word in the model is initialized to 0, and the character string of the word to be processed now is displayed at the bottom of the X axis when the next line graph is displayed. Indicating disp
Turn on _word_flag.

【0100】次に、M_seg_numに音声データの各単語の
セグメント数の配列のL_word_cnt番目の要素を加える。
ここで、M_seg_num=0、L_word_cnt=0である。音声
データの各単語のセグメント数の配列の0番目の要素は
2であるのでM_seg_num=2となる(ステップ90
2)。
Next, the L_word_cnt th element of the array of the number of segments of each word of the audio data is added to M_seg_num.
Here, M_seg_num = 0 and L_word_cnt = 0. Since the 0th element of the array of the segment number of each word of the voice data is 2, M_seg_num = 2 (step 90).
2).

【0101】ステップ903では、M_seg_cntとM_seg_n
umの比較を行う。今、M_seg_cnt=0、M_seg_num=2な
ので、処理はステップ904へ進む。
At step 903, M_seg_cnt and M_seg_n
Compare um. Since M_seg_cnt = 0 and M_seg_num = 2 now, the process proceeds to step 904.

【0102】ここで、実際に折れ線グラフ表示を行うた
めの標本点を取得する。すなわち、M_x[1]にM_x[0]の値
と音声データの各セグメントの発話時間の配列のM_seg_
cnt=0番目の要素の値を加え、14を代入する。ま
た、例えばイントネーションのグラフを表示するのであ
れば、M_y[1]に音声データの各セグメントのピッチ周波
数の平均の配列の0番目の要素の値114を代入する。
さらに、M_word_durに現在のM_word_durに手本音声デー
タの各セグメントの発話時間の配列のM_seg_cnt=0番
目の値14を加え、14とする。(ステップ904)。
Here, the sample points for actually displaying the line graph are acquired. That is, the value of M_x [0] is added to M_x [1] and M_seg_ of the array of the utterance time of each segment of audio data.
The value of the cnt = 0th element is added and 14 is substituted. Further, for example, when displaying a graph of intonation, the value 114 of the 0th element of the average array of pitch frequencies of each segment of audio data is substituted into M_y [1].
Further, M_word_dur is added to the current M_word_dur by adding 14 to the M_seg_cnt = 0th value of the array of the utterance time of each segment of the model voice data. (Step 904).

【0103】続いて実際に、折れ線グラフを表示する。
つまり、{(L_x[0], L_y[0]), (L_x[1], L_y[1])}の値で
ある{(0,0), (14,114)}の2点を結ぶ線分を表示する
(ステップ905)。
Then, a line graph is actually displayed.
That is, the line segment connecting the two points {(0,0), (14,114)}, which are the values of {(L_x [0], L_y [0]), (L_x [1], L_y [1])}, It is displayed (step 905).

【0104】次に、disp_word_flagがONであるかどう
かを調べ(ステップ906)、今ONなので、X軸の下
部に対応する単語文字列を表示するための処理を行う。
つまり、音声データの単語文字列の配列の0番目の値で
ある"how"を(x[1],0)の直下に表示する(ステップ90
7)。"how"を処理している間、もうこの文字列を表示
する必要はないので、disp_word_flagをOFFにする
(ステップ908)。
Next, it is checked whether or not disp_word_flag is ON (step 906). Since it is ON now, processing for displaying the word character string corresponding to the lower part of the X axis is performed.
That is, "how", which is the 0th value of the word character string array of the voice data, is displayed immediately below (x [1], 0) (step 90).
7). While processing "how", there is no need to display this character string anymore, so disp_word_flag is set to OFF (step 908).

【0105】0番目のセグメントに対する処理が終了し
たので、M_seg_cntに1を加え1として(ステップ90
9)、ステップ903へ戻る。1番目のセグメントにつ
いても上記と同様に折れ線グラフ表示を行う(ステップ
905、906)。
Since the processing for the 0th segment is completed, 1 is added to M_seg_cnt to make it 1 (step 90
9) and returns to step 903. A line graph is displayed for the first segment as well (steps 905 and 906).

【0106】ステップ409では、disp_word_flagがO
FFになっているので、単語文字列の表示処理は行わ
ず、ステップ909へ進む。
At step 409, disp_word_flag is set to O.
Since it is FF, the display processing of the word character string is not performed, and the process proceeds to step 909.

【0107】このとき、M_seg_cntが2となっている
(ステップ909)。ステップ903での比較の結果、
M_seg_cntがM_seg_num以上になったので、手本の0番目
の単語に対する処理を終え、ステップ805へ進む。こ
こで、M_word_dur=27となっている。
At this time, M_seg_cnt is 2 (step 909). As a result of the comparison in step 903,
Since M_seg_cnt has become equal to or larger than M_seg_num, the process for the 0th word of the example is finished, and the process proceeds to step 805. Here, M_word_dur = 27.

【0108】次に、学習者のL_word_cnt番目の単語に対
応するセグメントのデータを手本に対応させて表示する
ための倍率を計算する(ステップ805)。
Next, the magnification for displaying the data of the segment corresponding to the L_word_cnt th word of the learner in correspondence with the model is calculated (step 805).

【0109】すなわち、学習者のL_word_cnt番目の単語
に対応するセグメント数を示す変数L_word_seg_numに音
声データの各単語のセグメント数の配列のL_word_cnt=
0番目の値3を代入し、L_word_dur,iにそれぞれ0を
代入する。
That is, in the variable L_word_seg_num indicating the number of segments corresponding to the learner's L_word_cnt th word, L_word_cnt = of the array of the segment number of each word of the audio data is set.
The 0th value 3 is substituted, and 0 is substituted for L_word_dur, i.

【0110】次に、L_word_cnt=0番目の単語に対応す
る全てのセグメントに対して処理を終えたかどうか調べ
るために、iとL_word_seg_numを比較する。今、i=
0、L_word_seg_num=3なので、処理はステップ100
3へ進む。
Next, i is compared with L_word_seg_num in order to check whether or not all segments corresponding to the word L_word_cnt = 0th word have been processed. I =
Since 0 and L_word_seg_num = 3, the process is step 100.
Go to 3.

【0111】ここで、L_word_durに現在のL_word_dur=
0と音声データの各セグメントの発話時間の配列の(L_s
eg_cnt + i)=0番目の値24の和である24を代入す
る(ステップ1003)。
Here, the current L_word_dur in L_word_dur =
0 and the (L_s
eg_cnt + i) = 24, which is the sum of the 0th value 24, is substituted (step 1003).

【0112】さらに、次のセグメントの発話時間を調べ
るためiに1を加える(ステップ1004)。
Further, 1 is added to i to check the speech time of the next segment (step 1004).

【0113】このようにして、処理を2番目のセグメン
トまで終えたとする。このとき、i=3,L_word_dur=
46となり、ステップ1002の比較により、ステップ
1005へ進む。
In this way, it is assumed that the processing is completed up to the second segment. At this time, i = 3, L_word_dur =
46, and the process proceeds to step 1005 by comparing step 1002.

【0114】ステップ1005では、(M_word_dur=2
7)/(L_word_dur=46)をrateに代入する。すなわ
ち、rateに約0.59が代入される。
At step 1005, (M_word_dur = 2
7) / (L_word_dur = 46) is substituted for rate. That is, about 0.59 is substituted for rate.

【0115】学習者の音声データを表示する際の倍率が
求められた(ステップ805)ので、この倍率を利用し
て、L_word_cnt=0番目の学習者の単語に対応するイン
トネーション(ストレス)のグラフィック表示を行う
(ステップ806)。
Since the scale factor for displaying the learner's voice data is obtained (step 805), the scale factor is used to graphically display the intonation (stress) corresponding to the L_word_cnt = 0-th learner's word. Is performed (step 806).

【0116】ステップ1101では、L_seg_numに音声
データの各単語のセグメント数の配列のL_word_cnt番目
の要素を加える。ここで、L_seg_num=0、L_word_cnt
=0である。音声データの各単語のセグメント数の配列
の0番目の要素は3であるのでL_seg_num=3となる。
In step 1101, the L_word_cnt th element of the array of the segment number of each word of the audio data is added to L_seg_num. Here, L_seg_num = 0, L_word_cnt
= 0. Since the 0th element of the array of the number of segments of each word of the voice data is 3, L_seg_num = 3.

【0117】ステップ1102では、L_seg_cntとL_seg
_numの比較を行う。今、L_seg_cnt=0、L_seg_num=3
なので、処理はステップ1103へ進む。
At step 1102, L_seg_cnt and L_seg
Compare _num. Now L_seg_cnt = 0, L_seg_num = 3
Therefore, the process proceeds to step 1103.

【0118】ここで、実際に折れ線グラフ表示を行うた
めの標本点を取得する。すなわち、L_x[1]にL_x[0]の値
に音声データの各セグメントの発話時間の配列の0番目
の要素の値と倍率rateの積を加える。ここでは、0+24*
0.59=14.16を代入する。また、例えばイントネーション
のグラフを表示するのであれば、L_y[1]に音声データの
各セグメントのピッチ周波数の平均の配列の0番目の要
素の値104を代入する(ステップ1103)。続いて
実際に、折れ線グラフを表示する。つまり、{(L_x[0],
L_y[0]), (L_x[1], L_y[1])}の値である{(0,0), (14.1
6,104)}の2点を結ぶ線分を表示する(ステップ110
4)。
Here, sample points for actually displaying the line graph are acquired. That is, the value of L_x [0] is added to L_x [1] by the product of the value of the 0th element of the array of the speech time of each segment of the audio data and the scaling factor rate. Here, 0 + 24 *
Substitute 0.59 = 14.16. If an intonation graph is to be displayed, the value 104 of the 0th element of the average pitch frequency array of each segment of the audio data is assigned to L_y [1] (step 1103). Then, the line graph is actually displayed. That is, {(L_x [0],
The value of L_y [0]), (L_x [1], L_y [1])} is {(0,0), (14.1
6, 104)} is displayed (step 110)
4).

【0119】学習者のL_seg_cnt=0番目のセグメント
のデータの表示が終わったので、処理を次のセグメント
に進めるため、L_seg_cntに1を加える(ステップ11
05)。
Since the display of the learner's L_seg_cnt = 0th segment data is finished, 1 is added to L_seg_cnt in order to advance the processing to the next segment (step 11).
05).

【0120】このようにして、処理を進め、学習者の2
番目のセグメントまでの処理が終わるとL_seg_cnt=3
となり、ステップ1102の比較の結果、学習者のL_wo
rd_cnt=0番目の単語の処理を終わり、ステップ807
へ進む。
In this way, the processing is advanced and the learner's 2
L_seg_cnt = 3 after processing up to the th segment
Then, as a result of the comparison in step 1102, the learner's L_wo
rd_cnt = 0 processing of the 0th word ends, and step 807
Go to.

【0121】ステップ807では、処理を次の単語に進
めるため、L_word_cntに1を加え、1とし、ステップ8
02へ戻る。
In step 807, 1 is added to L_word_cnt to set 1 in order to advance the processing to the next word, and step 8
Return to 02.

【0122】このようにして処理を進め、3番目の単語
まで処理を終えたとき、L_word_cnt=4となり、ステッ
プ802の比較により、本実施例の全ての処理を終了す
る。
When the processing is advanced in this way and the processing is completed up to the third word, L_word_cnt = 4, and by the comparison in step 802, all the processing of this embodiment is ended.

【0123】なお、第3の本発明として、手本となる人
の音響的特徴量と言語シンボルとの対応付け内容と、学
習者のそれとを、上記実施例のように、正規化して表示
するのではなく、あるいは表示に加えて、両者の対応付
け内容を比較手段で比較して、その不一致の部分につい
て、ある単語のイントネーションを下げるようになどと
いう指示を表示するようにしてもよい。図16の130
はその指示の一例である。
As the third aspect of the present invention, the correspondence between the acoustic feature amount of the person who serves as a model and the language symbol and that of the learner are normalized and displayed as in the above embodiment. Alternatively, or in addition to the display, the comparison means may compare the contents of correspondence between the two and display an instruction to lower the intonation of a certain word in the mismatched portion. 130 of FIG.
Is an example of the instruction.

【0124】また、手本となる音声データなどは、予め
記憶手段に格納されてなく、いつでもネイティブスピー
カーなどによって入力でき、音声信号の所定の音響的特
徴量とそれに対応する言語シンボルとの対応付け内容が
得られるようになっていてもよい。
Further, the voice data as a model is not stored in the storage means in advance and can be input at any time by a native speaker or the like, and a predetermined acoustic feature amount of the voice signal is associated with a corresponding language symbol. The content may be available.

【0125】また、本発明の音響的特徴量とは、イント
ネーションやストレスに限らず、フォルマント等の他の
音響的特徴量であってもよい。
The acoustic feature amount of the present invention is not limited to intonation and stress, and may be another acoustic feature amount such as formant.

【0126】また、本発明の言語的シンボルとは、言
葉、発音記号、音素コード、音素片など、言語に関する
シンボルであればどのようなものでもよい。
The linguistic symbol of the present invention may be any symbol related to the language, such as words, phonetic symbols, phoneme codes, and phoneme pieces.

【0127】また、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現しても、それら機能を有す
る専用のハード回路を用いて実現してもかまわない。
Each means of the present invention may be realized by software using a computer or by using a dedicated hardware circuit having those functions.

【0128】[0128]

【発明の効果】以上の説明から明らかなように、第1の
本発明は、音声信号の所定の音響的特徴量とそれに対応
する言語シンボルとを対応付けながら表示する対応表示
手段を備えるので、その音響的特徴量と言語シンボルと
の対応関係が分かりやすいという長所を有する。
As is apparent from the above description, the first aspect of the present invention includes the correspondence display means for displaying the predetermined acoustic feature amount of the voice signal and the corresponding language symbol in association with each other. It has an advantage that the correspondence between the acoustic feature amount and the language symbol is easy to understand.

【0129】また、第2の本発明は、音声信号の所定の
音響的特徴量とそれに対応する言語シンボルとを対応付
ける対応手段と、少なくとも2種類の音声について、対
応手段によって得られた対応付け内容を比較する比較手
段とを備えるので、例えば、1種類の音声をネイティブ
スピーカーの音声とし、他方の種類の音声を学習者の音
声とすると、それらの比較によって、学習者の悪い所な
どを的確に指摘することが可能になる。また、第3の本
発明は、音声信号の所定の音響的特徴量とそれに対応す
る言語シンボルとを対応付ける対応手段と、少なくとも
2種類の音声について、各対応手段によって得られた対
応付け内容を正規化して表示する表示手段とを備えるの
で、例えば、1種類の音声をネイティブスピーカーの音
声とし、他方の種類の音声を学習者の音声とすると、そ
れらの対応付け内容が正規化されて表示されるので、そ
の表示を見て、学習者の悪い所などを的確に理解するこ
とが可能になる。
The second aspect of the present invention relates to a correspondence means for associating a predetermined acoustic feature quantity of a voice signal with a language symbol corresponding to the correspondence means, and a correspondence content obtained by the correspondence means for at least two kinds of voices. Since there is provided a comparison means for comparing, for example, when one type of voice is the voice of the native speaker and the other type of voice is the voice of the learner, by comparing them, the bad place of the learner can be accurately identified. It becomes possible to point out. Further, according to the third aspect of the present invention, associating means for associating a predetermined acoustic feature amount of a voice signal with a corresponding language symbol, and at least two types of speech, the associating content obtained by each corresponding means is normalized. Since the display means for displaying the converted sound is provided, for example, when one kind of sound is a native speaker sound and the other kind of sound is a learner's sound, the associated contents are normalized and displayed. Therefore, it is possible to accurately understand the bad places of the learner by looking at the display.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の音声認識装置の一実施例を示すブロッ
ク図である。
FIG. 1 is a block diagram showing an embodiment of a voice recognition device of the present invention.

【図2】本発明の音声認識手段の音声データである。FIG. 2 is voice data of a voice recognition means of the present invention.

【図3】第1の本発明の音声認識装置の一実施例を示す
ブロック図である。
FIG. 3 is a block diagram showing an embodiment of a voice recognition device of the first present invention.

【図4】本発明の音声認識手段の動作を示すフローチャ
ートである。
FIG. 4 is a flowchart showing the operation of the voice recognition means of the present invention.

【図5】第1の本発明の対応表示手段の動作を説明する
ためのフローチャートである。
FIG. 5 is a flow chart for explaining the operation of the correspondence display means of the first present invention.

【図6】第1の本発明の対応表示手段の動作を説明する
ためのフローチャートである。
FIG. 6 is a flowchart for explaining the operation of the correspondence display means of the first present invention.

【図7】第2の本発明の音声認識装置の一実施例を示す
ブロック図である。
FIG. 7 is a block diagram showing an embodiment of a voice recognition device of the second invention.

【図8】同実施例の教材ファイルの一例を示す構成図で
ある。
FIG. 8 is a configuration diagram showing an example of a teaching material file of the embodiment.

【図9】同実施例の手本音声データファイルの一例を示
す構成図である。
FIG. 9 is a configuration diagram showing an example of a model voice data file of the embodiment.

【図10】同実施例の動作を説明するためのフローチャ
ートである。
FIG. 10 is a flowchart for explaining the operation of the embodiment.

【図11】図10のステップ803の詳細フローチャー
トである。
11 is a detailed flowchart of step 803 of FIG.

【図12】図10のステップ803の詳細フローチャー
トである。
12 is a detailed flowchart of step 803 in FIG.

【図13】図10のステップ805の詳細フローチャー
トである。
FIG. 13 is a detailed flowchart of step 805 in FIG.

【図14】図10のステップ806の詳細フローチャー
トである。
FIG. 14 is a detailed flowchart of step 806 in FIG.

【図15】第2の本発明の音声認識装置の表示画面を示
す図である。
FIG. 15 is a diagram showing a display screen of a voice recognition device according to a second aspect of the present invention.

【図16】第2の本発明の音声認識装置の表示画面を示
す図である。
FIG. 16 is a diagram showing a display screen of a voice recognition device according to a second aspect of the present invention.

【符号の説明】 30 入力手段 31 音声認識手段 32 グラフィック表示部 50 入力手段 51 音声認識手段 52 練習文提示部 53 手本データ取得部 54 正規化及びグラフィック表示部 55 教材データ 56 手本音声データ[Explanation of Codes] 30 Input Means 31 Voice Recognition Means 32 Graphic Display Unit 50 Input Means 51 Voice Recognition Means 52 Practice Sentence Presentation Unit 53 Model Data Acquisition Unit 54 Normalization and Graphic Display Unit 55 Teaching Material Data 56 Model Voice Data

───────────────────────────────────────────────────── フロントページの続き (72)発明者 田川 忠道 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 加藤 正明 愛知県名古屋市千種区内山三丁目8番10号 株式会社沖テクノシステムズラボラトリ 内 ─────────────────────────────────────────────────── ─── Continued Front Page (72) Inventor Tadamichi Tagawa 1-7-12 Toranomon, Minato-ku, Tokyo Within Oki Electric Industry Co., Ltd. (72) Inventor Masaaki Kato 3-8-10 Uchiyama, Chikusa-ku, Nagoya, Aichi Prefecture Oki Techno Systems Laboratory Co., Ltd.

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 音声を入力する入力手段と、その音声信
号から音声認識を行い、言語シンボルを得る認識手段
と、前記音声信号の所定の音響的特徴量とそれに対応す
る前記言語シンボルとを対応付けながら表示する対応表
示手段とを備えたことを特徴とする音声認識装置。
1. An input unit for inputting voice, a recognition unit for performing voice recognition from the voice signal to obtain a language symbol, and a predetermined acoustic feature amount of the voice signal and the corresponding language symbol. A voice recognition device comprising: a corresponding display means for displaying while attaching.
【請求項2】 不特定話者の音声を入力する入力手段
と、その音声信号から音声認識を行い、言語シンボルを
得る認識手段と、前記音声信号の所定の音響的特徴量と
それに対応する前記言語シンボルとの対応付け内容を、
少なくとも2種類の音声について、正規化して対応させ
表示する表示手段とを備えたことを特徴とする音声認識
装置。
2. An input unit for inputting a voice of an unspecified speaker, a recognition unit for performing voice recognition from the voice signal to obtain a language symbol, a predetermined acoustic feature amount of the voice signal and the corresponding acoustic feature amount. The contents associated with the language symbol are
A voice recognition device, comprising: a display unit that normalizes and displays at least two types of voices.
【請求項3】 不特定話者の音声を入力する入力手段
と、その音声信号から音声認識を行い、言語シンボルを
得る認識手段と、前記音声信号の所定の音響的特徴量と
それに対応する前記言語シンボルとの対応付け内容を、
少なくとも2種類の音声について、比較する比較手段と
を備えたことを特徴とする音声認識装置。
3. An input unit for inputting a voice of an unspecified speaker, a recognition unit for performing voice recognition from the voice signal to obtain a language symbol, a predetermined acoustic feature amount of the voice signal and the corresponding acoustic feature amount. The contents associated with the language symbol are
A voice recognition device comprising: a comparison means for comparing at least two types of voices.
【請求項4】 前記2種類の音声は、手本となる音声
と、学習者の音声であり、教育目的に用いられることを
特徴とする請求項2又は3記載の音声認識装置。
4. The voice recognition device according to claim 2, wherein the two types of voices are a voice that serves as a model and a voice of a learner, and are used for educational purposes.
【請求項5】 前記手本となる音声についての前記対応
付け内容は、予め獲得され、記憶手段に格納されている
ことを特徴とする請求項4記載の音声認識装置。
5. The voice recognition apparatus according to claim 4, wherein the correspondence content of the model voice is acquired in advance and stored in a storage unit.
JP3330807A 1991-12-13 1991-12-13 Voice recognizing device Pending JPH05165494A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3330807A JPH05165494A (en) 1991-12-13 1991-12-13 Voice recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3330807A JPH05165494A (en) 1991-12-13 1991-12-13 Voice recognizing device

Publications (1)

Publication Number Publication Date
JPH05165494A true JPH05165494A (en) 1993-07-02

Family

ID=18236775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3330807A Pending JPH05165494A (en) 1991-12-13 1991-12-13 Voice recognizing device

Country Status (1)

Country Link
JP (1) JPH05165494A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191692A (en) * 1993-12-27 1995-07-28 Nec Corp Utterance training device
WO2001052237A1 (en) * 2000-01-14 2001-07-19 Atr Human Information Processing Research Laboratories Foreign language learning apparatus, foreign language learning method, and medium
JP2008180750A (en) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd Voice labeling support system
JP2008262120A (en) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> Utterance evaluation device and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07191692A (en) * 1993-12-27 1995-07-28 Nec Corp Utterance training device
WO2001052237A1 (en) * 2000-01-14 2001-07-19 Atr Human Information Processing Research Laboratories Foreign language learning apparatus, foreign language learning method, and medium
US7401018B2 (en) 2000-01-14 2008-07-15 Advanced Telecommunications Research Institute International Foreign language learning apparatus, foreign language learning method, and medium
JP2008180750A (en) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd Voice labeling support system
JP2008262120A (en) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> Utterance evaluation device and program

Similar Documents

Publication Publication Date Title
US5857173A (en) Pronunciation measurement device and method
US7280964B2 (en) Method of recognizing spoken language with recognition of language color
US6424935B1 (en) Two-way speech recognition and dialect system
US6397185B1 (en) Language independent suprasegmental pronunciation tutoring system and methods
US6963841B2 (en) Speech training method with alternative proper pronunciation database
Muhammad et al. E-hafiz: Intelligent system to help muslims in recitation and memorization of Quran
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
Carlson et al. Experiments with voice modelling in speech synthesis
Chun Teaching tone and intonation with microcomputers
TW556152B (en) Interface of automatically labeling phonic symbols for correcting user&#39;s pronunciation, and systems and methods
Keating et al. Phonetic analyses of word and segment variation using the TIMIT corpus of American English
Hiller et al. SPELL: An automated system for computer-aided pronunciation teaching
Brett Computer generated feedback on vowel production by learners of English as a second language
Johnson An integrated approach for teaching speech spectrogram analysis to engineering students
JPH05165494A (en) Voice recognizing device
Aguilera et al. Impaired persons facilities based on a multi-modality speech processing system
Dai An automatic pronunciation error detection and correction mechanism in English teaching based on an improved random forest model
Ramteke et al. Text-To-Speech Synthesizer for English, Hindi and Marathi Spoken Signals‖
Rahmatunisa et al. The Use of Praat in Learning English Debate in Indonesian EFL Classroom
Hismanoglu et al. Computer assisted pronunciation teaching: From the past to the present with its limitations and pedagogical implications
Strik et al. Speech technology for language tutoring
Saini Speech recognition system (speech to text)(text to speech)
JPS58172680A (en) Enunciation training apparatus
Petrushin Using speech analysis techniques for language learning
Akahane-Yamada et al. ATR CALL: A speech perception/production training system utilizing speech technology