JPH0632005B2 - Japanese voice input device - Google Patents

Japanese voice input device

Info

Publication number
JPH0632005B2
JPH0632005B2 JP59040935A JP4093584A JPH0632005B2 JP H0632005 B2 JPH0632005 B2 JP H0632005B2 JP 59040935 A JP59040935 A JP 59040935A JP 4093584 A JP4093584 A JP 4093584A JP H0632005 B2 JPH0632005 B2 JP H0632005B2
Authority
JP
Japan
Prior art keywords
voice
syllable
input
pattern
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59040935A
Other languages
Japanese (ja)
Other versions
JPS60184297A (en
Inventor
充宏 斗谷
文雄 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP59040935A priority Critical patent/JPH0632005B2/en
Publication of JPS60184297A publication Critical patent/JPS60184297A/en
Publication of JPH0632005B2 publication Critical patent/JPH0632005B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 <発明の技術分野> 本発明は入力された音声を音節単位に認識する日本語音
声入力装置の改良に関し、更に詳細には1つの音節に対
して単音節音声で入力された特徴パターンと、発声され
た連続音声より得られた特徴パターンとを特徴標準パタ
ーンとして備え、連続音声の認識に適した日本語音声入
力装置としたものである。
Description: TECHNICAL FIELD OF THE INVENTION The present invention relates to an improvement of a Japanese voice input device for recognizing an input voice in syllable units, and more specifically, inputting a single syllable voice for one syllable. The Japanese speech input device suitable for recognizing continuous speech is provided with the generated characteristic pattern and the characteristic pattern obtained from the uttered continuous speech as characteristic standard patterns.

<発明の技術的背景とその問題点> 従来の音声認識装置においては、音声の特徴標準パター
ンを登録する登録モードと、入力音声を認識する認識モ
ード(入力モード)とを分け、認識モードで入力された
音声を分析して得られた特徴パターンを特徴標準パター
ンとして登録することが出来なかった。このことは単語
を認識の単位とする場合にはあまり問題とならないが、
音節を単位とする場合には、各音節が前後の音節の影響
を受け(調音結合)、また単語あるいは文節内の音節位
置による音声の強弱・高低の差もはげしくこの結果認識
性能の低下が生じるという問題点があった。
<Technical Background of the Invention and Problems> In a conventional voice recognition device, a registration mode for registering a voice feature standard pattern and a recognition mode (input mode) for recognizing an input voice are separated and input in the recognition mode. The characteristic pattern obtained by analyzing the generated voice could not be registered as the characteristic standard pattern. This is not a problem when using words as the unit of recognition,
When syllable is used as a unit, each syllable is affected by the preceding and following syllables (articulation coupling), and the difference in the strength and height of the voice depending on the syllable position in the word or syllable is also severe, resulting in deterioration of recognition performance. There was a problem.

このような問題点を解決するため、従来は登録時に一つ
の音節を数回登録して、多くの特徴標準パターンを持つ
ことによって対応していたが、調音結合や声の強弱,高
低は人により様々であり、総ての場合の音節環境につい
ての特徴標準パターンを予め登録することは不可能であ
った。
In order to solve such a problem, in the past, one syllable was registered several times at the time of registration, and it was dealt with by having many characteristic standard patterns. It was impossible to pre-register feature standard patterns for syllable environments in all cases.

<発明の目的> 本発明は上記の点に鑑みて成されたものであり一つの音
節に対して複数の特徴標準パターンを備えるようにした
音声入力装置において、予め登録した特徴標準パターン
に対して認識モードの入力時に取り込んだ連続音声を分
析して得られた特徴パターンの所望音節の特徴パターン
を登録ができるようにすることによって認識性能を向上
させることを目的とし、この目的を達成するため、本発
明の日本語音声入力装置は、音声の特徴標準パターンを
登録する登録モード時に単音節音声で入力された単音節
の特徴標準パターンが登録される第1のメモリと、入力
音声を認識する認識モード時に、入力された語句の連続
音声の各音節の波形と特徴パターンを一時記憶する一時
記憶メモリと、前記入力音声の認識結果を表示する表示
手段と、必要に応じて前記認識結果を修正する修正手段
と、前記認識モード時に,入力された語句の連続音声の
中の所望の音節の特徴パターンを特徴パターンとして登
録指示する指示手段と,前記指示手段により指示された
音節に対応する一時記憶メモリの波形を読み出して音声
出力させる再生出力手段と,前記再生出力手段の再生後
に,前記指示手段により指示した音節の特徴パターンの
登録を実行指示するための実行指示手段と,前記実行指
示手段の指示に基づき,連続音声をを分析して得られた
一時記憶メモリの特徴標準パターンが,特徴標準パター
ンとして登録される第2のメモリとを備え,認識モード
時に入力された語句の中の所望音節を表示修正し再生確
認した後、この特徴パターンを特徴標準パターンとして
登録できるようになしたものである。
<Objects of the Invention> The present invention has been made in view of the above points, and in a voice input device having a plurality of characteristic standard patterns for one syllable, with respect to a characteristic standard pattern registered in advance. The purpose is to improve the recognition performance by enabling the registration of the characteristic pattern of the desired syllable of the characteristic pattern obtained by analyzing the continuous voice captured at the time of inputting the recognition mode, and in order to achieve this purpose, The Japanese voice input device of the present invention recognizes an input voice and a first memory in which a feature standard pattern of a monosyllabic voice input in a registration mode for registering a voice feature standard pattern is registered. In the mode, a temporary storage memory for temporarily storing the waveform and characteristic pattern of each syllable of the continuous speech of the input phrase, and a display for displaying the recognition result of the input speech. A step, a correction means for correcting the recognition result as necessary, an instruction means for instructing registration of a characteristic pattern of a desired syllable in a continuous speech of an input phrase as a characteristic pattern in the recognition mode, Reproduction output means for reading out the waveform of the temporary storage memory corresponding to the syllable instructed by the instructing means and outputting the sound, and, after reproduction by the reproduction output means, instructing execution of registration of the characteristic pattern of the syllable instructed by the instructing means. And a second memory in which the characteristic standard pattern of the temporary storage memory obtained by analyzing the continuous voice based on the instruction of the execution instructing means is registered as the characteristic standard pattern, After the desired syllable in the phrase input in the recognition mode is displayed and corrected for playback confirmation, this feature pattern can be registered as a feature standard pattern. Those were.

また、本発明の実施例によれば、特徴標準パターンとし
ての登録を指示された音声の認識結果を用いることによ
って登録可能な特徴標準パターンの音節を限定し、極端
に異なった音声特徴パターンが特徴標準パターンになら
ないように成されており、更に入力した音声を記憶して
おくことにより、特徴標準パターンとしての登録を指示
した音節に対応する部分の音声を再生出力して、正確に
音節として切り出されたか否かを入力者自身が確認でき
るように成されている。
Further, according to the embodiment of the present invention, the syllables of the feature standard pattern that can be registered are limited by using the recognition result of the voice instructed to be registered as the feature standard pattern, and the extremely different voice feature patterns are featured. It is designed so that it does not become a standard pattern, and by further storing the input voice, the voice of the part corresponding to the syllable instructed to be registered as a characteristic standard pattern is reproduced and output, and is accurately cut out as a syllable. It is designed so that the input person himself can confirm whether or not the input has been made.

<発明の実施例> 以下、図面を参照して本発明を、連続的に発声された音
声を音節単位に認識し、この認識結果をキーボード等の
入力装置で修正した後に、単語等の単位で外部装置に転
送する機能を有する日本語音声入力装置を一例として説
明する。
<Embodiment of the Invention> Hereinafter, with reference to the drawings, the present invention recognizes continuously uttered speech in syllable units, corrects the recognition result with an input device such as a keyboard, and then, in units of words or the like. A Japanese voice input device having a function of transferring to an external device will be described as an example.

第1図は本発明の一実施例装置の構成を示すブロック図
である。
FIG. 1 is a block diagram showing the configuration of an apparatus according to an embodiment of the present invention.

第1図において、発声され入力された音声はマイクロホ
ン1等を介してアナログ入力部2に入力され、該アナロ
グ入力部2内の増幅部3によって増幅された後、アナロ
グ/デジタル変換部4によってデジタル信号に変換さ
れ、そのデジタル信号が音声分析部5及び音節セグメン
テーション部6に入力される。
In FIG. 1, a voice that has been uttered and input is input to an analog input section 2 via a microphone 1 or the like, amplified by an amplification section 3 in the analog input section 2, and then digitalized by an analog / digital conversion section 4. The signal is converted into a signal, and the digital signal is input to the voice analysis unit 5 and the syllable segmentation unit 6.

音声分析部5では入力音声を16ms程度のフレームに
分け、スペクトル分析を行ない、8ms程度の間隔で音
節セグメンテーション部6に特徴パターンと、音節のセ
グメンテーションに必要な情報(パワー、零交差数等)
を転送する。
The voice analysis unit 5 divides the input voice into frames of about 16 ms, performs spectrum analysis, and at the intervals of about 8 ms, the syllable segmentation unit 6 features patterns and information necessary for syllable segmentation (power, number of zero crossings, etc.).
To transfer.

音節セグメンテーション部6では、音声分析部5からの
種々の情報を用いて、入力音声から音節を切り出す。そ
の切り出した部分の特徴パターンと、その区間の音声波
形を波形・特徴パターン一時メモリ7にたくわえる。そ
して、音節を切り出したことをCPU8に伝達すると共
に波形・特徴パターン一時メモリ7内のアドレスも同時
に伝達する。
The syllable segmentation unit 6 cuts out a syllable from the input voice using various information from the voice analysis unit 5. The characteristic pattern of the cut-out portion and the voice waveform of the section are stored in the waveform / characteristic pattern temporary memory 7. Then, the fact that the syllable is cut out is transmitted to the CPU 8 and the address in the waveform / feature pattern temporary memory 7 is transmitted at the same time.

波形・特徴パターン一時メモリ7は複数の音節をたくわ
えることができるように構成されている。
The waveform / feature pattern temporary memory 7 is configured to store a plurality of syllables.

音節セグメンテーション部6の処理はCPU8からの命
令により、開始・停止がコントロールされるように構成
されている。
The processing of the syllable segmentation unit 6 is configured so that the start / stop is controlled by an instruction from the CPU 8.

9は単音節認識部であり、該単音節認識部9では、CP
U8からの命令によりパターンメモリ10内の特徴パタ
ーンメモリ10aと標準パターンメモリ10b及び10
cとの間で距離計算等を行ない、その結果をCPU8に
戻す。そして、CPU8はその結果を、認識結果格納メ
モリ11にたくわえ、表示装置12に表示する。認識結
果格納メモリ11は、複数の音節に対する認識結果をた
くわえることができるように構成されている。
9 is a monosyllabic recognition unit, and the monosyllabic recognition unit 9
A characteristic pattern memory 10a in the pattern memory 10 and standard pattern memories 10b and 10 in response to a command from U8.
The distance calculation and the like are performed with c and the result is returned to the CPU 8. Then, the CPU 8 stores the result in the recognition result storage memory 11 and displays it on the display device 12. The recognition result storage memory 11 is configured to store the recognition results for a plurality of syllables.

13は音声出力制御部であり、該音声出力制御部13で
は、CPU8の命令により、波形・特徴パターン一時メ
モリ7の任意の部分に記憶された情報をアナログ出力部
14に送る。そしてアナログ出力部14では音声のデジ
タル信号をデジタルアナログ変換部14a及び増幅器1
4bによって音声波形に再生し出力するように構成され
ている。
Reference numeral 13 is a voice output control unit, and the voice output control unit 13 sends information stored in an arbitrary portion of the waveform / feature pattern temporary memory 7 to the analog output unit 14 in accordance with a command from the CPU 8. The analog output unit 14 converts the audio digital signal into a digital-analog conversion unit 14a and an amplifier 1.
4b to reproduce and output a voice waveform.

なお、上記パターンメモリ10は三つの部分に分かれて
おり、10aは特徴パターンメモリであり入力された音
節に対応する特徴パターンを一個分だけ記憶できる。後
の二つの10b及び10cは特徴標準パターン用メモリ
であり、10bのエリアは登録モードで登録する音節の
特徴パターン用のメモリであり、10cのエリアは本特
許で実現される認識(入力)モードで登録される音節の
特徴パターン用のメモリである。
The pattern memory 10 is divided into three parts, and 10a is a characteristic pattern memory and can store only one characteristic pattern corresponding to the input syllable. The latter two 10b and 10c are memory for characteristic standard patterns, the area 10b is memory for characteristic patterns of syllables registered in the registration mode, and the area 10c is the recognition (input) mode realized by this patent. This is a memory for the characteristic patterns of syllables registered in.

上記音節の特徴パターン用メモリ10b及び10cは後
述するようにそれぞれ各音節名をコードで記憶するエリ
ア、登録の有無を記憶するフラグエリア及び特徴標準パ
ターンデータを記憶する特徴標準パターンエリアより構
成されている。
The syllable characteristic pattern memories 10b and 10c are each composed of an area for storing each syllable name as a code, a flag area for storing the presence or absence of registration, and a characteristic standard pattern area for storing characteristic standard pattern data, as will be described later. There is.

また15はキーボード等により構成された入力部であ
り、例えば第2図に示すようにカナキー15a,登録モ
ードキー15b,認識モードキー15c,音節登録キー
15d等が備えられている。
Reference numeral 15 is an input unit composed of a keyboard or the like, and is provided with, for example, a kana key 15a, a registration mode key 15b, a recognition mode key 15c, a syllable registration key 15d, etc., as shown in FIG.

また16は認識結果は外部装置に転送する際のデータの
送受信の制御を行なうI/F部である。
Reference numeral 16 is an I / F unit that controls transmission / reception of data when the recognition result is transferred to an external device.

次に、上記の如く構成された装置の動作を登録モード及
び認識モードについて説明する。
Next, the operation of the apparatus configured as described above will be described in the registration mode and the recognition mode.

I.登録モードの説明 第3図は、登録モードにおけるCPU8の処理フローを
示したものである。
I. Description of Registration Mode FIG. 3 shows a processing flow of the CPU 8 in the registration mode.

第3図において、装置本体が登録モードキー15bの操
作によって登録モードに設定されるとまずステップn1
においてパターンメモリ10が初期化され、標準パター
ンが総て消去される。第1表は標準パターンメモリ10
bの構成を示したものであり、標準パターンメモリ10
cも同様に構成されている。
In FIG. 3, when the main body of the apparatus is set to the registration mode by operating the registration mode key 15b, first step n1
At, the pattern memory 10 is initialized and all standard patterns are erased. Table 1 shows the standard pattern memory 10
2 shows the configuration of the standard pattern memory 10
c has the same structure.

ステップn1における初期化の処理は標準パターンメモ
リ10b及び10cの登録の有無のフラグエリアに
「0」を入れることで実現される。次にステップn2に
移行して発声すべき単音節が表示装置12に次のように
表示される。
The initialization process in step n1 is realized by putting "0" in the flag area of presence / absence of registration in the standard pattern memories 10b and 10c. Next, in step n2, the monosyllable to be uttered is displayed on the display device 12 as follows.

「あ」 ここで添字の「1」は「あ」のパターンの中の一番目で
あることを示している。
"1" of "A 1" subscript here shows that it is a one-th in the pattern of "A".

オペレータはこの表示装置12の表示を見て、所定の単
音節の音声を発声して入力する。
The operator looks at the display of the display device 12 and utters a predetermined monosyllabic voice to input.

この音声入力に応じてステップn3に移行して音節セグ
メンテーション部6に音声の切り出しの開始の指示を行
ない、音節セグメンション部6は単音節を切り出し、そ
の区間の波形及び音声分析部5で得られた特徴パターン
を波形・特徴パターン一時メモリ7に記憶させる。
In response to this voice input, the process proceeds to step n3, where the syllable segmentation unit 6 is instructed to start the cutout of voice, and the syllable segmentation unit 6 cuts out a single syllable and is obtained by the waveform and voice analysis unit 5 of the section. The feature pattern is stored in the waveform / feature pattern temporary memory 7.

ステップn4で音節セグメンテーション部6で単音節が
切り出されたかどうかのチエックを行ない、切り出され
ると次のステップn5に移行する。
In step n4, the syllable segmentation unit 6 checks whether or not a single syllable has been cut out, and when cut out, the process proceeds to the next step n5.

ステップn5では音節セグメンテーション部6に切り出
し処理の停止を命令し登録の処理を継続する。
In step n5, the syllable segmentation unit 6 is instructed to stop the cutout processing, and the registration processing is continued.

ステップn6では今切り出された音節に対応する音声部
分を波形・特徴パターン一時メモリ7より読み出して音
声出力制御部13を介してアナログ出力部14より再生
出力させる。
In step n6, the voice portion corresponding to the syllabary just cut out is read from the waveform / feature pattern temporary memory 7 and reproduced and output from the analog output unit 14 via the voice output control unit 13.

ステップn7では再生出力された音声にもとずいてオペ
レータが正確に切り出されたかどうかを判定し、その結
果のキーボード15による指示に従い、再切り出しか登
録の実行かを決定する。このステップn7において、オ
ペレータが再生出力を聞いて正確に切り出されたと判断
した場合には実行キー15iを操作することになってス
テップn8に移行し、オペレータが再切り出しを指示す
る場合には、解除キー15hの操作に応じて、ステップ
n3に戻ることになる。
In step n7, it is determined whether or not the operator has correctly cut out based on the reproduced and output voice, and whether to perform recutting or registration is determined according to the instruction from the keyboard 15 as a result. In step n7, when the operator hears the reproduction output and determines that the cutout has been performed correctly, the execution key 15i is operated, and the process proceeds to step n8. When the operator instructs recutting, the release is performed. In response to the operation of the key 15h, the process returns to step n3.

ステップn8では表示装置12に表示されている音節に
対応する特徴標準パターンメモリ10bの位置に特徴標
準パターンを記憶させると共に対応する登録の有無を示
すフラグに「1」をセットする。
At step n8, the characteristic standard pattern is stored at the position of the characteristic standard pattern memory 10b corresponding to the syllable displayed on the display device 12, and "1" is set to the flag indicating the presence or absence of the corresponding registration.

ステップn9では全標準パターンの登録が終了されたか
どうかの判断を行ない、終了していなければステップn
2に戻り、次の単音節の表示、例えば「あ」を表示
し、同様の処理を行なう。
In step n9, it is determined whether or not the registration of all the standard patterns has been completed.
To return to the 2, the display of the next single syllable, for example, to display the "A 2", performs the same processing.

このようにして、登録が終了すると標準パターンメモリ
11bには総ての単音節の特徴標準パターンが数個ずつ
登録されることになる。
In this way, when registration is completed, several standard feature patterns of all monosyllabic patterns are registered in the standard pattern memory 11b.

次に認識モードの動作を説明する。Next, the operation of the recognition mode will be described.

II.認識モードの説明 第4図は、認識モードにおけるCPU8の処理フローを
示したものである。
II. Description of Recognition Mode FIG. 4 shows a processing flow of the CPU 8 in the recognition mode.

まず、認識モードキー15cの操作によって装置が認識
モードに設定され、オペレータが認識すべき音声を発声
すると、この入力音声に応じてステップn11では音節
セグメンテーション部6に音節の切り出し開始の命令を
与える。そして、音節セグメンテーション部6は波形・
特徴パターン一時メモリ7を初期化し、以後切り出した
音節に対応する特徴パターンと波形を先頭番地から入れ
ていき、各音節の波形及び特徴パターンの始端と終端番
地の情報をCPU8に与える。
First, when the apparatus is set to the recognition mode by operating the recognition mode key 15c and the operator utters a voice to be recognized, in step n11, in response to this input voice, the syllable segmentation unit 6 is instructed to start syllabic segmentation. Then, the syllable segmentation unit 6
The characteristic pattern temporary memory 7 is initialized, and the characteristic patterns and waveforms corresponding to the syllabaries cut out thereafter are entered from the head address, and the information of the waveform of each syllable and the start and end addresses of the characteristic pattern is given to the CPU 8.

ステップn12では音節が切り出されたかどうかのチエ
ックを行ない、切り出されるとステップn13に移る。
In step n12, it is checked whether or not the syllable is cut out, and when it is cut out, the process proceeds to step n13.

ステップn13では、波形・特徴パターン一時メモリ7
の特徴パターンをパターンメモリ10の特徴パターンメ
モリ10aの領域に転送して認識を行なう。即ち単音節
認識部9に認識の命令を与えることにより特徴パターン
メモリ10aの内容と標準パターンメモリ10b,10
cの内容の照合により認識が行なわれ、その結果を認識
結果格納メモリ7に入れるとともに、表示装置12に表
示する(ステップn14)。
At step n13, the waveform / characteristic pattern temporary memory 7
The characteristic pattern is transferred to the area of the characteristic pattern memory 10a of the pattern memory 10 for recognition. That is, by giving a recognition command to the monosyllabic recognition unit 9, the contents of the characteristic pattern memory 10a and the standard pattern memories 10b, 10
Recognition is performed by collating the contents of c, and the result is stored in the recognition result storage memory 7 and displayed on the display device 12 (step n14).

例えば、入力音声として「かいもの」と発声したときの
認識結果の第1位が「かぎもも」であれば表示装置12
には かぎもも と表示され、また認識結果格納メモリ11には、各音節
に対する複数の認識結果候補が例えば第2表に示すよう
に格納される。
For example, if the first rank of the recognition result when uttering "Kaimono" as the input voice is "Kagimo", the display device 12
Is displayed as a key, and a plurality of recognition result candidates for each syllable are stored in the recognition result storage memory 11 as shown in Table 2, for example.

上記の「かいもの」といった単語の入力が終わると、オ
ペレータはキーボード入力部15の「終了」キー15g
を入力する。そうすると、音節セグメンテーション部6
に切り出しの停止が命令される(ステップn15,n1
6)。そして、全文字列が正解であれば「転送」のキー
15jを入力することにより、I/F部16を介して外部
装置にカナ文字を出力することができる(ステップn1
8,n19)。
When the input of the word such as "Kaimono" is completed, the operator inputs "End" key 15g of the keyboard input unit 15.
Enter. Then, the syllable segmentation unit 6
To stop cutting (steps n15, n1)
6). Then, if all the character strings are correct, by inputting the "transfer" key 15j, kana characters can be output to the external device via the I / F unit 16 (step n1).
8, n19).

また認識結果の表示を見て、ほとんどの文字が間違って
いたり、言い間違いをしたときには「取消」キー15f
を入力することにより、ステップn17の判断により、
初期状態に戻すことができる。
If you look at the display of the recognition result and find that most of the characters are incorrect or you make a mistake, you can press the "Cancel" key 15f.
By inputting, by the judgment in step n17,
The initial state can be restored.

また、一部の認識結果が違っている場合には、ステップ
n20に示すように、オペレータがキーによる修正を行
なうことになる。
If a part of the recognition results is different, the operator will make a correction with the key as shown in step n20.

キーによる修正には二種類の方法がある。There are two ways to modify by key.

まず、修正したい位置にカーソル移動キー15k,15
l「→」「←」を用いて、修正したい文字のところにカ
ーソルを持っていく。例えば第2文字目の「ぎ」を修正
したい場合には、カーソル移動キー「←」15lの操作
による表示は次のようになる。
First, move the cursor to the position you want to correct with the cursor movement keys 15k, 15
l Use "→" and "←" to move the cursor to the character you want to correct. For example, when it is desired to correct the second character "Gi", the display by operating the cursor movement key "←" 15l is as follows.

かぎもも 一つの方法としては、このカーソル位置でキーボード1
5のカナキー15aで文字を入れることにより、次のよ
うに修正する。
One method is to use the keyboard 1 at this cursor position.
The following corrections are made by inserting characters with the No. 5 kana key 15a.

もう一つの方法としては、キーボード15の「音節次候
補」のキー15eを入力することによって のように修正ができる。
Another method is to enter the “syllabic candidate” key 15e on the keyboard 15 Can be modified as follows.

ここで、この「い」の入力音声を本発明にしたがって標
準パターンとして登録を行なう場合には「音節登録」キ
ー15dを入力することにより、ステップn21の判断
でステップn22に移り、音声出力制御部13に再生す
べき音節の波形の始端と終端の番地が指示され、波形・
特徴パターン一時メモリ7より該当部分の波形が読み出
されて音声出力制御部13を介してアナログ出力部14
に与えられ、該アナログ出力部14から「い」に対応す
る音声が再生出力される。
Here, in the case of registering the input voice of "i" as a standard pattern according to the present invention, by inputting the "syllabic registration" key 15d, the process shifts to step n22 in the judgment of step n21, and the voice output control unit Indicate the start and end addresses of the waveform of the syllable to be reproduced in 13
The waveform of the corresponding portion is read from the characteristic pattern temporary memory 7, and the analog output unit 14 is passed through the voice output control unit 13.
And the sound corresponding to “i” is reproduced and output from the analog output unit 14.

オペレータはこの再生音声を聞くことにより、入力者自
身によって切り出し位置が正確かどうかの判断を下し、
「実行」キー15iあるいは「解除」キー15hを入力
することになるが、「実行」キー15iが押されるとス
テップn23からステップn24に進み、「解除」キー
15hが押されるとステップn17に進むことになる。
By listening to this reproduced voice, the operator determines whether the cutout position is correct by the input person himself,
When the "execute" key 15i or the "cancel" key 15h is input, the process proceeds from step n23 to step n24 when the "execute" key 15i is pressed, and to step n17 when the "cancel" key 15h is pressed. become.

ステップn23からステップn24に移行するとCPU
8は指定された音声に対応する音節特徴パターンとして
波形・特徴パターン一時メモリ7内に記憶された該当音
節の特徴パターンをパターンメモリ10の標準パターン
メモリ10cに登録する。この時、認識結果の音節候補
群以外の音節としては登録ができないように成されてい
る。即ち波形・特徴パターン一時メモリ7に記憶された
各音節に対する特徴パターンは認識結果の各音節候補に
対する特徴標準パターンとしてしか登録できないように
成されている。したがって、例えば今の例では第1音節
の特徴パターンは「か」,「た」,「が」,「は」以外
の特徴標準パターンとして登録できないようになされて
いる。
CPU moves from step n23 to step n24
Reference numeral 8 registers the feature pattern of the syllable stored in the waveform / feature pattern temporary memory 7 as the syllable feature pattern corresponding to the designated voice in the standard pattern memory 10c of the pattern memory 10. At this time, syllables other than the syllable candidate group of the recognition result cannot be registered. That is, the feature pattern for each syllable stored in the waveform / feature pattern temporary memory 7 can be registered only as the feature standard pattern for each syllable candidate of the recognition result. Therefore, for example, in the present example, the characteristic pattern of the first syllable cannot be registered as a characteristic standard pattern other than "ka", "ta", "ga", and "ha".

第3表は標準パターンメモリ10cの構成例を示したも
のである。
Table 3 shows a configuration example of the standard pattern memory 10c.

上記例では、入力音声を「い」として登録を行なうの
で、音節名「い」のエリアで登録の無いところ、すなわ
ち「い」に特徴パターンを転送し登録の有無を「1」
にする。
In the above example, since the input voice is registered as "i", the feature pattern is transferred to a place where there is no registration in the syllable name "i", that is, "i c ", and registration is performed as "1".
To

もし登録の有無が総て「1」の場合、例えば第3表の
「あ」の場合には、「あ」までが登録されているの
で、一番時間的に古い「あ」のエリアのデータを消し
てから、その場所に登録する。上記実施例では、標準パ
ターンメモリを10b及び0cに分けて登録したが、本
発明はこれに限定されるものではなく、例えば標準パタ
ーンの良否を判定することにより最も悪い特徴標準パタ
ーンを消して、そのエリアに入力時の音節を登録するよ
うになしても構わない。
If the presence or absence of registration is all “1”, for example, in the case of “A” in Table 3, up to “A c ” is registered, so the area of “A a ” that is the oldest in terms of time Delete the data in and then register at that location. In the above embodiment, the standard pattern memory is divided into 10b and 0c and registered, but the present invention is not limited to this. For example, by judging the quality of the standard pattern, the worst characteristic standard pattern is erased, The syllable at the time of input may be registered in that area.

標準パターンの良否の判定方法としては、例えば本発明
者等が先に特願昭57−217296号「音声認識装
置」として提案した方法、即ち特徴標準パターン毎にカ
ウンタ手段を設け、入力音声の認識判定結果に応じて、
そのカウンタ値を増減させ、このカウンタ値に応じて最
も悪い特徴標準パターンを判定する方法等がある。
As a method for judging the quality of the standard pattern, for example, the method previously proposed by the present inventors as Japanese Patent Application No. 57-217296 "Voice recognition device", that is, a counter means is provided for each characteristic standard pattern to recognize the input voice. Depending on the judgment result,
There is a method of increasing or decreasing the counter value and determining the worst characteristic standard pattern according to the counter value.

以上のようにして、上記した実施例によれば、一つの音
節に対して複数の特徴標準パターンを持つ音声入力装置
において、その特徴標準パターンに入力時に取り込んだ
音声の特徴パターンを追加あるいは入れ換えを行なうこ
とにより、認識性能を向上させることができる。
As described above, according to the above-described embodiment, in the voice input device having a plurality of characteristic standard patterns for one syllable, the characteristic pattern of the voice captured at the time of input is added to or replaced with the characteristic standard pattern. By doing so, the recognition performance can be improved.

また、特徴標準パターンとしての登録を指示された音声
の認識結果を用いることにより、登録可能な特徴標準パ
ターンの音節を限定し、極端に異なった音声特徴パター
ンが特徴標準パターンにならないようにすることができ
る。これは音声から音節を切り出す時に、妥当な位置で
切り出しているかどうかのチェックとなるものであり、
例えば入力として「かいもの」と発声した時の第3音節
の「も」を登録したい時、その第1位の認識結果に
「ぎ」、第2位に「り」、以下「い」「み」という結果
になったとすると、この音声の特徴パターンを「も」の
特徴標準パターンとして登録すると不都合が生じると考
えられるが、本発明の実施例によれば、認識結果の候補
として表示される音節のみに登録可能としているため、
このような不都合は生じない。
Further, by using the recognition result of the voice instructed to be registered as the characteristic standard pattern, the syllables of the characteristic standard pattern that can be registered are limited so that extremely different voice characteristic patterns do not become the characteristic standard pattern. You can This is to check whether or not the syllable is cut out at a proper position when cutting out the syllable from the voice.
For example, if you want to register the third syllable "Momo" when you say "Kaimono" as input, "Gi" is the first recognition result, "Ri" is the second recognition result, and "I" However, according to the embodiment of the present invention, the syllable displayed as a candidate of the recognition result may be inconvenient if the characteristic pattern of the voice is registered as the characteristic standard pattern of “mo”. Since it is possible to register only for
Such inconvenience does not occur.

更に、入力した音声を記憶しておくことにより前述の例
でいえば「も」を特徴標準パターンとしての登録を指示
した時に、その音節に対応する部分の音声を再生出力
し、正確に音節として切り出されたかどうかを入力者自
身が確認でき、誤った特徴標準パターンを登録すること
を避けることができる。
Further, by storing the input voice, in the case of the above example, when "mo" is instructed to be registered as a characteristic standard pattern, the voice corresponding to the syllable is reproduced and output, and is accurately converted into a syllable. It is possible for the input person to confirm whether or not it has been cut out, and it is possible to avoid registering an erroneous feature standard pattern.

<発明の効果> 以上のように、本発明によれば入力された音声を予め登
録された複数種類の音節の特徴標準パターンと照合して
音節単位に認識する日本語音声入力装置において、音声
の特徴標準パターンを登録する登録モード時に単音節音
声で入力された単音節の特徴標準パターンが登録される
第1のメモリと、入力音声を認識する認識モード時に、
入力された語句の連続音声の各音節の波形と特徴パター
ンを一時記憶する一時記憶メモリと,前記入力音声の認
識結果を表示する表示手段と、必要に応じて前記認識結
果を修正する修正手段と、前記認識モード時に,入力さ
れた語句の連続音声の中の所望の音節の特徴パターンを
特徴パターンとして登録指示する指示手段と,前記指示
手段により指示された音節に対応する一時記憶メモリの
波形を読み出して音声出力させる再生出力手段と,前記
再生出力手段の再生後に,前記指示手段により指示した
音節の特徴パターンの登録を実行指示するための実行指
示手段と,前記実行指示手段の指示に基づき,連続音声
を分析して得られた一時記憶メモリの特徴標準パターン
が,特徴標準パターンとして登録される第2のメモリと
を備え,認識モード時に入力された語句の中の所望音節
を表示修正し再生確認した後、この特徴パターンを特徴
標準パターンとして登録できるようになしたことを特徴
とするものであり、予め登録している特徴標準パターン
に対して、入力時に取り込んだ音声の特徴パターンを標
準パターンとして追加あるいは入れ換えることが出来、
その結果認識性能を向上させることが出来る。
<Effects of the Invention> As described above, according to the present invention, in the Japanese voice input device for recognizing the input voice by the syllable unit by collating with the pre-registered characteristic standard patterns of plural kinds of syllables, In the registration mode for registering the characteristic standard pattern, the first memory in which the characteristic standard pattern of the monosyllabic voice input in the registration mode is registered, and in the recognition mode for recognizing the input speech,
A temporary storage memory for temporarily storing the waveform and characteristic pattern of each syllable of the continuous speech of the input phrase, a display means for displaying the recognition result of the input speech, and a correction means for correcting the recognition result as necessary. An instruction means for instructing to register a characteristic pattern of a desired syllable in a continuous speech of an input phrase as a characteristic pattern in the recognition mode, and a waveform of a temporary storage memory corresponding to the syllable instructed by the instructing means. Based on an instruction of the execution output means, a reproduction output means for reading out and outputting a sound, an execution instruction means for instructing execution of registration of a characteristic pattern of a syllable instructed by the instruction means after reproduction of the reproduction output means, The feature standard pattern of the temporary storage memory obtained by analyzing the continuous voice is provided with the second memory registered as the feature standard pattern. This feature is characterized in that, after the desired syllables in the words and phrases that have been input at the time have been displayed and the reproduction has been confirmed, this feature pattern can be registered as a feature standard pattern. In contrast, you can add or replace the characteristic pattern of the voice captured at the time of input as a standard pattern,
As a result, the recognition performance can be improved.

即ち、音声入力装置を使用していると、どうしても入力
しにくい音節が出現することがあり、例えば、単独で発
声した「い」は「い」と認識できるが、「かいもの」と
発声した時の「い」は常に「ぎ」と誤認識されるという
ような現象が起こることがある。この「い」は前に
「か」後ろに「も」の音節を持ち、四音節からなる単語
の第二音節であり、そして単独で発声した「い」よりも
高い声で発声するというような音節環境にあるが、本発
明にあってはこの音節環境で発声された「い」の特徴パ
ターンを標準パターンに入れることが可能となり、以降
の同一あるいはよく似た音節環境で発声された「い」を
正確に認識することができる。
That is, when using a voice input device, syllables that are difficult to input may appear. For example, when singing "i" can be recognized as "i", when singing "kai" The phenomenon that "i" is always mistakenly recognized as "gi" may occur. This "i" is a second syllable of a word consisting of four syllables, with a syllabic "mo" before and after "ka", and is said to be uttered at a higher voice than "i" singed alone. Although it is in a syllable environment, in the present invention, it becomes possible to put the characteristic pattern of "i" uttered in this syllable environment into the standard pattern, and uttered in the same or similar syllable environment thereafter. Can be accurately recognized.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の一実施例装置の構成を示すブロック
図、第2図はキーボード等の入力部の一例を示す平面
図、第3図は登録モードの動作を説明するための処理フ
ロー図、第4図は認識モードの動作を説明するための処
理フロー図である。 5……音声分析部、7……波形・特徴パターン一時メモ
リ、8……CPU、9……単音節認識部、10……パタ
ーンメモリ、10a……特徴パターンメモリ、10b及
び10c……標準パターンメモリ、11……認識結果格
納メモリ、15……キーボード、15b……登録モード
キー、15c……認識モードキー、15d…音節登録キ
ー。
FIG. 1 is a block diagram showing a configuration of an apparatus according to an embodiment of the present invention, FIG. 2 is a plan view showing an example of an input unit such as a keyboard, and FIG. 3 is a process flow chart for explaining an operation in a registration mode. , FIG. 4 is a processing flow diagram for explaining the operation in the recognition mode. 5 ... Voice analysis section, 7 ... Waveform / feature pattern temporary memory, 8 ... CPU, 9 ... Single syllable recognition section, 10 ... Pattern memory, 10a ... Feature pattern memory, 10b and 10c ... Standard pattern Memory, 11 ... Recognition result storage memory, 15 ... Keyboard, 15b ... Registration mode key, 15c ... Recognition mode key, 15d ... Syllable registration key.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−62699(JP,A) 特開 昭58−62739(JP,A) 特開 昭58−195955(JP,A) 特開 昭58−220197(JP,A) ─────────────────────────────────────────────────── ─── Continuation of front page (56) Reference JP-A-58-62699 (JP, A) JP-A-58-62739 (JP, A) JP-A-58-195955 (JP, A) JP-A-58- 220197 (JP, A)

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】入力された音声を予め登録された複数種類
の音節の特徴標準パターンと照合して音節単位に認識す
る日本語音声入力装置において,音声の特徴標準パター
ンを登録する登録モード時に,単音節音声で入力された
単音節の特徴標準パターンが登録される第1のメモリ
と, 入力音声を認識する認識モード時に,入力された語句の
連続音声の各音節の波形と特徴パターンを一時記憶する
一時記憶メモリと, 前記入力音声の認識結果を表示する表示手段と、 必要に応じて前記入力音声の認識結果を修正する修正手
段と、 前記認識モード時に入力された語句の連続音声の中の所
望の音節の特徴パターンを特徴標準パターンとして登録
指示する指示手段と,前記指示手段により指示された音
節に対応する一時記憶メモリの波形を読み出して音声出
力させる再生出力手段と, 前記再生出力手段の再生後に,前記指示手段により指示
した音節の特徴パターンの登録を実行指示するための実
行指示手段と, 前記実行指示手段の指示に基づき,連続音声を分析して
得られた一時記憶メモリの特徴パターンが,特徴標準パ
ターンとして登録される第2のメモリとを備え, 認識モード時に入力された語句の中の所望音節を表示修
正し再生確認した後、この特徴パターンを特徴標準パタ
ーンとして登録できるようにしたことを特徴とする日本
語音声入力装置。
1. A Japanese voice input device for recognizing an input voice by a syllable unit by collating input voices with a plurality of pre-registered feature standard patterns of syllables, in a registration mode for registering voice feature standard patterns, A first memory in which a standard feature pattern of a single syllable input by a single syllable voice is registered, and a waveform and a characteristic pattern of each syllable of a continuous voice of an input phrase are temporarily stored in a recognition mode in which the input voice is recognized. A temporary storage memory, a display unit for displaying the recognition result of the input voice, a correction unit for correcting the recognition result of the input voice if necessary, and a continuous voice of the phrases input in the recognition mode. Instructing means for instructing registration of a characteristic pattern of a desired syllable as a characteristic standard pattern, and reading out a waveform in a temporary storage memory corresponding to the syllable instructed by the instructing means. Reproduction output means for outputting a sound, execution instruction means for instructing execution of registration of a feature pattern of a syllable instructed by the instruction means after reproduction by the reproduction output means, and continuous voice based on the instruction of the execution instruction means After the characteristic pattern of the temporary storage memory obtained by the analysis is provided with the second memory registered as the characteristic standard pattern, the desired syllable in the phrase input in the recognition mode is displayed and corrected for confirmation. A Japanese voice input device characterized in that this feature pattern can be registered as a feature standard pattern.
JP59040935A 1984-03-02 1984-03-02 Japanese voice input device Expired - Lifetime JPH0632005B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59040935A JPH0632005B2 (en) 1984-03-02 1984-03-02 Japanese voice input device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59040935A JPH0632005B2 (en) 1984-03-02 1984-03-02 Japanese voice input device

Publications (2)

Publication Number Publication Date
JPS60184297A JPS60184297A (en) 1985-09-19
JPH0632005B2 true JPH0632005B2 (en) 1994-04-27

Family

ID=12594356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59040935A Expired - Lifetime JPH0632005B2 (en) 1984-03-02 1984-03-02 Japanese voice input device

Country Status (1)

Country Link
JP (1) JPH0632005B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58176699A (en) * 1982-04-09 1983-10-17 株式会社日立製作所 Voice standard pattern registration system
JPS58220197A (en) * 1982-06-16 1983-12-21 富士通株式会社 Standard pattern preparation system for recognition of simulated continuous utterance
JPS59111698A (en) * 1982-12-17 1984-06-27 株式会社日立製作所 Voice recognition system

Also Published As

Publication number Publication date
JPS60184297A (en) 1985-09-19

Similar Documents

Publication Publication Date Title
US5960447A (en) Word tagging and editing system for speech recognition
US7027985B2 (en) Speech recognition method with a replace command
US6735565B2 (en) Select a recognition error by comparing the phonetic
JPH0632005B2 (en) Japanese voice input device
JPS6316766B2 (en)
JPH0883092A (en) Information inputting device and method therefor
JP2686085B2 (en) Voice recognition system
JP2547611B2 (en) Writing system
JP2609874B2 (en) Speech recognition system
JP3259734B2 (en) Voice recognition device
US7027984B2 (en) Tone-based mark-up dictation method and system
JPH0229231B2 (en)
JP2547612B2 (en) Writing system
JP2647872B2 (en) Writing system
JP2647873B2 (en) Writing system
JPS6143337A (en) Voice input device for japanese word
JP2502101B2 (en) Sentence proofreading device
JPS62229300A (en) Voice recognition equipment
JPS62180397A (en) Registration system for voice pattern
JPS58109931A (en) Data processor
JPH0415960B2 (en)
JPS6037500B2 (en) voice typewriter
JPS595294A (en) Voice recognition equipment
JPS6184772A (en) Audio typewriter
JPH0195323A (en) Voice input device