JP2885399B2 - Pattern recognition device - Google Patents

Pattern recognition device

Info

Publication number
JP2885399B2
JP2885399B2 JP62124610A JP12461087A JP2885399B2 JP 2885399 B2 JP2885399 B2 JP 2885399B2 JP 62124610 A JP62124610 A JP 62124610A JP 12461087 A JP12461087 A JP 12461087A JP 2885399 B2 JP2885399 B2 JP 2885399B2
Authority
JP
Japan
Prior art keywords
input
recognition
characters
pattern
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62124610A
Other languages
Japanese (ja)
Other versions
JPS63289685A (en
Inventor
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62124610A priority Critical patent/JP2885399B2/en
Publication of JPS63289685A publication Critical patent/JPS63289685A/en
Application granted granted Critical
Publication of JP2885399B2 publication Critical patent/JP2885399B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明はパターン認識に用いられる認識辞書を効果的
に学習させるようにしたパターン認識装置に関する。 (従来の技術) 音声ワードプロセッサ等の音声認識装置や手書き文字
の認識処理におけるパターン認識では、その認識性能
(認識率)の向上を図るため、予め多数の認識対象パタ
ーンを収集し、これらのパターンを用いて認識辞書の学
習を行い、認識辞書の充実化を図ることが行われてい
る。 この認識辞書の学習は、例えば特定話者用の単語単位
の音声認識装置を例にとると、表示装置に入力すべき単
語を表示し、発声者がこの表示装置で指定された単語を
発声することによりその単語について1つの学習パター
ンを収集し、認識辞書の登録が終了すると次の文字を表
示して次の学習パターンを収集するという手順を繰返す
ことによって行われる。 ところが、この様な入力方法であると、入力すべき単
語が表示装置に表示されてから発声者がその表示された
単語を実際に発声するまでに、発声者の思考時間に相当
する空き時間が生じる。この空き時間は、極めて多数の
単語を登録する際には、無視できない時間となり、認識
辞書の学習処理の効率化を図るうえで大きな障害とな
る。また、このような障害は、学習処理の時間を短縮し
ようと努力する発声者の負担増となるばかりでなく、誤
入力を誘発する可能性にもつながる。文字認識装置にお
いても、オンライン的に筆者の文字を登録する際に、文
字単位、単語単位の入力指示をしているので、同様の問
題を生じる。 また、音声認識においては、単語単位の入力の他に連
続発声された音声認識の研究が進められているが、この
連続発声による音声認識においては、単語と単語との間
のいわゆるわたり部分の情報が認識処理を行なううえで
重要な情報となる。 しかしながら、従来の上述のような学習パターンの入
力方法では、表示装置による入力単語の指定から実際の
単語入力までの間の空き時間の存在によって、単語と単
語との間の連続性を損わせ、単語間のわたり部分の情報
が採取できないという問題があった。 (発明が解決しようとする問題点) このように、入力パターンの登録が終了するたびに次
の入力単語を表示することにより入力パターンを順次採
取して認識辞書の学習を行なう従来のパターン認識装置
では、学習処理に多大な時間を必要とするうえ、入力者
の負担及び誤入力が増すという問題があった。また、特
に連続音声認識においては、単語と単語との間の変化の
情報が得られないという問題があった。 本発明は、学習処理の効率向上、並びに入力者の負担
及び誤入力の軽減を図ることができ、特に連続音声認識
においては、単語や文節間の変化の情報についても採取
可能なパターン認識装置を提供することを目的とする。 [発明の構成] (問題点を解決するための手段) 本発明に係るパターン認識装置は、認識辞書を用いて
入力パターンを認識する認識手段と、前記認識辞書の学
習処理に際し、入力パターンとして入力すべき文字を一
括して且つ入力する順序に基づいた並べ方で表示装置に
表示させた状態で、該文字のうち今回入力すべき一纏ま
りの部分を入力済みの一纏まりの部分および後に入力す
べき一纏まりの部分とは区別した第1の表示方法で表示
し、該第1の表示方法で表示された一纏まりの部分の中
において今回入力すべき文字を入力済みの文字および後
に入力すべき文字とは区別した第2の表示方法で表示す
る操作を、各々の回毎に繰り返し行う表示制御手段と、
前記表示装置に前記第2の表示方法で表示された前記今
回入力すべき文字と関連付けて入力された入力パターン
に対する前記認識手段による認識結果に基づいて前記認
識辞書の学習を行う学習手段とを具備したことを特徴と
する。 また、本発明に係るパターン認識装置は、認識辞書を
用いて入力パターンを認識する認識手段と、前記認識辞
書の学習処理に際し、所定回数に分けて入力パターンと
して入力すべき一纏まりの文字を一括して且つ入力する
順序に基づいた並べ方で表示装置に表示させた状態で、
表示中の前記一纏まりの文字のうち今回入力すべき文字
を入力済みの文字および後に入力すべき文字とは区別し
た所定の表示方法で表示する操作を、各入力回毎に繰り
返し行う表示制御手段と、前記表示装置に前記所定の表
示方法で表示された前記今回入力すべき文字と関連付け
て入力された入力パターンに対する前記認識手段による
認識結果に基づいて前記認識辞書の学習を行う学習手段
とを具備し、前記表示制御手段は、入力すべき文字につ
いて漢字表記と仮名表記をペアにして表示することを特
徴とする。 また、本発明に係るパターン認識装置は、認識辞書を
用いて入力パターンを認識する認識手段と、前記認識辞
書の学習処理に際し、所定回数に分けて入力パターンと
して入力すべき一纏まりの文字を一括して且つ入力する
順序に基づいた並べ方で表示装置に表示させた状態で、
表示中の前記一纏まりの文字のうち今回入力すべき文字
を入力済みの文字および後に入力すべき文字とは区別可
能な色で色分け表示する操作を、各入力回毎に繰り返し
行う表示制御手段と、前記表示装置に前記所定の表示方
法で表示された前記今回入力すべき文字と関連付けて入
力された入力パターンに対する前記認識手段による認識
結果に基づいて前記認識辞書の学習を行う学習手段とを
具備したことを特徴とする。 (作用) 本発明によれば、表示制御手段に現在入力すべき文字
のみならず、入力済みの文字およびその後に入力すべき
文字も表示される。したがって、入力パターンを入力し
ようとする者は、現在入力すべき文字を入力しながら、
入力済みの文字およびその後に入力すべき文字を確認で
きるので、1つの文字を入力した後、直ちに連続的に次
の文字の入力を行なうことを、正確、迅速かつ入力者に
負担をかけずに達成できる。 したがって、本発明によれば、学習時間の短縮化、入
力者の負担軽減、及び誤入力の防止が図れ、連続音声認
識の場合には、単語間、文節間等の変化部分の情報の採
取も可能になる。 (実施例) 以下、図面を参照して本発明の一実施例について説明
する。 第1図は本実施例に係る音声認識装置の概略構成図で
ある。尚、この装置は入力音声のパターン認識を行なう
ものであるが、例えば手書き文字認識等のパターン認識
にも同様に適用することができる。 音声入力部1は、マイクロホンや増幅器からなり、入
力音声を電気信号に変換する部分である。この音声入力
部1を介して入力された音声信号は、例えば8チャンネ
ルのフィルタバンク等からなる特徴抽出部2に与えら
れ、ここで周波数分解されて各周波数成分を例えば時間
軸方向に8点リサンプルしてなる64(8×8)次元の特
徴ベクトルの入力音声パターンに変換される。尚、特徴
抽出は上述したフィルタ分析に代えて、高速フーリエ変
換による分析やケプストラム分析等によって行なうこと
も可能である。 認識部3は、上記入力音声の特徴ベクトルfと、認識
辞書メモリ4に登録されたカテゴリlの辞書パターン
{φn(l)}の各n面のベクトル成分との類似度S
(l)[f]を、 なる複合類似度計算により求め、認識結果を決定するも
のである。ここで、λn(l),φn(l)は、各認識対象カテ
ゴリについて予め多くのサンプルパターンから得られた
共分散行列Kの第n固有値と、固有ベクトルをそれぞれ
示しており、これらは認識辞書メモリ4に格納されてい
る。尚、このような類似度Sを用いて認識結果を決定す
る代わりに、マハラビノスの汎距離やユークリッド距
離、確率や尤度等を用いて認識結果を求めることも可能
である。 学習用訓練パターン記憶部5は、学習処理の際に入力
された音声データを特徴抽出部2で周波数分解して得た
学習用訓練パターンと、上記認識部3での認識結果とを
対応付けて記憶するものである。 学習部6は、前記特徴抽出部2を介して求められた入
力音声パターンと、前記学習用訓練パターン記憶部5に
収集保存された学習用訓練パターンとを入力し、前記認
識辞書メモリ4に格納された辞書パターンを各認識対象
カテゴリ毎に学習するものである。この学習部6におけ
る辞書パターンの学習は、例えば共分散行列Kの繰返し
更新処理と、共分散行列KのKL展開とによって行われ
る。 即ち、学習しようとするカテゴリの認識辞書の共分散
行列Kを入力し、基本的にはその共分散行列を次のよう
にして更新処理する。つまり、 なる演算を実行して、その共分散行列Kを更新する。但
し、Vは学習パターンであり、例えば64次元のベクトル
として与えられる。また、K′は学習後の共分散行列で
ある。そしてwは認識部3での認識結果から求められる
正負の値をとる重み係数(学習パラメータの値)であ
り、正の場合は上記共分散行列Kの特性核の入力パター
ンに対する類似度を大きくする作用を呈し、負ならばそ
の類似度を小さくする作用を呈する。 表示部7は、通常の認識処理の際には、認識部3で認
識された認識結果を表示し、認識辞書の学習時には、学
習のために入力すべき文字を表示する。表示部7に表示
する文字は、発生文字列記憶部8に格納されている。ま
た、下線・反転表示制御部9は、表示部7に表示された
文字列の1つのまとまりを示す単位に下線を付したり、
現在入力すべき文字を反転表示するための表示制御を行
なうものである。この下線・反転表示制御部9で指定さ
れた現在入力すべき文字のカテゴリは、得られた学習用
訓練パターンと対応させて学習用訓練パターン記憶部5
に格納される。 尚、第1図において制御部10は上述したパターン認識
処理および認識辞書の学習処理をそれぞれ制御するもの
である。 このように構成された本装置において、認識辞書の学
習を行なう場合には、まず、制御部10は、発声文字列記
憶部8から学習入力すべき文字列を読出し、表示部7に
表示させるとともに、下線・反転表示制御部9によって
1つのまとまりある単位に下線を付し、入力すべき文字
に反転処理を施す。このような処理によって得られる表
示部7の表示形態を第2図に示す。ここでは、「このよ
うにして〜類似度Sは、」までを1つのまとまりとし
て、この文字列に下線を付し、「このようにして」が現
在入力すべき文字(文節)であることを示している。 そこで、発声者がこの表示に従って、「このようにし
て」と発声すると、音声入力部1がこの音声を入力し、
特徴抽出部2がその特徴パターンを抽出する。この特徴
パターンは、学習用訓練パターンとして認識部3を介し
て学習用訓練パターン記憶部5に格納される。認識部3
での認識結果は、学習用訓練パターンと対応付けて上記
学習用訓練パターン記憶部5に格納される。 次に学習部6は、前述したような学習処理を行い、そ
の学習の結果得られた共分散行列K′をKL展開してその
固有値と固有ベクトルとを指定された認識対象カテゴリ
「このようにして」の認識辞書として前記認識辞書メモ
リ4に登録する。 認識辞書の登録が完了すると、下線・反転表示制御部
9は、次に入力すべき文節「求められた」を反転表示す
る。そして、同様の学習が行われる。 第3図に、このような表示処理の手順を示す。この図
に示すように、表示部7は、まず、発声文字列記憶部8
から表示する複数の文字を読み出して表示し(11)、表
示文字のうち、1つのまとまりを示す単位に下線を付し
て(12)入力指示待ちとなる(13)。そして、入力可能
であれば(13)、下線を付した表示文字のうち、入力す
べき文字を反転表示して(14)入力待ちとなる(15)。
指定された文字が入力されたら、次の入力すべき文字に
反転表示を移す(16)。次に入力すべき文字がない場合
には(17)、下線表示を次のまとまりに移す(18)。次
のまとまりが無い場合には(19)、発声文字列記憶部8
に表示すべき文字が残っているかどうかを認識し(2
0)、残っている場合には、表示内容を更新する(2
1)。 この装置によると、発声者は「このようにして」とい
う最初の文節を発声した時に、次に発声する文節が「求
められた」であることが表示部7の表示により予め分か
るので、次の入力が要求された時に直ちに要求された文
字を発声入力することができる。したがって、入力時間
の短縮、発声者の負担軽減及び誤入力の防止が図れ、か
つ連続発声の際の文節間のいわゆるわたり部分の情報の
採取も可能である。 なお、第4図に示すように、入力単位をスラッシュな
どで区切るようにすれば、次に入力すべき文字列の長さ
も事前に分るので、更に迅速かつ確実な入力が可能にな
る。 また、上記実施例では、入力すべき文字のまとまりを
下線で示している。これは、その内容全体を発声するの
を要求しているのではないが、意味のあるまとまりを使
用者に示すことにより使用者がより自然な環境で発声で
きるという効果を奏する。 第5図に単音節単位の入力、第6図に単語単位の入力
の例を示す。 第5図の例は、単語のまとまり「ぽぱい」に下線を付
し、その下線を付した単語の中の現在入力すべき音節
「ぽ」を反転表示で示している。 また、第6図の例は、単語のひらがな表記と漢字表記
とをペアにして表示することにより、単語の発声誤りを
防止した例である。ここでは、ひらがな表記と漢字表記
のペアに下線を付し、ひらがな表記部分を現在入力すべ
き単語であるとして反転表示している。 なお、第5図における「あてつけ」、「つける」「き
おり」及び第6図における「とうきょう 東京」、「ゆ
うらくちょう 有楽町」は、入力済みであるが、再度発
声入力し直せることを示す単語であり、これらは高輝度
表示されることにより他の単語と区別している。また、
このような高輝度表示や下線表示、反転表示等は、カラ
ー表示が可能な表示部を用いた場合には、色分けに代え
ることができる。 この他、本発明は、入力が有効であったか無効であっ
たかを表示する機能を付加するようにしてもよい。入力
が有効であったことは、反転表示部分が移動することに
より、あるいは入力された文字が消去されることにより
示すことができる。 また、表示部7に、入力単位の総数と現在までに入力
された入力単位数とを表示すると発声者が残りの文字入
力量を予想できるので発声者の負担はさらに軽減され
る。 なお、以上は音声認識装置を例にとり本発明を説明し
たが、本発明は、例えば手書き文字認識等、種々の認識
アルゴリムに従うパターン認識処理装置にそれぞれ適用
することができる。 [発明の効果] 以上説明したように本発明によれば、認識辞書の学習
時に、表示制御手段に現在入力すべき文字だけでなく、
その後に入力すべき文字をも表示するようにしているの
で、学習パターンの登録処理を効率良く行なうことがで
き、利用者の負担軽減及び誤入力の防止を図ることがで
きる。また、特に連続音声認識への適用に際しては、単
語間や文節間等の変化部分の情報を容易に収集でき、性
能の優れた認識辞書を作成できるという効果を奏する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial application field) The present invention relates to a pattern recognition device that effectively learns a recognition dictionary used for pattern recognition. (Prior Art) In pattern recognition in a voice recognition device such as a voice word processor or in recognition processing of handwritten characters, in order to improve the recognition performance (recognition rate), a large number of recognition target patterns are collected in advance, and these patterns are collected. Learning of recognition dictionaries is performed by using them to enhance the recognition dictionaries. In the learning of the recognition dictionary, for example, a word to be input is displayed on a display device when a voice recognition device for a specific speaker is used as a word unit, and the speaker speaks the word specified on the display device. In this way, the procedure is repeated by collecting one learning pattern for the word, displaying the next character when the registration of the recognition dictionary is completed, and collecting the next learning pattern. However, according to such an input method, an idle time corresponding to the thinking time of the speaker after the word to be input is displayed on the display device until the speaker actually speaks the displayed word. Occurs. This vacant time is a time that cannot be ignored when registering an extremely large number of words, and is a major obstacle in improving the efficiency of the learning process of the recognition dictionary. In addition, such an obstacle not only increases the burden on the speaker who makes an effort to reduce the learning processing time, but also leads to the possibility of inducing erroneous input. In the character recognition device, when the writer's character is registered online, the same problem occurs because the input instruction is performed in units of characters and words. In speech recognition, research is being conducted on continuously uttered speech recognition in addition to word-based input. In this continuous speech recognition, information on a so-called crossover portion between words is used. Is important information in performing the recognition process. However, in the conventional method of inputting a learning pattern as described above, the continuity between words is impaired due to the presence of an idle time between the designation of an input word by the display device and the actual input of the word, There was a problem that information on the part between words could not be collected. (Problems to be Solved by the Invention) As described above, each time the registration of the input pattern is completed, the next input word is displayed, thereby sequentially collecting the input patterns and learning the recognition dictionary. In such a case, there is a problem that a large amount of time is required for the learning process, and a burden on an input person and an erroneous input increase. Further, particularly in continuous speech recognition, there is a problem that information on a change between words cannot be obtained. The present invention provides a pattern recognition device that can improve the efficiency of the learning process and reduce the burden on the input person and reduce erroneous input. In particular, in continuous speech recognition, a pattern recognition device capable of collecting information on changes between words and phrases is provided. The purpose is to provide. [Structure of the Invention] (Means for Solving the Problems) A pattern recognition apparatus according to the present invention includes a recognition unit that recognizes an input pattern using a recognition dictionary, and an input unit that inputs an input pattern when learning the recognition dictionary. While the characters to be displayed are displayed on the display device in a lump based on the order in which the characters to be input are collectively input, a group of the characters to be input this time should be input and a group of the input should be input later. Characters to be input this time and characters to be input later are displayed in a first display method that is distinguished from a group of characters, and characters to be input this time are displayed in the group of characters displayed in the first display method. Display control means for repeatedly performing an operation of displaying in a second display method distinguished from each other for each time,
Learning means for learning the recognition dictionary based on a recognition result by the recognition means for an input pattern input in association with the character to be input currently displayed on the display device by the second display method. It is characterized by having done. Further, the pattern recognition device according to the present invention includes a recognition unit that recognizes an input pattern using a recognition dictionary, and a group of characters to be input as an input pattern in a predetermined number of times when learning the recognition dictionary. In a state of being displayed on the display device in a manner based on the input order,
Display control means for repeatedly performing, for each input, an operation of displaying a character to be input this time in the group of characters being displayed in a predetermined display method that is distinguished from a character that has already been input and a character that is to be input later Learning means for learning the recognition dictionary based on a recognition result by the recognition means for an input pattern input in association with the character to be input currently displayed on the display device by the predetermined display method. The display control means is characterized in that characters to be input are displayed in a pair of a kanji notation and a kana notation. Further, the pattern recognition device according to the present invention includes a recognition unit that recognizes an input pattern using a recognition dictionary, and a group of characters to be input as an input pattern in a predetermined number of times when learning the recognition dictionary. In a state of being displayed on the display device in a manner based on the input order,
Display control means for repeating, for each input, an operation of displaying a character to be inputted this time in the group of characters being displayed in a color distinguishable from a character which has already been inputted and a character to be inputted later; Learning means for learning the recognition dictionary based on a recognition result by the recognition means for an input pattern input in association with the character to be input currently displayed on the display device in the predetermined display method. It is characterized by having done. (Operation) According to the present invention, not only the characters to be currently input to the display control means but also the already input characters and the characters to be input thereafter are displayed. Therefore, those who want to enter the input pattern, while entering the characters to be entered now,
Since the characters that have already been input and the characters to be input can be confirmed, it is possible to input the next character immediately after inputting one character accurately, promptly, and without burdening the input user. Can be achieved. Therefore, according to the present invention, the learning time can be reduced, the burden on the input person can be reduced, and erroneous input can be prevented. In the case of continuous speech recognition, information on a changed portion such as between words or between phrases can be collected. Will be possible. Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a schematic configuration diagram of a speech recognition device according to the present embodiment. Although this apparatus performs pattern recognition of an input voice, it can be similarly applied to pattern recognition such as handwritten character recognition. The voice input unit 1 is a part that includes a microphone and an amplifier and converts input voice into an electric signal. The audio signal input via the audio input unit 1 is supplied to a feature extraction unit 2 composed of, for example, an eight-channel filter bank, where it is frequency-decomposed and each frequency component is divided into, for example, eight points in the time axis direction. The input speech pattern is converted into a sampled 64 (8 × 8) -dimensional feature vector. Note that feature extraction can also be performed by fast Fourier transform analysis, cepstrum analysis, or the like, instead of the above-described filter analysis. The recognizing unit 3 calculates the similarity S between the feature vector f of the input speech and the vector component of each n-plane of the dictionary pattern {φn (l) } of the category 1 registered in the recognition dictionary memory 4.
(l) [f] is The recognition result is determined by calculating the composite similarity. Here, λn (l) and φn (l) indicate the nth eigenvalue and the eigenvector of the covariance matrix K obtained in advance from many sample patterns for each recognition target category, and these are the recognition dictionary memory. 4 is stored. Instead of using the similarity S to determine the recognition result, it is also possible to obtain the recognition result using the Mahalanobis general distance, Euclidean distance, probability, likelihood, and the like. The learning training pattern storage unit 5 associates the learning training pattern obtained by frequency decomposition of the voice data input at the time of the learning process with the feature extraction unit 2 with the recognition result of the recognition unit 3. It is something to memorize. The learning unit 6 inputs the input voice pattern obtained through the feature extracting unit 2 and the learning training patterns collected and stored in the learning training pattern storage unit 5 and stores them in the recognition dictionary memory 4. The learned dictionary pattern is learned for each recognition target category. The learning of the dictionary pattern in the learning unit 6 is performed by, for example, iterative updating of the covariance matrix K and KL expansion of the covariance matrix K. That is, the covariance matrix K of the recognition dictionary of the category to be learned is input, and the covariance matrix is basically updated as follows. That is, Is performed to update the covariance matrix K. Here, V is a learning pattern, for example, given as a 64-dimensional vector. K ′ is a covariance matrix after learning. W is a weighting coefficient (a value of a learning parameter) that takes a positive or negative value obtained from the recognition result of the recognition unit 3, and when positive, increases the similarity of the characteristic nucleus of the covariance matrix K to the input pattern. An effect is exhibited, and if negative, an effect of reducing the similarity is exhibited. The display unit 7 displays the recognition result recognized by the recognition unit 3 during normal recognition processing, and displays characters to be input for learning when learning the recognition dictionary. Characters to be displayed on the display unit 7 are stored in the generated character string storage unit 8. The underline / reverse display control unit 9 also underlines a unit indicating one unit of the character string displayed on the display unit 7,
The display control for reversely displaying the character to be input at present is performed. The category of the character to be currently input specified by the underline / reverse display control unit 9 is associated with the obtained learning training pattern and the learning training pattern storage unit 5.
Is stored in In FIG. 1, the control unit 10 controls the above-described pattern recognition processing and recognition dictionary learning processing. When learning the recognition dictionary in the present apparatus configured as described above, first, the control unit 10 reads a character string to be learned and input from the utterance character string storage unit 8 and causes the display unit 7 to display the character string. The underline / reverse display control unit 9 underlines one unit, and performs a reversal process on the character to be input. FIG. 2 shows a display form of the display unit 7 obtained by such processing. Here, “up to this way to similarity S” is a unit, and this character string is underlined to indicate that “in this way” is the character (phrase) to be currently input. Is shown. Then, when the speaker speaks “this way” according to this display, the voice input unit 1 inputs this voice,
The feature extraction unit 2 extracts the feature pattern. This feature pattern is stored in the training training pattern storage unit 5 via the recognition unit 3 as a training training pattern. Recognition unit 3
Is stored in the learning training pattern storage unit 5 in association with the learning training pattern. Next, the learning unit 6 performs the learning process as described above, expands the covariance matrix K ′ obtained as a result of the learning by KL, and specifies its eigenvalues and eigenvectors in the specified recognition target category “in this manner. Is registered in the recognition dictionary memory 4. When the registration of the recognition dictionary is completed, the underline / reverse display control unit 9 reversely displays the phrase "to be determined" to be input next. Then, similar learning is performed. FIG. 3 shows the procedure of such a display process. As shown in this figure, the display unit 7 firstly outputs the uttered character string storage unit 8
, A plurality of characters to be displayed are read out and displayed (11), and a unit indicating one unit of the displayed characters is underlined (12) and an input instruction is awaited (13). Then, if the input is possible (13), the character to be input among the underlined display characters is highlighted (14) and the input is awaited (15).
When the specified character is input, the highlighted display is moved to the next character to be input (16). If there is no character to be input next (17), the underline display is moved to the next group (18). If there is no next unity (19), the uttered character string storage unit 8
To see if there are any characters left to display (2
0), if any, update the display contents (2
1). According to this device, when the speaker utters the first phrase “in this way”, it is known in advance by the display on the display unit 7 that the next phrase to be uttered is “determined”. When the input is requested, the requested character can be uttered and input immediately. Therefore, the input time can be reduced, the burden on the speaker can be reduced, and erroneous input can be prevented. In addition, it is possible to collect information of a so-called crossover between phrases in continuous speech. As shown in FIG. 4, if the input units are separated by a slash or the like, the length of a character string to be input next is also known in advance, so that quicker and more reliable input is possible. In the above embodiment, a group of characters to be input is underlined. This does not require that the entire content be uttered, but has the effect that the user can utter in a more natural environment by showing the user a meaningful group. FIG. 5 shows an example of input in single syllable units, and FIG. 6 shows an example of input in word units. In the example of FIG. 5, the unit of the word “ぽ ぱ” is underlined, and the syllable “ぽ” to be inputted in the underlined word is highlighted. The example in FIG. 6 is an example in which the hiragana and kanji notation of a word are displayed as a pair, thereby preventing the utterance error of the word. Here, the pair of the hiragana notation and the kanji notation is underlined, and the hiragana notation is highlighted as a word to be currently input. In FIG. 5, the words “address”, “turn on” and “kiori” and “Tokyo Tokyo” and “Yurakucho Yurakucho” in FIG. These are distinguished from other words by being displayed in high brightness. Also,
Such a high-brightness display, underline display, reverse display, or the like can be replaced with color classification when a display portion capable of color display is used. In addition, the present invention may add a function of displaying whether the input is valid or invalid. The validity of the input can be indicated by moving the reverse display portion or by erasing the input character. When the total number of input units and the number of input units input so far are displayed on the display unit 7, the speaker can predict the remaining character input amount, so that the burden on the speaker is further reduced. Although the present invention has been described above with reference to a voice recognition device as an example, the present invention can be applied to pattern recognition processing devices conforming to various recognition algorithms, such as handwritten character recognition. [Effects of the Invention] As described above, according to the present invention, when learning the recognition dictionary, not only characters to be currently input to the display control means,
Since characters to be input are also displayed thereafter, the process of registering the learning pattern can be performed efficiently, and the burden on the user can be reduced and erroneous input can be prevented. In particular, when the present invention is applied to continuous speech recognition, it is possible to easily collect information on a changed portion such as between words or between phrases, and to produce a recognition dictionary with excellent performance.

【図面の簡単な説明】 第1図は本発明の一実施例に係る音声認識装置の概略構
成図、第2図は同装置における表示部の表示例を示す
図、第3図は同表示部の表示手順を示す流れ図、第4図
乃至第6図は同装置の他の表示例をそれぞれ示す図であ
る。 1……音声入力部、2……特徴抽出部、3……認識部、
4……認識辞書メモリ、5……学習用訓練パターン記憶
部、6……学習部、7……表示部、8……発声文字列記
憶部、9……下線・反転表示制御部、10……制御部。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic configuration diagram of a voice recognition device according to an embodiment of the present invention, FIG. 2 is a diagram showing a display example of a display unit in the device, and FIG. 4 to 6 are views showing other display examples of the apparatus. 1 ... voice input unit, 2 ... feature extraction unit, 3 ... recognition unit,
4 ... Recognition dictionary memory, 5 ... Learning training pattern storage unit, 6 ... Learning unit, 7 ... Display unit, 8 ... Speech character string storage unit, 9 ... Underlined / reversed display control unit, 10 ... ... Control unit.

フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 521 G10L 3/00 561 Continuation of the front page (58) Field surveyed (Int. Cl. 6 , DB name) G10L 3/00 521 G10L 3/00 561

Claims (1)

(57)【特許請求の範囲】 1.認識辞書を用いて入力パターンを認識する認識手段
と、 前記認識辞書の学習処理に際し、入力パターンとして入
力すべき文字を一括して且つ入力する順序に基づいた並
べ方で表示装置に表示させた状態で、該文字のうち今回
入力すべき一纏まりの部分を入力済みの一纏まりの部分
および後に入力すべき一纏まりの部分とは区別した第1
の表示方法で表示し、該第1の表示方法で表示された一
纏まりの部分の中において今回入力すべき文字を入力済
みの文字および後に入力すべき文字とは区別した第2の
表示方法で表示する操作を、各々の回毎に繰り返し行う
表示制御手段と、 前記表示装置に前記第2の表示方法で表示された前記今
回入力すべき文字と関連付けて入力された入力パターン
に対する前記認識手段による認識結果に基づいて前記認
識辞書の学習を行う学習手段とを具備したことを特徴と
するパターン認識装置。 2.前記第1の表示方法は、前記今回入力すべき一纏ま
りの部分を下線表示するものであり、前記第2の表示方
法は、前記今回入力すべき文字を反転表示するものであ
ることを特徴とする特許請求の範囲第1項に記載のパタ
ーン認識装置。 3.前記第1の表示方法および前記第2の表示方法はい
ずれも、色分け表示によるものであることを特徴とする
特許請求の範囲第1項に記載のパターン認識装置。 4.前記表示制御手段は、入力単位毎にスペース、スラ
ッシュなどの分かち書マークを挿入して入力単位を明示
するものであることを特徴とする特許請求の範囲第1項
に記載のパターン認識装置。 5.入力すべき文字について漢字表記と仮名表記をペア
にして表示することを特徴とする特許請求の範囲第1項
に記載のパターン認識装置。 6.認識辞書を用いて入力パターンを認識する認識手段
と、 前記認識辞書の学習処理に際し、所定回数に分けて入力
パターンとして入力すべき一纏まりの文字を一括して且
つ入力する順序に基づいた並べ方で表示装置に表示させ
た状態で、表示中の前記一纏まりの文字のうち今回入力
すべき文字を入力済みの文字および後に入力すべき文字
とは区別した所定の表示方法で表示する操作を、各入力
回毎に繰り返し行う表示制御手段と、 前記表示装置に前記所定の表示方法で表示された前記今
回入力すべき文字と関連付けて入力された入力パターン
に対する前記認識手段による認識結果に基づいて前記認
識辞書の学習を行う学習手段とを具備し、 前記表示制御手段は、入力すべき文字について漢字表記
と仮名表記をペアにして表示することを特徴とするパタ
ーン認識装置。 7.前記所定の表示方法は、前記今回入力すべき文字を
反転表示するものであることを特徴とする特許請求の範
囲第6項に記載のパターン認識装置。 8.前記表示制御手段は、入力単位毎にスペース、スラ
ッシュなどの分かち書マークを挿入して入力単位を明示
するものであることを特徴とする特許請求の範囲第6項
に記載のパターン認識装置。 9.認識辞書を用いて入力パターンを認識する認識手段
と、 前記認識辞書の学習処理に際し、所定回数に分けて入力
パターンとして入力すべき一纏まりの文字を一括して且
つ入力する順序に基づいた並べ方で表示装置に表示させ
た状態で、表示中の前記一纏まりの文字のうち今回入力
すべき文字を入力済みの文字および後に入力すべき文字
とは区別可能な色で色分け表示する操作を、各入力回毎
に繰り返し行う表示制御手段と、 前記表示装置に前記所定の表示方法で表示された前記今
回入力すべき文字と関連付けて入力された入力パターン
に対する前記認識手段による認識結果に基づいて前記認
識辞書の学習を行う学習手段とを具備したことを特徴と
するパターン認識装置。 10.前記表示制御手段は、入力単位毎にスペース、ス
ラッシュなどの分かち書マークを挿入して入力単位を明
示するものであることを特徴とする特許請求の範囲第9
項に記載のパターン認識装置。 11.入力すべき文字について漢字表記と仮名表記をペ
アにして表示することを特徴とする特許請求の範囲第9
項に記載のパターン認識装置。
(57) [Claims] A recognition unit for recognizing an input pattern using a recognition dictionary; and, in a process of learning the recognition dictionary, a state in which characters to be input as an input pattern are collectively and displayed on a display device in an arrangement manner based on an input order. A first set of characters that is distinguished from a set of parts to be input this time from a set of parts already input and a part of a set to be input later.
Is displayed in the second display method in which characters to be input this time are distinguished from characters that have already been input and characters that are to be input later in the group of parts displayed in the first display method. Display control means for repeatedly performing an operation to be displayed each time, and the recognition means for an input pattern input in association with the character to be input this time displayed on the display device by the second display method. A pattern recognition device comprising: learning means for learning the recognition dictionary based on a recognition result. 2. The first display method is to display the group to be input this time underlined, and the second display method is to reversely display the characters to be input this time. The pattern recognition device according to claim 1, wherein 3. The pattern recognition device according to claim 1, wherein both the first display method and the second display method are based on color-coded display. 4. 2. The pattern recognition apparatus according to claim 1, wherein said display control means inserts a separation mark such as a space or a slash for each input unit to specify the input unit. 5. 2. The pattern recognition device according to claim 1, wherein the characters to be input are displayed in pairs of kanji and kana. 6. A recognition unit for recognizing an input pattern using a recognition dictionary; and a learning method for the recognition dictionary, wherein a set of characters to be input as an input pattern in a predetermined number of times is arranged collectively and based on an input order. In a state where the characters are displayed on the display device, an operation of displaying the characters to be input this time in the group of characters being displayed in a predetermined display method that is distinguished from the already input characters and the characters to be input later, A display control unit that repeats every input, and the recognition based on a recognition result by the recognition unit for an input pattern input in association with the character to be input this time displayed on the display device in the predetermined display method. Learning means for learning a dictionary, wherein the display control means displays a character to be inputted in a pair of a kanji notation and a kana notation. That pattern recognition device. 7. 7. The pattern recognition apparatus according to claim 6, wherein the predetermined display method is to reversely display the character to be input this time. 8. 7. The pattern recognition apparatus according to claim 6, wherein the display control means inserts a separation mark such as a space or a slash for each input unit to specify the input unit. 9. A recognition unit for recognizing an input pattern using a recognition dictionary; and a learning method for the recognition dictionary, wherein a set of characters to be input as an input pattern in a predetermined number of times is arranged collectively and based on an input order. In the state of being displayed on the display device, the operation of displaying the characters to be input this time in the group of characters being displayed in a color that can be distinguished from the already input characters and the characters to be input later is performed by each input. Display control means that is repeated every time, and the recognition dictionary based on a recognition result by the recognition means for an input pattern input in association with the character to be input this time, which is displayed on the display device in the predetermined display method. And a learning means for learning the pattern. 10. 10. The display control means according to claim 9, wherein the display control means inserts a separation mark such as a space or a slash for each input unit to specify the input unit.
The pattern recognition device according to the paragraph. 11. 9. The ninth aspect of the present invention, wherein characters to be input are displayed in pairs of a kanji notation and a kana notation.
The pattern recognition device according to the paragraph.
JP62124610A 1987-05-21 1987-05-21 Pattern recognition device Expired - Lifetime JP2885399B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62124610A JP2885399B2 (en) 1987-05-21 1987-05-21 Pattern recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62124610A JP2885399B2 (en) 1987-05-21 1987-05-21 Pattern recognition device

Publications (2)

Publication Number Publication Date
JPS63289685A JPS63289685A (en) 1988-11-28
JP2885399B2 true JP2885399B2 (en) 1999-04-19

Family

ID=14889689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62124610A Expired - Lifetime JP2885399B2 (en) 1987-05-21 1987-05-21 Pattern recognition device

Country Status (1)

Country Link
JP (1) JP2885399B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734046U (en) * 1980-08-04 1982-02-23
JPS58172270U (en) * 1982-05-11 1983-11-17 クラリオン株式会社 Screen configuration of karaoke video equipment
JPS6057898A (en) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 Voice registration system
JPS61249182A (en) * 1985-04-27 1986-11-06 Toshiba Corp Pattern recognizing and learning device

Also Published As

Publication number Publication date
JPS63289685A (en) 1988-11-28

Similar Documents

Publication Publication Date Title
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
Zue et al. Acoustic segmentation and phonetic classification in the SUMMIT system
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
JP2955297B2 (en) Speech recognition system
CN111933116B (en) Speech recognition model training method, system, mobile terminal and storage medium
KR20040001594A (en) Apparatus and method for updating a lexicon
JP2885399B2 (en) Pattern recognition device
CN111627445A (en) Matching method and system for site or personnel
Carofilis et al. Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping
Hunt Speaker adaptation for word‐based speech recognition systems
JP3378547B2 (en) Voice recognition method and apparatus
JP2002215184A (en) Speech recognition device and program for the same
WO2020096073A1 (en) Method and device for generating optimal language model using big data
JPS61249182A (en) Pattern recognizing and learning device
JP2813209B2 (en) Large vocabulary speech recognition device
JPS63161498A (en) Voice information input device
JPS60107192A (en) Pattern recognizing device
JP3001334B2 (en) Language processor for recognition
JP2656239B2 (en) Speech recognition learning method
JP2603920B2 (en) Voice recognition device
JP3046872B2 (en) Spelling-phonetic symbol conversion processing method and exception word dictionary management data registration processing method
JPS63292197A (en) Vocaburary registration aid for voice recognition equipment
Akila et al. Word based speech recognition with supervised data mining classification
Murveit et al. An architecture of an MOS‐LSI speech recognition system using dynamic programming
JPS62114082A (en) Pattern recognition learning system