JPS60107192A - パタ−ン認識装置 - Google Patents

パタ−ン認識装置

Info

Publication number
JPS60107192A
JPS60107192A JP58215230A JP21523083A JPS60107192A JP S60107192 A JPS60107192 A JP S60107192A JP 58215230 A JP58215230 A JP 58215230A JP 21523083 A JP21523083 A JP 21523083A JP S60107192 A JPS60107192 A JP S60107192A
Authority
JP
Japan
Prior art keywords
recognition
input
pattern
dictionary
turn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58215230A
Other languages
English (en)
Other versions
JPH0654503B2 (ja
Inventor
Yoichi Takebayashi
洋一 竹林
Hidenori Shinoda
篠田 英範
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58215230A priority Critical patent/JPH0654503B2/ja
Publication of JPS60107192A publication Critical patent/JPS60107192A/ja
Publication of JPH0654503B2 publication Critical patent/JPH0654503B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、認識率の向上を効果的に図り得るパターン認
、a装置に関する。
〔発明の技術的R景とその間照点〕
近時)文字認識ν音声認識2図面読取等のノ4ターン認
識技術の発達が目覚ましく、例えば音声ワードプロセッ
サ、回路図面読取装置等が実用化の段階に入りつつおる
。然し乍ら、不特定多数の利用者を対象とするパターン
認識や、認識対象とするカテゴリ数が多い・母ターン認
識にあっては、未だに認識率が低く、・千ターン認識技
術における大きな課題となっている。
ところで、認識率の向上を図る為には、予め多数の・ぐ
ターンを収集して学習を行い、パターンm 66に供す
る認識用の辞書を十分に作成しておけば良いことが知ら
れている。然し、認識対象とするカテコ゛りが多数の場
合、例えば数千種の漢字を認識対象とする場合には、そ
の漢字パターンを十分多く収集することは実際上殆んど
不可能である。しかも、不特定多数の利用者を対象とす
るとき、・9タ一ン入力者の個性的な癖の影響が多大で
あり、この癖に起因する・臂ターンの変形に十分対処す
ることが甚だ困難であると云う不具合がある。またこれ
を回避するべく、パターンの繰返し入力を行わしめて学
fk行うには、パターン人力者にあまシにも多大な負担
を強いることになる。
〔発明の目的〕
本発明はこのような事情を4属してなされたもので、そ
の目的とするところは、パターン認識に供する認、11
11!静舊を効果的に学Hしてその認識率の向上を図り
得る実用性の高い・ぐターン認識装置を提供することに
ある。
〔発明の概要〕
本発明は入カバターンを認識処理してめられた上記入カ
バターンの認口哉結果に従って、誤認識結果されたカテ
ゴリをよむ・やターンおよび誤認識結果としてめられた
カテ了りを含むパターンをそれぞれ入力して、前記・ぐ
ターン認識処理に用いられる認識辞書の学Wt行うよう
にしたものである。
つまシ、入力・ぞターンに対する認識結果に基づいて、
特定のカテゴリを宮む・ぐターンを用いてその認識辞書
の学とを行わしめることにょシ、上記認識辞書の性能向
上、充実化等を簡易に、且つ効率良く図るようにしたも
のである。
〔発明の効果〕
かくして本発明によれば、入カバターンの認識結果に基
づいて認識対象・ぐターンの収集を行い、例えば誤認識
やコンフリクトの生じ易い/′eターンを収集して認識
辞書の学dを行うので、容易に信頼性の高い認識辞書を
作成してその認識率の向上を図ることが可能となる。っ
まシ、比較的少ない入カバターンデータを有効に利用し
て上記認識辞書の充実化を容易に図ることが可能となる
しかも、従来とは異なシ、認識結果に基づいて誤認識を
招いたカテゴリを含むパターンと、誤認識結果としてめ
られたカテゴリを含むパ・ターンとを有効に利用して認
識辞書の学習を行うので、その学習効率が非常によく、
また信頼性の向上に大きく寄与する。
〔発明の実施例〕
以下、図面を参照して本発明の実/71!1列につき説
明する。
第1図は実施例装置の概略構成図である。この装置を構
成する各要素は、その認識対象によってそれぞれ異なる
が、基本的には次のように構成される。パターン入力部
1は、認識対象とするパターン・データを入力するもの
で、このパターン入力$1を介して入力されたノ!ター
ンは前処理部2においてその特徴が抽出される。
認識部3はこのようにして前処理部2がめた前記入カバ
ターンの特徴ベクトルと、辞書記憶部4に予め登録され
ている仮数のカテゴリの認識用辞Hとの間の距離や類似
度、具体的にはそのマハラノビス距離やユークリッド距
離をめたり、またその仮台類似度を計算する等して認識
処理を行っている。そして、その最小距離、または最大
類似度を持つ認識#書の予め既知なるカテゴリを前記入
カッ9ターンの認識結果としてめている。このようにし
てめられた認識結果が、表示部5を介して/母ターン入
力者(利用者)に提示される。
ここで、認識対象とするパターンが単音節音声や、単語
音声である場合、前記・千ターン入力部1はマイクロホ
ンや、このマイクロホンを介して得られた入力信号を増
幅する増幅器等によって構成される。そして、前処理部
2は、例えば16チヤンネルのフィルタフ4ンクを通し
た出力全2乗検波し、更にこれを単音節毎に時間方向に
16フレームに亘ってリサンプルして合計256点の%
徴ベクトルをめる如く構成される。捷だ単語音声の場合
には、例えば上記の如き単音節特徴ベクトルの組合せと
して、その特徴ベクトルが表現される。
また、認識対象が手書された文字iJ?ターン等の場合
には、パターン入力部1は光電変換器等によって構成さ
れ、また前処理部2は文字ノぞターン像に所謂ボケ操作
を加える等して、その特徴ベクトルを抽出する如く構成
される。尚、このよう、な文字ツクターン等を認。一対
象とする場合には、第2図にその要部構成を示すように
、特徴ベクトル抽出された人カバターンを一旦、・臂タ
ーンメモリ6に格納しておくようにすれば都合が良い。
その他、認識対象とする・母ターンの種別に応じてノ4
ターン人力部1および前処理s2を構成し、その認識に
通した入カバターンの特徴ベクトルを抽出すれば良いこ
とは、云うまでもない。
また、このようにして抽出された入力・ぞターンの特徴
ベクトルに基ずく認識処理も、従来よシ棟々提唱されて
いる方式を適宜用いれば良いことは勿論である。
ところで、本発明装置が特徴とするところは、上記の如
く構成された一般的な構成のパターン認識装置本体に加
えて、辞書記憶部4に格納された認識辞書−を、員J記
装置本体の認識結果に従って学d・更新ケ行わしめるよ
うにした点にある。学d用入カカテコ゛り決定部7は、
前記認識部3が得た認識結果、およびその認識結果に対
する・9タ一ン入力者の合・否の指示情報等を入力し、
これに基づいて学dすべきカテゴリを決定するものであ
る。例えば認識結果に対する「正」「誤」「コンフリク
ト」の情報や、認識処理過程で得られた候補カテゴリの
順位とその類似匿呟等から、入カバターンに対するコン
フユージヨン・マトリックスを作成し、このコンフユー
ジヨン・マトリックスから学習すヘキ・母ターンを決定
している。具体的には、誤認識結果を招いたカテゴリを
含むパターン、および誤認識結果としてめられたカテゴ
リを含む・臂ターンを学8対象用の72ターンとして決
定し、またコンフリクトが生じたカテゴリの組合せを調
べ、これらのカテゴリの組を當む・臂ターン学習対象と
して決定している。しかして入力カテゴリ決定部7は、
このようにしてめた学習対象とするカテゴリを含むパタ
ーンの入力を前記表示部5を介してi44タ一ン入力(
利用者)に促している。学d部8は、このような入力要
求に応じて入力された・臂ターンを用いて、前記辞書記
憶部4に登録されている認識辞書について学習を行い、
その更新を行っている。この学習は、例えば入カバター
ンの1組または仮数組の特徴ベクトルを抽出し、誤りヲ
生じたカテゴリ間の特赦ベクトルの差異から、その両者
を識別するに有効な特歇ベクトル成分を辞書パターンに
加える等して行われる。これによって、辞書パターンは
、パターン人力者に適合したものとなる。
尚、学習・母ターンの収集を、誤認識あるいはコンフリ
クトの匿合いに応じてその入力回数を足めて行うように
すれば、そのノ々ターンについての学dを果中的に、且
つ効果的に行い得るのでモIS合が良い。また、予め誤
認識或いはコンフリクトが予想される・母ターンが存在
する場合には、・9ターン認、lIt処理に先立って、
そのパターンの入力を要求し、これに対して入力された
パターンに従って認、、i+1!辞書の学dを行った上
で上記・やターン認識処理を行うことも有効である。
尚、第1図中9は、これらの一連の制御を司どる制御部
を示している。
かくしてこのように構成された装置によれば、予め登録
された辞書パターンに基づいて認識処理された認識結果
から、誤認識あるいはコンフリクトを生じ易いカテゴリ
だけを選択し、その誤認識結果を招来したカテゴリを含
むノやターンおよび、誤認識結果として得られたカテゴ
リを含む・ぞターンからなる少数のパターンデータのみ
を収集して、その学習を行うので、ノ母ターンデータの
収集に大きな負担を招くことがない。
また上記の如き少数のバター/データにて、認識辞書の
効果的な学習を行い得るので、その認識辞書をパターン
入力者に適応した信頼性の高いものとすることができる
。これ故、認識率の向上を効果的に図ることが可能とな
る。
次に本発明装置の具体的な作用例につき説明する。
第3図は単音節音声パターンの認識を行う場合の処理の
流れを示すものである。例えば、不特定話者用の認識辞
書を備えた装置を用いて、特定話者に適合したパターン
認識装置を実現する場合、先ずCRT等の表示部5を用
りて入力すべき単音節を、単音節の組合せからなる単語
として発声入力を促す。そして、これらの各単語を+1
り成スる単音節についてそれぞれ認識処理を行い、その
認識結果からコンツー−ジョン・マトリックスを作成す
る。このとき、人カバターンを記憶しておき、仮での学
習に利用することが好ましい。しかるのち、多数の認識
結果から、a!4認識結果を招いた入カバターンのカテ
ゴリと、誤認識結果としてめられたカテコ8す、更には
コンフリクトを生じたカテゴリの組を抽出する。
しかるのち、これらのカテゴリk tんで構成される単
音節音声の系列、例えば単語の発声入力を要求し、その
入力音声中の学習対象となる単音節についてその特徴ベ
クトルをめる。このようにしてめた谷単音節・9ターン
の特徴ベクトルに従って、認識辞書の学習を行う。例え
ば単音節「ば」が「あ」に誤認識される確率が高い場合
には、上記単音節「ば」を含む単語(例えば「か・ん・
ば・い・」および単片節「あ」を含む単語(例えば「し
・あ・い」)の入カバターンについてそれぞれ該当単叶
節の特徴ベクトルの抽出を行い、その単音節カテゴリに
ついての辞書の学習を行う。
尚、不特定話者の音声認識装置としては、公衆電話回線
を介して入力された都市名等の単語音声認識が考えられ
る。このような入力形態の場合、一般に回線の伝送特性
等に起因して入力・臂ターンの変動が多く、認識対象語
粱の変更に除しては、大量の入力単語音声パターンを使
用して学習を行い認識辞書を作成することが必要である
。しかしながら、認識辞書を効果的に学習する場合、本
装置にあっては次のように対話形式で辞書学習が進めら
れる。即ち、音声認識システムを運用中に、音声が入力
された場合、その認識結果を、例えば、音声合成器を介
して入力者に伝える。例えば、「浜松(ハママツ)」な
る丘声入力に対して、認識結果の第1位を1只今の入・
力は、「高松」ですね」等の応答により出力し、「いい
え」なる返答に対して、認識結果を、第2位から順に出
力し、認識結果の確認を行う。この場合、「はい」、「
いいえ」等は、他の音声と明らかに異なり、両者を明確
に識別することが容易であるから、合・否判定の情報と
してそのまま利用することができる。
このようにして、単語音声入力に対して確認を行うこと
により、入カッ臂ターンの真のカテゴリと誤認識結果と
してめられたカテコゞすとの対応がとれるので、第4図
に示すごとく、システム運用時に、認識結果のコンフユ
ージヨンマトリックスを容易に作成することができる。
従って、このコンフユージヨンマトリックスに従って、
その学習すべきカテゴリを決定し、そのパターン入力を
促すか、そのカテコゝりのパターンの収集をシステム運
用時に行うことによって、単語辞書の学dを効果的に行
うことができる。
更に、特定話者用の連続数字音声認識装置の場合、数字
の担合せの数が多大であるため、その認識辞書の学習は
困難であったが、第5図に示すような手順で効果的に行
える。即ち、初期学習用の入力すべき数字系列、例えば
、「3・6・5・3Jl、[r3・7・5・3J1.f
f4・3・6・9J1等を入力話者に提示し1.A識装
置は不荷話者の認識辞書を用いて、上記入力音声を順次
、認識し、認識結果を記憶する。このとき、連続数字音
声パターンも記憶すると効果的である。このようにして
得られた、初期学d用の連続数字音声の認識結果を用い
て、次のように認識辞書の学習に使用する連続叙字が決
定される。すなわち、入力された連続数字音声「4・3
・6・9」が「4・3・5・9」に誤認識されている場
合等には、「6・9」を含む、連接数字背戸を学dに用
いる。例えば、r3・8・6・9J1.F6・9」。
「2・6・91等を話者に提示し、対応する連続音声を
入力し、学dすべき数字音声・パターン部を切り出し、
その入力話者に適応した認識辞書を作成する。かくして
、本実施例装置によれば、話者によシ異なる数字と数字
を連続して発話する際の癖を利用者に負担をかけずに効
果的に学習できるため好都合である。
尚、このような連続数字音声認識装置は、不特定話者の
ものを基本としなくても、始めから、特定話者用に構成
することも可能である。
さらに、本実施例は、他の連続単語認識にも適用可能で
ある。
ところで、以上の例は入カバターンを音声として与える
ものであるが、手書文字パターンの認識等にあっても、
同様に本発明を適用できる。
この場合には、向えば第6図に示すようにして辞−芽学
習を行うようにすれば良い。即ち、認識対象を漢字パタ
ーンとした場合、その数は極めて多い。従って、手書入
力された文字パターンを認識処理し乍ら、その認識結果
のコンフユージヨン・マトリックスを作成する。そして
誤認識やコンフリクトが生じた文字・!ターンカテゴリ
や、その誤t4 ri虞されたカテゴリがら類推される
カテゴリについてその入力を促し、これらの入カバター
ンを用いてその辞書学dを行わしめる。例えば一般的に
「識、織、職」や「7.ワ、り。
フ」等にコンフリクトが生じることが多いので、これら
のカテコゝりについてそれぞれ認識辞書の学習を行うよ
うにする。
このようにすれば、前述した音声認識の場合と同様に、
認識辞書の効果的な学習を行うことが0■能となる。
また更に本発明は、話者4舷や車者認識における辞督ノ
9ターンの学習についても適用することができる。また
、手書図面読取itにおけるgL号・形状4誠、また画
像入力された物体に対する品質認識についても適用可能
である。即ち、この品質認識にあっては、画像入力され
た物体の形状・大きさ・色等の特徴を抽出し、そのクラ
ス分け(ランク付)を行うが、この場合、上記ランク分
けの基準となるパラメータを前記物体に適応して学習さ
せる必要があり、このような認識部Hの学習についても
本発明が適用可能である。
以上説明したように、本発明によれば入カバターンの認
識結果に基づいて、誤認識やコンフリクトの生じ易いカ
テゴリについてのみ集中的に認識辞蕾の学習を行うので
、認識辞書を簡易に効率良く/ぐターン入力者に適合さ
せることができる。そして、正しい認、礒結果が得られ
るカテゴリについては4・6別字Mf:行うことがない
ので、その学d効果が非常に高い。これ故、認識対象と
するカテゴリ数が多大なときや、入力・9ターンの変形
が多いとき、また・ぐターン入力者の1同性の影響が、
つまり入カバターンの変形が太きいとき、更には類似し
たカテゴリが多いとき等、辞鉦の適応化に多大な効果が
萎せられる。
そして、全ての認識対象カテゴリについてパターンデー
タを収集することなく、必要最小限の、!A認識を生じ
易いカテゴリを含むパターンのみ全収集して、その少数
のパターン全有効に用いて辞訂学習を行い得る。従って
、・ぞターン収集の為のパターン提供者に対する負担を
大幅に軽減することができる。
尚、本発明は上述した実施例に限定されるものではない
。例えば入カバターンを表わす特徴ベクトルの種類や、
その特徴ベクトルを用いたパターン認識法については、
従来知られた棟々の方式をその用途に応じて適亘用いれ
ばよい。
また上述した同以外のパターン認、識にも適用可1j目
できることは云うまでもなく、要するに本発明はその要
旨を逸脱しない11′区囲で種々変形して実施できる。
【図面の簡単な説明】
第1図は本発すJの一実施例装置の基本構成図、第2図
は変形例を示す要部構成図、第3図乃至第6図は実施ク
リ装置における学習処理の流れを示す図である。 1・・・やターン人力部、2・・・前処理部、3・・・
認識部、4・・・辞書記憶部、5・・・表示部、6・・
・・ぞターンメモリ、7・・・学習用入力カテゴリ決定
部、8・・・学′d部、9・・・制御部。 出願人代理人 弁理士 鈴 江 武 彦第1図 第2図 第3図 第4図 ′M5図

Claims (2)

    【特許請求の範囲】
  1. (1)入カバターンを認識辞臀と照合して上記入カッタ
    ーンを認識する認識装置本体と、このg識装置本体によ
    A前記入カバターンの認識結果に誤認識されたカテゴリ
    が存在するとき、この誤認識結果を招いたカテゴリを含
    むiRパターンよび誤認識結果としでめられたカテゴリ
    を含む・ぞターンをそれぞれ入力してr?iJ記認識辞
    書の学習を行う手段とを具諦したことを特徴とするノや
    ターン認識装置。
  2. (2) 認識辞書の学習に用いられるノ9ターンは、認
    識装置本体の認、i11!結果に基づいて人力要求され
    た特定のカテゴリを含むパターンを入力して与えられる
    ものである特許請求のI氾四第1項記載の・!ターン認
    識装置。
JP58215230A 1983-11-16 1983-11-16 パタ−ン認識装置 Expired - Lifetime JPH0654503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58215230A JPH0654503B2 (ja) 1983-11-16 1983-11-16 パタ−ン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58215230A JPH0654503B2 (ja) 1983-11-16 1983-11-16 パタ−ン認識装置

Publications (2)

Publication Number Publication Date
JPS60107192A true JPS60107192A (ja) 1985-06-12
JPH0654503B2 JPH0654503B2 (ja) 1994-07-20

Family

ID=16668861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58215230A Expired - Lifetime JPH0654503B2 (ja) 1983-11-16 1983-11-16 パタ−ン認識装置

Country Status (1)

Country Link
JP (1) JPH0654503B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6385883A (ja) * 1986-09-29 1988-04-16 Toshiba Corp パタ−ン認識学習装置
JPH05159063A (ja) * 1991-12-09 1993-06-25 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置
JPH05159064A (ja) * 1991-12-09 1993-06-25 Nippon Telegr & Teleph Corp <Ntt> 画像探索装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58156998A (ja) * 1982-03-12 1983-09-19 日本電気株式会社 情報入力装置
JPS59133599A (ja) * 1983-01-20 1984-07-31 三洋電機株式会社 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58156998A (ja) * 1982-03-12 1983-09-19 日本電気株式会社 情報入力装置
JPS59133599A (ja) * 1983-01-20 1984-07-31 三洋電機株式会社 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6385883A (ja) * 1986-09-29 1988-04-16 Toshiba Corp パタ−ン認識学習装置
JPH05159063A (ja) * 1991-12-09 1993-06-25 Nippon Telegr & Teleph Corp <Ntt> 画像検索装置
JPH05159064A (ja) * 1991-12-09 1993-06-25 Nippon Telegr & Teleph Corp <Ntt> 画像探索装置

Also Published As

Publication number Publication date
JPH0654503B2 (ja) 1994-07-20

Similar Documents

Publication Publication Date Title
JP4672003B2 (ja) 音声認証システム
JP2558682B2 (ja) 知的ワ−クステ−シヨン
JP4867804B2 (ja) 音声認識装置及び会議システム
CN110648671A (zh) 声纹模型重建方法、终端、装置及可读存储介质
JPS6386655A (ja) メデイア変換方式
JP3444108B2 (ja) 音声認識装置
JPS60107192A (ja) パタ−ン認識装置
CN110853674A (zh) 文本核对方法、设备以及计算机可读存储介质
JP2002215184A (ja) 音声認識装置、及びプログラム
JP3708747B2 (ja) 音声認識方法
JP3515143B2 (ja) パターン追加登録装置
JP2656239B2 (ja) 音声認識学習方式
JPS6386648A (ja) 優先電話方式
JPS6386676A (ja) フアクシミリ通信方式
JPS6385934A (ja) 知的ワ−クステ−シヨン
JPH0824323B2 (ja) 知的ワ−クステ−シヨン
JPS6385963A (ja) 会議アレンジ方式
JPS6385964A (ja) スケジユ−ル表示方式
JPS63118198A (ja) 音声認識装置
JPS6386646A (ja) ワ−クステ−シヨン
JPS63161498A (ja) 音声情報入力装置
JPS6386647A (ja) 自動転送電話方式
JPH01191199A (ja) 音声入力装置
JPS5962900A (ja) 音声認識方式
JPS6385979A (ja) ワークステーション