JPH0576672B2 - - Google Patents

Info

Publication number
JPH0576672B2
JPH0576672B2 JP60247044A JP24704485A JPH0576672B2 JP H0576672 B2 JPH0576672 B2 JP H0576672B2 JP 60247044 A JP60247044 A JP 60247044A JP 24704485 A JP24704485 A JP 24704485A JP H0576672 B2 JPH0576672 B2 JP H0576672B2
Authority
JP
Japan
Prior art keywords
dictionary
recognition
candidate
rewriting
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60247044A
Other languages
English (en)
Other versions
JPS62107388A (ja
Inventor
Osamu Kunisaki
Toshihiro Hananoi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60247044A priority Critical patent/JPS62107388A/ja
Publication of JPS62107388A publication Critical patent/JPS62107388A/ja
Publication of JPH0576672B2 publication Critical patent/JPH0576672B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明はパターン認識装置に係り、特に不特定
多数の人の文字または音声を認識するとともに、
特定個人の特性に応じて認識精度を向上するに好
適なパターン認識装置に関する。
〔発明の背景〕
従来、音声認識や文字認識のための装置では、
認識用辞書すなわち各認識単位(音素、文字また
は更に細かく分類したカテゴリ)毎に設けた標準
パターンをいかに作成するかが、認識性能に関す
る重要なポイントであつた。特に不特定多数の音
声または文字(以後、説明は文字を対象として行
なう)を対象とするためには、標準パターンを追
加または修正することが不可欠であつた。また、
認識性能の向上を図るため、認識対象を特定の人
の字形に限定し、これを用いて使用者個人毎に標
準パターンを作成し、認識に用いることおよび認
識結果に基づいてこれを学習により修正すること
が知られている。これらの方法を分類すると、(1)
不特定筆記者用標準パターンの集合、すなわち汎
用辞書と、特定筆記用標準パターンの集合、すな
わち個人辞書との両者を用いて認識を行ない、最
終判定を行なう方式で、認識結果に基づいて個人
用辞書を修正する方式(特開昭59−17672号公
報)、(2)汎用辞書を用いて認識し、その結果に基
づいて更に学習を行つて汎用辞書に修正または追
加を加える方式(特開昭58−197578号公報)、(3)
汎用辞書と個人用辞書とを持ち、これら両者から
合成した認識用辞書を用いて認識を行ない、認識
結果に基づいて個人用辞書を修正する方式(特開
昭60−33680号公報)がある。
これらの方法のうち(2)および(3)の方式では、学
習する毎に個人用字形または変形字形が読めるよ
うになるが、逆に特定の個人の字形以外の字形に
対して認識性能が劣化し、不特定筆記者の字形が
読めなくなるといつた欠点があつた。このよう
に、特定個人の字形と不特定筆者の字形のいずれ
に対しても、認識性能を確保するためには、上記
(1)の方式のように、汎用辞書と個人用辞書とを併
用することが不可欠である。
ところで(1)の公知例では、個人用辞書は汎用辞
書と同じく、学習用文字パターンから作成した標
準パターンであり、漢字認識のように対象とする
文字カテゴリー数が2000字種以上の場合、辞書用
のメモリー量が大きくなるという欠点がある。こ
れに対処するためには、上記(3)の公知例のよう
に、個人用辞書として、汎用辞書に対する使用フ
ラグや文字カテゴリー書き換え情報など、コード
情報を用いることが知られている。しかしながら
文字カテゴリーの書き換えは、特開昭55−140976
号公報にあるように、認識対象標準パターンにカ
テゴリの優先順位情報を付加することと同じであ
るが、認識結果が得られる毎に変更すると、なか
なか収束せず、同一標準パターンに異なる優先順
位情報が付けられるような状況が生じる可能性が
あつた。
〔発明の目的〕
本発明の目的は、上記の問題点を解決し、不特
定筆者および特定筆者いずれの字形に対しても、
全体の認識性能を劣化することなく、特定の字形
に対する認識性能を逐次的に向上する手段を備え
たパターン認識装置を提供することにあり、辞書
容量の増加を押え、かつ学習における収束効率を
向上することを目的としている。
〔発明の概要〕
上記の目的を達成するため、本発明では汎用辞
書と個人用辞書を持ち、汎用辞書には字形から抽
出した標準パターンを採用し、個人用辞書には、
上記汎用辞書の標準パターン(各文字毎に複数存
在しても良く、以後これをマスクと呼ぶ)の順位
情報の書き換え規則を採用している。またこの書
き換え規則の登録・削除は、個々の書き換え規則
の正答率を基準として実施する。
以下、本発明の概要を説明する。第1図は本発
明の原理を説明するためのブロツク図である。
入力・前処理部11にて認識対象のパターンに
変換され、まず汎用辞書13を用いて認識部12
において、標準パターンと入力パターンとの類似
性尺度を計算し、類似性の高い順に候補を並べた
候補マトリクスを該認識部12から出力する。次
に、候補マトリクスの候補順位に関する書換え規
則の集合である個別辞書15を用いて、結果編集
部14において該当する書換え規則に従つて候補
マトリクスを書換え、結果の編集を行なう。この
結果を表示・修正部16で表示し、オペレータに
よる修正を受付ける。オペレータによる修正の履
歴は、書換え規則毎にその正答率を書換え規則編
集部17において管理しておき、一定の条件を満
足する書換え規則は個別辞書に登録する。一方、
正当率の低い書換え規則は個別辞書から削除す
る。この書換え規則の登録・削除などを書換え規
則編集部17で行なう。また、オペレータによる
修正結果は、最終結結果として外部フアイル等1
8に出力される。
ここで書換え規則というのは、結果編集部14
から出力される認識結果の誤り傾向を統計的に調
べて、例えば「聞」という文字を常に「間」と誤
認識する傾向にあることが判明したら、認識部1
2の出力の中で「間」が出力されたらそれを
「間」に修正しなさいという規則を作ることとし、
このような規則を書換え規則と云うのである。書
換え規則の様々な具体例は後述する。
第2図は、本発明のポイントである結果編集部
の動作原理を説明するためのものである。第2図
aは認識結果の候補マトリクスの例であり、入力
が「新聞を読む」という5文字の場合、各入力文
字に対し、第1位乃至第4位の順位をもつ候補の
数が3,4,3,2,1の場合を示している。こ
の場合、第1位が最もそれらしいものである。第
2図bは同図aのような候補マトリクスに対し
て、書換え規則を適用して結果の編集を行つた例
を示している。(i)のケースでは第1位に「新」が
来た場合には書換え規則は元と同一のものを出力
するという規則になつているので結果は不変であ
る。なお記号「*」はその位置に任意の候補が来
ることを意味している。ケース(ii)では、個人の
「聞」の字形を汎用辞書を用いて認識すると、第
1位に「間」,第3位に「聞」が候補して挙がる
煩度が多いことに対処するための規則、つまりそ
の場合には、「聞」を「間」の前にもつてきて順
位を入れ換えなさいという書換え規則が登録して
ある場合で、結果として第1位に正解の「聞」が
上つてくる。ケース(iii)はケース(i)と似ているが、
第1位に「間」、第2位に「問」のとき、結果は
不変で良いという規則である。ケーース(i)では第
1位のみに着目しているが、このケース(iii)では第
2位までの順序に着目している点が異なつてい
る。ケース(iv)は、「を」が必ず「奈」となるケー
スに対処する規則、つまり、「奈」は「を」に修
正しないという書換え規則であり、第1位「奈」、
第2位「を」の順に候補が出現したら第1位を削
除して、以後の順序を繰り上げる。ケース(v)は、
第2位に似た文字が必ず候補として上るけれど
も、候補としてあり得ないものとして削除すると
いう書換え規則であり、例えば「講」が個人の用
途としては認識対象外の文字(これを外字とい
う)であり、汎用辞書の各標準パターンに選択フ
ラグを設け、フラグをオフした場合と同様の効果
をもたらす。ケース(vi)は、汎用辞書にない文字
(これを認識システムの外字と呼ぶ)を、個人の
用途のために登録して使用したい場合に有効な規
則であり、例えば「茗」が外字であり、これを登
録し、代りに「若」を外字に変更したい場合に用
いる。また「苦」を外字に変更したい場合で、第
1位には必ず「若」が候補として挙がる場合に
は、第2図bケース(vi)の例のように第1位「若」,
第2位「苦」のペアに対して規則を適用して
「茗」という結果を得る。
以上の説明で示したように、本発明では特定の
個人の字形に対し汎用辞書を用いた認識結果が、
その候補の順位に関し統計的に有意差の認められ
る傾向にあるならば、書換え規則として登録して
適用し、結果を編集してしまうものである。
一方、第3図は、本発明のもう1つのポイント
である書換え規則編集部の原理を説明するための
もので、処理の流れの例を示している。すなわ
ち、個別辞書の書換え規則によつて編集されれた
認識結果を表示し、オペレータの候補選択または
修正を受ける。得られた修正結果と編集結果の一
致/不一致の関係、および結果編集部における適
用規則の有無、新規作成規則の個別辞書登録済チ
エツクを経て、全規則の正答率を変更し、その後
閾値とチエツクすることによつて個別辞書への登
録または削除を行なう。
以上説明したように、本発明では、個人の字形
に対する認識性能の向上が、書換え規則という一
種の知識の登録・削除によつて実現でき、汎用的
である。また、オペレータによる修正の履歴に基
づいた登録・削除を行なうため、学習の収束効率
が向上される。更に、個別辞書を2種類以上に分
割し、1つ以上は特定の個人用として入れ替え可
能とし、もう1つを不特定筆者用の書換え規則の
集合として特徴の標準パターン整合では解決でき
ない特例処理を行なわせることが可能である。
〔発明の実施例〕
以下、本発明の実施例を図面を用いて説明す
る。第4図は、本発明の一実施例のブロツク図で
ある。全体の制御は、共通バス500に接続され
た制御部1で行なう。帳票に書かれた文字は、観
測部10にて光電変換され、2値化されて画像バ
ツフア20に格納される。前処理部30では、画
像バツフア20の中の認識対象とする文字部分を
切出して大きさなどの正規化を行なつた後、再び
画像バツフア20の別のエリアに格納する。認識
部40では、画像バツフア20に格納された1文
字毎のパターン形状に対して特徴抽出を行ない、
汎用辞書50に格納された標準パターンとの整合
を行なう。整合結果は、整合尺度(例として類似
度)に従つて最も確らしいものの順に並べられ、
一定の単語または文字数分を集めて候補マトリク
スバツフア60に格納される。結果編集部70で
は、候補マトリクスバツフア60の内容を順次と
り出し、個別辞書80に格納された書換え規則が
適用できるか否かをチエツクし、適用可能な書換
え規則に従つて候補マトリクスバツフア60の内
容を変更すると共に、適用した規則の履歴を正答
率記憶部140に格納する。単語照合部90は、
候補マトリクスバツフア60と単語辞書100と
の照合を行なつて、最も確からしい単語から順に
並べて再び候補マトリクスバツフア60に格納す
る。ここで単語照合部90および単語辞書100
が存在しない場合の構成でも、本発明の本質は不
変である。得られた結果を候補マトリクスバツフ
ア60から取り出して、表示部110でオペレー
タに表示する。表示するものは、認識結果だけで
なく、切出した文字のパターンも同時に表示する
ことが考えられ、オペレータによる修正効率向上
に役立つことは言うまでもない。オペレータは表
示された内容をチエツクし、複数候補の中から選
択したり、正解を仮名漢字変換により入力したり
することを修正部120で行なう。修正部で修正
された結果は、最終結果フアイル200に格納さ
れる。一方、書換え規則編集部130では、候補
マトリクスバツフア60の内容と最終結果フアイ
ル200の内容とを比較し、第3図で説明した手
順で書換え規則の正答率を再評価し、正答率の増
減が発生し、その結果を正答率記憶部140に格
納する。次にこの結果すなわち各規則の正答率を
予め設定してある閾値と比較し、正答率の高いも
のは個別辞書80に登録し、正答率の低いものは
個別辞書80から削除する。なお、個別辞書80
への登録および削除は、書換え規則自体の書込
み、消去によつても良いが対応するフラグ(登録
フラグ)を用いても実現できる。また、個別辞書
80の内容を複数のブロツクに分け、制御部1の
指示により、どの書換え規則のブロツクを使用す
るかを切替える方式をとることが考えられる。こ
れによれば例えば、汎用辞書50では改善できな
い個別の字形の変形に対処して不特定筆者の字形
や特定筆者の字形の読取り性能の向上が実現でき
る。
以上の説明は文字を対象として行なつたが、音
声を対象とする場合も同様の考えで実現できる。
本実施例によれば、特定の個人の字形を対象と
した認識性能の向上が、本装置を使用する過程で
徐々に進歩し、また修正の履歴に従つて性能向上
を行なうため、一過性の雑音データに振られるこ
となく収束することができ、収束速度向上の効果
がある。更に、制御パラメータの変更で、個人用
の字形でなく、不特定筆者の字形を読取ることも
可能であり経済的である。また、外字の読取りも
同一の手続きで実現できるため、辞書作成の工数
が軽減できる効果がある。
〔発明の効果〕
本発明によれば、汎用辞書である標準パターン
と、個別辞書である書換え規則とを持つているた
め、特定個人の入力パターンに対する学習が可能
であると共に、不特定の入力パターンに対しても
認識性能を全体として低下させることなく性能を
保持できる効果がある。また個別辞書がコードデ
ータであるためその容量は少さく、経済的であ
る。更に、修正情報の履歴を用いた学習方式を採
用しているため、少量のノイズデータに振らされ
ることなく学習が収束する効果がある。
【図面の簡単な説明】
第1図は本発明の原理を説明するためのブロツ
ク図、第2図、第3図は第1図の動作原理の補足
説明用の説明図、第4図は本発明の一実施例のブ
ロツク図である。 1……制御部、40……認識部、50……汎用
辞書、70…結果編集部、80………個別辞書、
110………表示部、120……修正部、130
……書換え規則編集部。

Claims (1)

    【特許請求の範囲】
  1. 1 標準パターンを記憶した汎用辞書と、入力未
    知パターンと前記汎用辞書から読出した標準パタ
    ーンとを比較照合して認識候補パターンを出力す
    る認識手段と、書換え規則を記憶した個別辞書
    と、前記認識手段とから出力された候補パターン
    の候補順序を前記個別辞書から読出した書換え規
    則によつて修正し、編集し直して出力する第1の
    編集手段と、該第1の編集手段から出力された候
    補パターンを表示する表示手段と、表示された該
    候補パターンから判断されるその誤認識の傾向を
    示す情報を入力されて、前記個別辞書に記憶され
    ている書換え規則を追加し、修正し、或いは削除
    するために、書換え規則の編集を行なつて前記個
    別辞書に入力する第2の編集手段とから成ること
    を特徴とするパターン認識装置。
JP60247044A 1985-11-06 1985-11-06 パタ−ン認識装置 Granted JPS62107388A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60247044A JPS62107388A (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60247044A JPS62107388A (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Publications (2)

Publication Number Publication Date
JPS62107388A JPS62107388A (ja) 1987-05-18
JPH0576672B2 true JPH0576672B2 (ja) 1993-10-25

Family

ID=17157575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60247044A Granted JPS62107388A (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Country Status (1)

Country Link
JP (1) JPS62107388A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) * 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式

Also Published As

Publication number Publication date
JPS62107388A (ja) 1987-05-18

Similar Documents

Publication Publication Date Title
US5029223A (en) Constraint driven-on line recognition of handwritten characters and symbols
WO2021230054A1 (ja) 文抽出装置及び文抽出方法
JPH08263478A (ja) 中国語簡繁体字文書変換装置
CN111581963B (zh) 提取时间字符串的方法、装置、计算机设备及存储介质
JPH0576672B2 (ja)
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JPH06215184A (ja) 抽出領域のラベリング装置
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP7563655B2 (ja) 表認識装置及び方法
JP3548372B2 (ja) 文字認識装置
JPH0441388B2 (ja)
JPH11120294A (ja) 文字認識装置および媒体
JP2560959B2 (ja) 文字認識後処理方式
JPS6061875A (ja) パターン認識装置における標準パターン作成方法
JP2660998B2 (ja) 日本語処理装置
JP2575947B2 (ja) 文節切出し装置
JPS63282586A (ja) 文字認識装置
JPH0589281A (ja) 誤読修正・検出方法
JP2947832B2 (ja) 単語照合方法
JPS646514B2 (ja)
JP2574741B2 (ja) 言語処理方法
CN115410207A (zh) 一种针对竖排文本的检测方法及装置
JP2000250905A (ja) 言語処理装置及びそのプログラム記憶媒体
JPH08202830A (ja) 文字認識システム
JPH01169569A (ja) 文書作成装置に於ける文章推敲方法