JPH06259602A - 候補文字抽出装置 - Google Patents

候補文字抽出装置

Info

Publication number
JPH06259602A
JPH06259602A JP5045178A JP4517893A JPH06259602A JP H06259602 A JPH06259602 A JP H06259602A JP 5045178 A JP5045178 A JP 5045178A JP 4517893 A JP4517893 A JP 4517893A JP H06259602 A JPH06259602 A JP H06259602A
Authority
JP
Japan
Prior art keywords
candidate character
distance calculation
distance
candidate
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5045178A
Other languages
English (en)
Inventor
Noriaki Otake
紀明 大竹
Takahiro Sakurai
隆博 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5045178A priority Critical patent/JPH06259602A/ja
Publication of JPH06259602A publication Critical patent/JPH06259602A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 効率的かつ高速に候補文字の抽出を行うこと
が可能な候補文字抽出装置を得る。 【構成】 文字認識装置における認識結果の候補文字を
抽出する候補文字抽出装置であって、標準ベクトルと特
徴ベクトルとの距離計算を行う距離計算手段3と、前記
距離計算を途中で終了させる距離計算途中終了手段と、
前記距離計算手段により求められた距離値に基づき候補
文字の並び替えを行う候補文字並び替え手段5と、前記
距離計算手段と前記候補文字並び替え手段を並行して動
作させる手段7とを具備する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に使用さ
れ、候補文字を効率的かつ高速に抽出するのに最適な候
補文字抽出装置に関するものである。
【0002】
【従来の技術】従来の文字認識装置における文字認識処
理は、まず、帳票等に書かれた文字パタンデータをスキ
ャナ等で処理装置(プロセッサなど)に読み込み、文字
位置限定・文字切り出し・文字パタン整形等の前処理を
情報処理部(CPU)で行う。次に、その各々の文字パ
タンに対して特徴抽出を行い、辞書の文字と特徴を比較
して特徴が類似した文字を候補文字として抽出する文字
認識処理を行う。そして、抽出された候補文字に対して
用語照合・住所照合等の知識処理を行い、最終的な認識
結果を出力する後処理を行う。
【0003】文字認識処理の特徴抽出において、文字の
特徴は多次元のベクトル(以後、特徴ベクトルという)
で表現される。辞書の文字も同様に特徴ベクトル(以
後、標準ベクトルという)で表現される。特徴ベクトル
の次元数は、特徴抽出方法によりまちまちであるが、数
千次元のものもある。また、辞書の1つの文字が複数の
標準ベクトルを持つものもある。
【0004】図4は、従来の処理装置(プロセッサな
ど)による文字認識の処理の流れを説明するための説明
図である。
【0005】候補文字の抽出では、前処理から渡された
文字パタンの特徴ベクトルと辞書の文字の標準ベクトル
との間の距離計算を行う。辞書中の全ての文字に対する
距離計算が終了した後、距離値の小さい順に並び替えを
行い、距離値の小さい数文字を候補文字として抽出す
る。
【0006】前処理から渡される文字パタンの特徴ベク
トルをa1,a2,a3,…,an、辞書の文字の標準ベク
トルをb1,b2,b3,…,bnとすると距離計算は一般
的に以下のように行われる。nは特徴ベクトル及び標準
ベクトルの次元数である。
【0007】
【数1】
【0008】あるいは、
【0009】
【数2】
【0010】ただし、式(1),(2)においてwi
重みベクトルである。
【0011】図5は、辞書中の1文字に対する距離計算
は、式(1)を使用して、従来の処理装置(プロセッサ
など)で実行する際の処理手順を説明するための説明図
である。
【0012】辞書の字種としては、英字・数字・カタカ
ナ・ひらがな・記号・漢字がある。特に、漢字に関して
は、第一水準で約3000文字、第二水準で約6000
文字であり、そのうち約1000文字が良く使用され
る。
【0013】距離計算は、帳票上の領域で字種が限定で
きるため、前記字種の全文字に対して行う必要はない
が、例えば、漢字(第一水準)の場合には、約3000
字の距離計算を行う必要があるため、処理時間は膨大と
なる。
【0014】距離計算する際には特徴ベクトルの次元を
圧縮して、処理時間の短縮を図る場合もある。
【0015】
【発明が解決しようとする課題】しかしながら、従来の
技術では、候補文字抽出における距離計算及び並び替え
処理が逐次的であるために効率的に処理されていないと
いう問題があった。
【0016】また、特徴ベクトルと標準ベクトル間の距
離計算自身にも膨大な処理時間を費やしているという問
題があった。
【0017】本発明は、前記問題点を解決するためにな
されたものであり、本発明の目的は、効率的かつ高速に
候補文字の抽出を行うことが可能な候補文字抽出装置を
提供することにある。
【0018】本発明の前記ならびにその他の目的及び新
規な特徴は、本明細書の記述及び添付図面によって明ら
かにする。
【0019】
【課題を解決するための手段】前記目的を達成するため
に、本発明の(1)の手段は、文字認識装置における認
識結果の候補文字を抽出する候補文字抽出装置であっ
て、標準ベクトルと特徴ベクトルとの距離計算を行う距
離計算手段と、前記距離計算を途中で終了させる距離計
算途中終了手段と、前記距離計算手段により求められた
距離値に基づき候補文字の並び替えを行う候補文字並び
替え手段と、前記距離計算手段と前記候補文字並び替え
手段を並行して動作させる手段とを備えていることを最
も主要な特徴とする。
【0020】本発明の(2)の手段は、前記(1)の手
段の距離途中終了手段が、候補文字として抽出されてい
る文字中の最大距離値を参照する候補文字中最大距離値
参照手段と、距離計算途中で前記最大距離値を越えた時
点で距離計算を終了させる手段とを備えていることを特
徴とする。
【0021】本発明の(3)の手段は、前記(1)又は
(2)の手段の距離計算手段が、辞書(標準ベクトル及
び重みベクトル)を記憶する手段と、入力された文字の
特徴ベクトルを記憶する手段と、前記各手段を個別に読
み出す手段とを備えていることを特徴とする。
【0022】本発明の(4)の手段は、前記(1)乃至
(3)の手段のうちいずれか1つの手段の距離計算手段
が、標準ベクトルの読み出し、重みベクトルの読み出
し、特徴ベクトルの読み出し、距離計算のための演算を
パイプライン処理する制御手段を備えていることを特徴
とする。
【0023】本発明の(5)の手段は、前記(1)乃至
(4)の手段のうちいずれか1つの手段の距離計算手段
が、距離計算を最後まで行った場合及び前記距離計算途
中終了手段により距離計算を終了した場合に、辞書中の
次の文字の距離計算を開始することを特徴とする。
【0024】本発明の(6)の手段は、前記(1)乃至
(5)の手段のうちいずれか1つの手段の候補文字並び
替え手段が、その結果を格納するための候補文字格納手
段を備え、距離計算を最後まで終了した辞書の文字に対
して距離値の小さい順に並び替えを距離計算と並行して
行い、前記候補文字格納手段に書き込むことを特徴とす
る。
【0025】
【作用】前述の手段によれば、候補文字中の最大距離値
を参照して、距離計算の途中でこの最大距離値を越えた
場合には距離計算を終了させ、不必要な演算を省略(削
除)することができる。
【0026】また、距離計算と並び替え処理が並行して
動作するので、候補文字を効率的に抽出することができ
る。
【0027】また、候補文字抽出装置内でパイプライン
処理を行うことにより、距離計算を高速に処理できる。
【0028】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。
【0029】図1は、本発明の候補文字抽出装置の一実
施例の機能構成を示すブロック構成図である。
【0030】本実施例の候補文字抽出装置は、図1に示
すように、スキャナ等から文字パタンを処理装置(プロ
セッサ等)に入力し、その入力された文字パタンに対し
て特徴抽出を行った結果(特徴ベクトル)を格納する特
徴ベクトル記憶装置1、標準文字パタンの特徴ベクトル
(標準ベクトル)と重みベクトルを格納する辞書記憶装
置2、候補文字中の最大距離値を参照しながら標準ベク
トルと特徴ベクトルとの距離計算を行う距離計算手段
3、候補文字して抽出される文字中の最大距離値を格納
する最大距離値格納手段4、距離計算結果に基づき距離
値の小さい順に並び替えを行う並び替え手段5、候補文
字を格納する候補文字格納手段6、特徴ベクトル記憶装
置1及び辞書記憶装置2への読み出し制御、距離計算の
パイプライン処理制御、及び距離計算と並び替え処理の
並行処理制御等の制御を行う制御手段7で構成されてい
る。
【0031】前記距離計算手段3は、特徴ベクトル記憶
装置1に格納されている入力文字パタンの特徴ベクトル
と、辞書記憶装置2に格納されている標準文字パタンの
特徴ベグトル(標準ベクトル)との間の距離計算を行
う。n次元の2つのベクトル間の距離計算を行う場合、
前述の式(1)の計算を行う。ここで、aiは入力文字
パタンの特徴ベクトルのi番目の要素で、biは標準文
字パタンの特徴ベクトル(標準ベクトル)のi番目の要
素である。
【0032】前述の式(1)の計算を行う際、候補文字
として抽出されている中の最大の距離値を格納している
最大距離値格納手段4を参照する手段を有し、n次元の
距離計算を終了する以前に式(3)の条件を満足した場
合には、その標準文字パタンに対する距離計算を途中終
了し、次の標準文字パタンの距離計算を開始する。
【0033】
【数3】
【0034】ここで、ciは異なる標準文字パタンの特
徴ベクトル(標準ベクトル)のi番目の要素である。d
iは候補文字中の最大距離値の標準文字パタンの特徴ベ
クトル(標準ベクトル)のi番目の要素である。
【0035】n次元の距離計算が終了した標準文字パタ
ンの距離値のみを並び替え手段5に出力する。
【0036】前記並び替え手段5は、候補文字格納手段
6に格納されている標準文字パタンの距離値を小さい値
の順に並び替えを行う。そして、並び替えの終った結果
から候補文字中の最大距離値を最大距離値格納手段4へ
出力する。また、並び替え手段5と距離計算手段3は同
時に動作可能である。
【0037】前記候補文字格納手段6は、候補文字とし
て抽出されている標準文字パタンの識別子(番号等)
と、その距離値を格納する。候補文字として抽出する文
字数は外部から指定される。
【0038】前記制御手段7は、例えば、プロセッサ等
を用い、特徴ベクトル記憶装置1、辞書記憶装置2、最
大距離値格納手段4及び候補文字格納手段6のそれぞれ
のアクセス制御を行う。また、距離計算手段3及び並び
替え手段5の動作制御を行う。
【0039】次に、本実施例の候補文字抽出装置の動作
を説明する。
【0040】図1において、スキャナ等から文字パタン
を処理装置(プロセッサ等)に入力し、その入力された
文字パタンに対して特徴抽出を行った結果(特徴ベクト
ル)を特徴ベクトル記憶装置1に格納する。次に、標準
文字パタンの特徴ベグトル(標準ベクトル)と重みベク
トルを辞書記憶装置2に格納する。
【0041】次に、特徴ベクトル記憶装置1に格納され
ている入力文字パタンの特徴ベクトルを読み出し、この
入力文字パタンの特徴ベクトルと、辞書記憶装置2に格
納されている標準文字パタンの特徴ベクトル(標準ベク
トル)との間の距離計算を距離計算手段3で行う。この
距離計算は、最大距離値格納手段4に格納されている候
補文字中の最大距離値を参照しながら行う。
【0042】前記候補文字として抽出されている中の最
大の距離値を格納している最大距離値格納手段4を参照
する際に、n次元の距離計算を終了する以前に前述の式
(3)の条件を満足した場合には、その標準文字パタン
に対する距離計算を途中終了し、次の標準文字パタンの
距離計算を開始する。
【0043】前記距離計算手段は、標準ベクトルの読み
出し、重みベクトルの読み出し、特徴ベクトルの読み出
し、距離計算のための演算をパイプライン処理する。
【0044】また、候補文字格納手段6に格納されてい
る標準文字パタンの距離値を、並び替え手段5で距離値
の小さい順に並び替えを行い前記最大距離値格納手段4
へ送る。
【0045】図2は、図1における候補文字抽出装置の
候補文字抽出処理の距離計算と並び替え処理の並行動作
の一実施例を説明するための図である。
【0046】図2において、21は前処理、22は特徴
抽出処理、23は候補文字抽出処理、231は距離計算
処理、232は並び替え処理、24は後処理である。
【0047】本実施例の候補文字抽出装置の候補文字抽
出処理の距離計算と並び替え処理の並行動作は、図2に
示すように、辞書中の文字に対して逐次距離計算処理2
31を行っていく。この距離計算処理231の際、候補
文字中の最大距離値を参照して、距離計算途中でその最
大距離値を越えた場合には、その文字は候補文字になる
ことはないため距離計算処理231を終了させる。
【0048】距離計算が途中で終了せず最後まで距離計
算が実行された場合、その時点ではその文字は必ず候補
文字となる。そのため、並び替え手段5にその文字の距
離値を渡し、並び替え処理232を行う。距離計算手段
3は並び替え手段5に距離値を渡した後、辞書中の次の
文字の距離計算処理231を開始する。
【0049】このような距離計算処理231と並び替え
処理232を並行して実行させるため、効率的に候補文
字を抽出することができる。
【0050】図3は、図1における候補文字抽出装置の
距離計算のパイプライン処理の一実施例を説明するため
の図である。図3において、網かけした部分は、前述し
た式(1)のi番目の距離計算を行う場合のパイプライ
ン処理の流れである。この実施例は、4ステージ(stag
e)のパイプラインで処理する。
【0051】〔ステージ1の処理〕 特徴ベクトル格納手段1から入力文字パタンの特徴
ベクトルをアクセスするためのアドレス計算、 辞書格納手段2から標準ベクトルをアクセスするた
めのアドレス計算、 重みベクトルwiと二乗結果(a−b)2との乗算
{wi×(a−b)2}。
【0052】〔ステージ2の処理〕 特徴ベクトル格納手段1から入力文字パタンの特徴
ベクトルの読み出し、 辞書格納手段2から標準ベクトルの読み出し、 {wi×(a−b)2}の累積加算、 候補文字中最
大距離値と実行中の距離計算結果との比較(式3)。
【0053】〔ステージ3の処理〕 辞書格納手段2から重みベクトルをアクセスするた
めのアドレス計算、 特徴ベクトルaiと標準ベクトルbiとの減算(a−
b)。
【0054】〔ステージ4の処理〕 辞書格納手段2から重みベクトルの読み出し、 減算結果(a−b)の二乗(a−b)2
【0055】このように、特徴ベクトル記憶装置と辞書
(標準ベクトル及び重みベクトル)記憶装置を個別に設
け、それぞれ独立してアクセスできるようにしたことに
より、特徴ベクトル記憶装置の読み出し処理、辞書(標
準ベクトル及び重みベクトル)記憶装置の読み出し処
理、距離計算に係わる演算処理、距離値比較処理を4つ
の独立した処理として扱いパイプライン処理する。
【0056】このようなパイプライン処理によって、本
実施例の候補文字抽出装置の距離演算速度を高速化する
ことができる。
【0057】以上の説明からわかるように、本実施例の
候補文字抽出装置によれば、n次元の距離計算を終了す
る以前に、式3の条件を満足した場合には、その標準文
字パタンに対する距離計算を途中終了し、次の標準文字
パタンの距離計算を開始するので、不必要な距離計算の
演算を省略(削除)することができる。
【0058】また、距離計算手段3と並び替え手段5を
別々に設け、両者を独立に動作可能ましたので、距離計
算処理と並び替え処理を並行して行うことができる。
【0059】また、パイプライン処理によって、距離演
算速度を高速化することができる。
【0060】これらにより、効率的かつ高速に候補文字
を抽出することができる。
【0061】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、前記実施例に限定されるものでは
なく、その要旨を逸脱しない範囲において種々変更可能
であることは言うまでもない。
【0062】
【発明の効果】本発明によれば、距離計算と並び替え処
理の逐次的動作をなくすことができ、また、不必要な距
離計算を省略(削除)することができる。パイプライン
処理を採用することにより、距離計算を高速に処理する
ことが可能となる。
【0063】これらにより、効率的かつ高速に候補文字
の抽出を行うことができる。
【図面の簡単な説明】
【図1】 本発明の候補文字抽出装置の一実施例の機能
構成を示すブロック構成図、
【図2】 図1における候補文字抽出装置の候補文字抽
出処理の距離計算と並び替え処理の並行動作の一実施例
を説明するための図、
【図3】 図1における候補文字抽出装置の距離計算の
パイプライン処理の一実施例を説明するための図、
【図4】 従来の処理装置(プロセッサなど)による文
字認識の処理の流れを説明するための図、
【図5】 従来の処理装置(プロセッサなど)で実行す
る際の処理手順を示す説明図。
【符号の説明】
1…特徴ベクトル記憶装置、2…辞書記憶装置、3…距
離計算手段、4…候補文字中最大距離値格納手段、5…
並び替え手段、6…候補文字格納手段、7…制御手段、
8…候補文字抽出装置。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文字認識装置における認識結果の候補文
    字を抽出する候補文字抽出装置であって、標準ベクトル
    と特徴ベクトルとの距離計算を行う距離計算手段と、前
    記距離計算を途中で終了させる距離計算途中終了手段
    と、前記距離計算手段により求められた距離値に基づき
    候補文字の並び替えを行う候補文字並び替え手段と、前
    記距離計算手段と前記候補文字並び替え手段を並行して
    動作させる手段とを具備することを特徴とする候補文字
    抽出装置。
  2. 【請求項2】 請求項1に記載の候補文字抽出装置にお
    いて、前記距離計算途中終了手段は、候補文字として抽
    出されている文字中の最大距離値を参照する候補文字中
    最大距離値参照手段と、距離計算途中で前記最大距離値
    を越えた時点で距離計算を終了させる手段とを具備する
    ことを特徴とする候補文字抽出装置。
  3. 【請求項3】 請求項1又は2に記載の候補文字抽出装
    置において、前記距離計算手段は、標準ベクトル及び重
    みベクトルからなる辞書を記憶する手段と、入力された
    文字の特徴ベクトルを記憶する手段と、前記各手段を個
    別に読み出す手段とを備えていることを特徴とする候補
    文字抽出装置。
  4. 【請求項4】 請求項1乃至3のうちいずれか1項に記
    載の候補文字抽出装置において、前記距離計算手段は、
    標準ベクトルの読み出し、重みベクトルの読み出し、特
    徴ベクトルの読み出し、距離計算のための演算をパイプ
    ライン処理する制御手段を具備することを特徴とする候
    補文字抽出回路。
  5. 【請求項5】 請求項1乃至4のうちいずれか1項に記
    載の候補文字抽出装置において、前記距離計算手段は、
    距離計算を最後まで行った場合及び前記距離計算途中終
    了手段により距離計算を終了した場合に、辞書中の次の
    文字の距離計算を開始することを特徴とする候補文字抽
    出装置。
  6. 【請求項6】 請求項1乃至5のうちいずれか1項に記
    載の候補文字抽出装置において、前記候補文字並び替え
    手段は、その結果を格納するための候補文字格納手段を
    備え、距離計算を最後まで終了した辞書の文字に対して
    距離値の小さい順に並び替えを距離計算と並行して行
    い、前記候補文字格納手段に書き込むことを特徴とする
    候補文字抽出装置。
JP5045178A 1993-03-05 1993-03-05 候補文字抽出装置 Pending JPH06259602A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5045178A JPH06259602A (ja) 1993-03-05 1993-03-05 候補文字抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5045178A JPH06259602A (ja) 1993-03-05 1993-03-05 候補文字抽出装置

Publications (1)

Publication Number Publication Date
JPH06259602A true JPH06259602A (ja) 1994-09-16

Family

ID=12712021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5045178A Pending JPH06259602A (ja) 1993-03-05 1993-03-05 候補文字抽出装置

Country Status (1)

Country Link
JP (1) JPH06259602A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11639553B2 (en) 2019-04-16 2023-05-02 Ecolab Usa Inc. Compositions comprising multiple charged cationic compounds derived from polyamines for corrosion inhibition in a water system
US11926543B2 (en) 2018-08-29 2024-03-12 Ecolab Usa Inc. Use of multiple charged ionic compounds derived from polyamines for waste water clarification

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11926543B2 (en) 2018-08-29 2024-03-12 Ecolab Usa Inc. Use of multiple charged ionic compounds derived from polyamines for waste water clarification
US11639553B2 (en) 2019-04-16 2023-05-02 Ecolab Usa Inc. Compositions comprising multiple charged cationic compounds derived from polyamines for corrosion inhibition in a water system

Similar Documents

Publication Publication Date Title
JP5096776B2 (ja) 画像処理装置及び画像検索方法
JP3105967B2 (ja) 文字認識方法及び装置
JP2847715B2 (ja) 文字認識装置及び文字認識方法
JPH06259602A (ja) 候補文字抽出装置
US6338060B1 (en) Data processing apparatus and method for outputting data on the basis of similarity
JP3760040B2 (ja) 文字認識方法、文字認識装置及び情報記録媒体
JPH09179935A (ja) 文字認識装置およびその制御方法
JP2844789B2 (ja) 文字認識方法及び文字認識装置
JPS6059487A (ja) 手書文字認識装置
JP3121401B2 (ja) 認識辞書及び文字認識装置
JPH07107699B2 (ja) 文字図形認識装置
JPS62281082A (ja) 文字認識装置
JPS62257583A (ja) 文字認識方式
JP3754118B2 (ja) パターン認識装置及びパターン認識方法
CN117669561A (zh) 一种无监督关键词提取方法、系统、设备及介质
JP2001126030A (ja) パターン認識方法及びパターン認識装置
JPS6339092A (ja) 辞書検索方式
JPH05135205A (ja) 文字認識装置
JPS60142789A (ja) パタ−ン認識方式
JPH034953B2 (ja)
JPH07271977A (ja) 指紋照合処理装置
JPH0594563A (ja) 文字認識装置
Eggers Fast Euclidean distance transformation in Z^ n based on ordered propagation via sufficient paths
JPH043274A (ja) ベクトル本数低減処理方式
JPH0457182A (ja) 認識方法