JPH08272902A - 異字体異品質文字の認識方法 - Google Patents

異字体異品質文字の認識方法

Info

Publication number
JPH08272902A
JPH08272902A JP7077536A JP7753695A JPH08272902A JP H08272902 A JPH08272902 A JP H08272902A JP 7077536 A JP7077536 A JP 7077536A JP 7753695 A JP7753695 A JP 7753695A JP H08272902 A JPH08272902 A JP H08272902A
Authority
JP
Japan
Prior art keywords
character
image data
quality
area
grayscale image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7077536A
Other languages
English (en)
Inventor
Masatoshi Okada
正年 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP7077536A priority Critical patent/JPH08272902A/ja
Publication of JPH08272902A publication Critical patent/JPH08272902A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【目的】領域によって異なる字体・品質の文字で印刷記
述されている文書を高精度で読み取り認識する文字認識
方法を提供する。 【構成】文字認識処理の過程に、イメージスキャナが入
力する濃淡画像データを格納する濃淡画像メモリ領域に
加え、濃淡画像データを2値化処理した結果を格納する
2値化画像メモリ領域を文字読取装置の記憶手段内に確
保し、予め設定した「しきい値」を基準に、濃淡画像デ
ータを2値化して2値化画像メモリに書き込む2値化処
理手段と、2値化画像データを解析して同一字体あるい
は文字品質で記載された見出し,本文,注釈等の一群を
なす文章領域を抽出する手段と、抽出した各文章領域に
ついて該領域画像データの特徴パラメータを演算によっ
て求め、これをもとに、該文章領域の文字性格および品
質を判定し、品質判定結果によって濃淡画像データを2
値化する処理に適用する「しきい値」を選定し、新規に
選定した「しきい値」を基準に濃淡画像メモリの濃淡画
像データを2値化処理して2値化画像メモリを書き換え
る処理を設ける。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】文字読取装置における文字認識方
法、特に異なる字体・品質の文字が混在する文書の文字
の認識方法に関する。
【0002】
【従来の技術】文字読取装置(OCR)1は、図3に例
示のようにイメージスキャナ21と文字認識プロセッサ22
からなる文字読取認識部2およびホストコンピュータ3
によって構成されており、文字認識プロセッサ22は、イ
メージスキャナ21が読み取り対象の文書を光学走査して
得た文書画像データを入力とし、概略を図4に示したフ
ローの処理に従い、先ず文書画像データを観測して1文
字として処理すべき文字パターンデータ領域を切出し、
切り出した文字パターンデータを解析して該文字パター
ンデータが内蔵している特徴パラメータを抽出し、この
特徴パラメータを読み取り対象範囲の各文字に対応して
予め用意した各文字に属する特徴パラメータの辞書と照
合して特徴パラメータが整合する文字を抽出することに
よって切り出した文字を認識し、該文字に割当た文字区
分コードを文字情報として出力する作用を基本機能とす
るものである。このとき、ホストコンピュータ3は、読
み取り対象文書の読み取り条件の指示設定、読み取り結
果の表示等のマンマシンインターフェースとして機能す
るとともに、読み取りによって得られた文書情報をもと
とする文書の編集校正あるいはデータベースの構築等の
作業をも遂行する。
【0003】文字認識プロセッサ22では、イメージスキ
ャナ21から入力されて一文字として切り出した図5の
(a)に例示のような文字パターンデータ領域を、同図
(b)のように適当な細かさの縦L横Iの枡目に区分
し、それぞれの枡目の濃度値を枡目の座標の関数f(X
p,Yp)(1≦p≦I,1≦q≦L)として読み取
り、1つの文字パターンデータ領域に対応して得られる
濃度パターン値の集まりを切り出した文字の近似データ
としている。
【0004】ところで、イメージスキャナ21が走査して
文字認識プロセッサ22に入力する文字画像データは、枡
目区分と文字パターンの分布の相異、読取対象文書にお
ける印刷むらや紙面のよごれ、読取対象文字自体の「つ
ぶれ」「かすれ」などに影響されて通常図6に例示のよ
うに文字の境界に「ぼけ」領域が付随する濃淡画像デー
タとなっているので、文字の切出し処理には、文字認識
の処理に耐えるあいまいさの少ない明瞭な文字データを
得べく、入力された濃淡画像データをあらかじめ設定し
た「しきい値」で選別して図7に例示のような2値化し
たデータを得る2値化処理が含まれている。そして、こ
の2値化処理における「しきい値」は原稿の印字品質や
紙質によって最適な値が異なるため、従来技術の方法で
は、入力画像を確認しながら設定値を選定するようにし
ている。
【0005】
【発明が解決しようとする課題】文字認識の精度は、入
力される文字画像に品質に左右される。文字画像が「つ
ぶれ」「かすれ」「汚れ」などのない品質の良い文字画
像であるときに文字認識の精度が向上し、品質の良い文
字画像を得るには、文書画像の2値化処理に適用する
「しきい値」を最適に選定しておかなければならない。
【0006】この最適「しきい値」は原稿文書の印字品
質や紙質によって値が異なるため、従来方法では文書画
像を観察しながら場合によっては数回「しきい値」を変
えて画像を取り直さねばならないことがある。また、見
出し部分はゴシック体、本文部分は明朝体というよう
に、同一文書中に異なる字体が混在している場合が一般
的であるが、ゴシック体の文字は字画の縦横成分が同等
であるのに対し、明朝体の文字は字画の横成分が細く字
体そのものの性質が異なるため同一の「しきい値」で文
書全体を2値化してしまうと、図8の(a)に例示のよ
うにゴシック体の文字に適した「しきい値」で2値化す
ると明朝体の文字には「かすれ」を生じ、明朝体の文字
に適した「しきい値」で2値化すると図8の(b)のよ
うにゴシック体の文字が「つぶれ」てしまうという問題
もある。
【0007】この発明は従来技術にもとづく文字認識前
処理における上記の問題点を解決し、読取対象の文字が
文書内の領域によって異なる字体・品質のもとに記載さ
れているような文書であっても、異なる字体・品質の文
字による記載領域範囲を検出し、それぞれの領域に適し
た最適「しきい値」を選定してイメージスキャナ21から
入力された文字画像データを2値化することによって品
質のそろった文字データが文字認識処理工程に入力され
るようにする文字認識前処理方法を提供し、文字読取装
置における文字認識精度を向上させることを課題とす
る。
【0008】
【課題を解決するための手段】上記の課題解決のため、
本発明においては、文字の認識方法を、イメージスキャ
ナが読取対象文書を光学的に走査して得た濃淡画像デー
タを格納する濃淡画像メモリ領域と、濃淡画像データを
2値化処理した結果の画像データを格納する2値化画像
メモリ領域とを文字読取装置の文字認識プロセッサに設
けた記憶手段内に確保し、予め設定した「しきい値」を
基準に、イメージスキャナが前記濃淡画像メモリ領域に
書き込んだ濃淡画像データを2値化して2値化画像メモ
リ領域に書き込む2値化処理手段と、2値化画像メモリ
領域に書き込まれた2値化画像データを解析して見出
し,本文,注釈などの同一字体あるいは文字品質で記載
された一群をなす文章領域を抽出する手段と、抽出した
各文章領域について該領域画像データの特徴パラメータ
を演算によって求める特徴抽出手段と、文章領域につい
て抽出した特徴パラメータをもとに、該文章領域の文字
性格および品質を判定する文字性格品質判定手段と、文
字性格品質判定手段の判定結果によって濃淡画像データ
を2値化する処理に適用する「しきい値」を選定する
「しきい値」変更設定手段とを設け、イメージスキャナ
の走査によって濃淡画像データを得たとき、走査にあた
って設定した読み取り条件によって定まる「しきい値」
を用いて2値化処理から「しきい値」変更設定までの処
理を実行して新規の「しきい値」を選定し、新規に選定
した「しきい値」を基準に濃淡画像メモリ領域の濃淡画
像データを2値化処理して2値化画像メモリ領域を書き
換えたのち、書き換えられた2値化画像データをもとに
文字切り出し以降の文字認識処理を実行して認識結果を
出力する処理を、抽出した文章領域毎に繰り返すように
構成する。
【0009】そうして、文章領域を抽出する手段の後段
に、特徴パラメータ抽出手段と並列に抽出した文章領域
から予め定めた数の文字を切り出して文字認識を行って
切出した文字の字体を判定する文章領域字体判定手段を
設け、文字性格品質判定手段が文章領域字体判定手段と
特徴パラメータ抽出手段の両方の判定結果をもとに抽出
した文章領域の文字性格および品質を判定するようにす
る。
【0010】
【作用】イメージスキャナが読取対象文書を光学走査し
て濃淡画像メモリに格納した濃淡画像データは、走査に
あたって読取条件設定画面で指定した条件によって定ま
る「しきい値」のもとでの第1次の2値化処理が行わ
れ、その結果は一旦2値化画像メモリに格納され、つづ
いて、第1次の2値化画像データをもとに、見出し,本
文,注釈などの同一字体や文字寸法で印刷された一群を
なす文章領域を抽出する処理が行われる。そして、一群
をなす文書領域が抽出されると、その抽出文章領域につ
いて、領域内の文書文字パターンの特性品質を判定する
ための特徴量を求め、この特徴量をもとに該文章領域の
文字パターンの性格と品質とが判定される。
【0011】以上によって抽出した文章領域の文字性格
品質の判定結果が得られたら、この結果にもとづいて2
値化処理における「しきい値」を文章領域について選定
し、この新規に選定した「しきい値」をもとに濃淡画像
メモリに格納の濃淡画像データの第2次の2値化処理を
行って結果を2値化画像メモリに格納の1次2値化画像
データと置き替える処理が実行され、2値化画像メモリ
には、文字の性格品質によって分離分割された文章領域
毎に最適な「しきい値」を設定して2値化処理した結果
の2値化画像データが格納される。
【0012】
【実施例】本発明にもとづく文字認識方法の一実施例に
おける読取文字2値化処理を中心とする処理のフローを
図1に示し、図1によって本発明の方法を説明する。な
お、本発明の方法を実行する文字読取装置の構成は、従
来技術の説明に用いた図3に例示の構成の文字読取装置
と同等であり、以下説明に必要な場合図3中に付された
符号を引用する。
【0013】本発明の文字認識方法は超動されたとき、
文字認識プロセッサ22の記憶手段の中にイメージスキャ
ナ21の光学走査によって得た濃淡画像データをそのまま
格納しておく濃淡画像メモリ領域と共に、濃淡画像デー
タをもとに以下に説明の処理を実行して得られる2値化
した画像データを一時格納しておく2値化画像メモリ領
域とを設定確保する。
【0014】イメージスキャナ21が読取対象文書を光学
走査して得た濃淡画素データは従来技術におけると同様
に濃淡画像メモリに格納され、この濃淡画像データに対
し読取条件設定画面で指定した条件によって定まる「し
きい値」のもとでの第1次の2値化処理(S1)を行
い、その結果を一旦2値化画像メモリに格納する。つづ
いて、上記の第1次の2値化画像データをもとに同一字
体や文字寸法で印刷された一群をなす見出し,本文,注
釈などの文章領域を抽出する処理(S2)を実行する。
この文章領域抽出処理には、白または黒画素の連続する
長さであるランレングスが「しきい値」以下となる白画
素列を黒画素に反転させて、大きな段落スペースが存在
する個所以外を塗りつぶしてブロックを形成分離する方
法、あるいは画像データの垂直水平方向の画素の白黒反
転回数の頻度分布を用いてブロックの形成分離を行う方
法等を用いることができる。
【0015】以上のようにして第1次の2値化画像デー
タもとに区別すべき文書領域を抽出したら、抽出した文
章領域に関し、領域内の文字パターンの特性、品質を判
定するための特徴量を抽出する処理(S4)を行う。抽
出する特徴量としては下記のような要素を求めて適用す
ることができる。 黒画素の密度P 黒画素連結成分の面積Sとその分布 黒画素連結成分の周囲長Lとその分布 画素データを垂直および水平方向に見たとき、白画素領
域から黒画素領域に反転する変化点の数である 垂直方向画素立上り数Jv 水平方向画素立上り数Jh 上記のようにして分離した文章領域に対応の特徴量を求
めたら、求めた特徴量をもとに文章領域の文字パターン
の性格と品質を判定する処理(S5)を実行する。この
文字パターン性格品質の判定処理(S5)には上記の特
徴量を用いる下記のような判定基準を用いることができ
る。
【0016】基準1;黒画素密度Pが予め設定した「判
定値」αを超えるとき(P≧α)原稿は濃いとする。 基準2;画素連結成分の面積Sが予め設定した「判定
値」βを超えない(S≦β)黒画素連結成分の全黒画素
連結成分の面積に対する割合が予め設定した「判定値」
γ以上であり、かつ、黒画素連結成分の周囲長Lと面積
Sとによって定まる複雑度E=L2/Sが、予め設定した
「判定値」δを超えない(E≦δ)割合が予め設定した
「判定値」ε以下であるときノイズが多く文字はつぶれ
ぎみと判断できるので原稿は濃いとする。
【0017】基準3;S≦βである黒画素連結成分の割
合が「判定値」γ以上であり、かつ、複雑度Eの値が予
め設定した「判定値」ζ以上(E≧ζ)となる割合が予
め設定した「判定値」η以上であるときには文字はかす
れて切れ切れになっていると判断できるので原稿は薄い
とする。 基準4;垂直と水平方向の画素立上りの数の比Jv/J
hの値が予め設定した「判定値」θ以下(Jv/Jh≦
θ)なら、従方向画素要素が横方向画素要素にくらべて
優勢な明朝体相当の文字であり、かつ「かすれ」を生じ
ており原稿は薄いと判定する。
【0018】基準5;上記いずれの基準にも該当してい
ないときには該文章領域の原稿は良好と判定する。 上記に挙げた文章領域毎の文字パターンの性格と品質の
判定処理に適用する判定基準において予め設定しておく
べきそれぞれの「判定値」は、異なる字体や品質の文字
サンプルを多数収集して文字読み取り認識処理を行い、
その認識結果を勘案して適宜適切な値を選定して準備す
るが、この準備作業に人口知能分野で利用されているニ
ューラルネットの技法を応用して学習によって適切な値
が選定されるようにしておくとよい。また、ニューラル
ネットの学習によって直接「濃い」,「薄い」,「普
通」の判定が行われるようにしてもよい。
【0019】以上によって抽出した文章領域の文字性格
品質の判定結果が得られたら、この結果にもとづいて2
値化処理における「しきい値」をこの文章領域について
選定し、濃淡画像メモリに格納の該文章領域に対応の濃
淡画像データの第2次2値化処理を行って結果を2値化
画像メモリの対応の文章領域に格納の1次2値化データ
と置き替える。すなわち、原稿が濃いと判定されたとき
は第1次の2値化における「しきい値」から一定値を減
じた値を、また、原稿が薄いと判定されている場合には
第1次の「しきい値」に一定値を加えた値を新たな「し
きい値」に設定して濃淡画像データの2値化処理を行
う。この第1次の2値化処理において、第1次の2値化
処理に適用した「しきい値」に加える又は減じる値は、
各文章ブロックについて求めた特徴値と該特徴値に対応
して予め定めた「判定値」との差の関数として定まるよ
うにしておくとよい。
【0020】抽出した1文章領域に対する上記の特徴抽
出(S4)から2次2値化(S7)までの処理が終了し
たら、引き続いて抽出された文章領域について同じ処理
を繰り返して(S3)イメージスキャナ21が濃淡画像メ
モリに格納したすべての濃淡画像データに対して2次2
値化の処理を実行する。以上のようにして区分抽出した
全ての文章領域についての2次2値化の処理を終了した
とき、2値化画像メモリには、文字の性格品質によって
分離分割された文章ブロック毎に最適な「しきい値」を
設定して2値化処理した結果が格納されることとなり、
こうして得られた2値化画像データを用いて、従来技術
におけると同等の文字切出し処理(S8)以降の文字認
識処理が実行されて認識結果が出力される(S9)。
【0021】上記第1実施例では、イメジスキャナ21か
ら入力された濃淡画像データを第1次2値化して一群を
なす文章領域を抽出したのち、特徴パラメータを求め、
この特徴パラメータを用いて文字パターンデータの性格
・品質の判定を行っているが、特定の文章領域を抽出し
たとき、該文章領域の文字の字体を認識判定する処理を
文字の品質判定処理に先だって該領域の文字が明朝体の
ように横方向字画がかすれやすい文字であるのか、太ゴ
シック体のようにつぶれやすい文字であるのかを予め把
握しておき、特徴パラメータと字体認識判定結果の両方
の情報を用いて文字データの性格・品質を判定するよう
にすると、より高品質の2値化データを得ることができ
る。図3に分割抽出した文章領域の文字品質の判定処理
の前に字体認識判定処理を加えた本発明の文字認識方法
の他の実施例における処理フローの一例を示す。
【0022】この実施例では文章領域を分離抽出したと
き、該領域の特徴量を抽出する処理に並行する形で該領
域の数文字を切出して(S11)その字体を認識判定し
(S12)、この字体判定結果(S13)と特徴パラメータ
の両方用いて抽出文章領域の文字性格・品質の判定(S
6)を行うようにしている。
【0023】
【発明の効果】本発明による文字認識方法では、イメー
ジスキャナによって得られた読み取り対象文書の濃淡画
像データを、文書の文字の性格と品質をキーに見出し,
本文,注釈などの同一字体や文字寸法で印刷された一群
をなす文章領域に区分し、各文章領域の文字の性格品質
に対応する「しきい値」を設定して濃淡画像データの2
値化処理を行っているので、異なる字体と異なる品質の
文字が混在して記載されている文書であっても、それぞ
れの文字によって記載印刷された文章領域毎に文字の認
識処理により適した2値化画像データが得られ、その結
果読取り文字と誤認識率は低減されるという効果が得ら
れる。
【0024】そうして、画像データ品質判定処理に先立
って字体の認識判定を実行する処理方法によれば、字体
の特性を踏まえて文字品質の判定が実行されるので、得
られた2値化画像データは真の文字をより忠実に表すこ
ととなり読取り文字の誤認識率がより低減するという効
果が得られる。
【図面の簡単な説明】
【図1】本発明にもとづく文字認識方法の1実施例の処
理フロー図
【図2】本発明にもとづく他の実施例のフロー図
【図3】文字読取装置の構成図
【図4】文字認識処理の基本フロー図
【図5】文字切り出しの説明図
【図6】文字画像データ説明図
【図7】2値化後の文字画像データ説明図
【図8】2値化処理における「しきい値」の影響説明図
【符号の説明】
1 文字読取装置 2 文字認識装置 21 イメージスキャナ 22 文字認識プロセッサ 3 ホストコンピュータ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】イメージスキャナが読取対象文書を光学的
    に走査して得た濃淡画像データを格納する濃淡画像メモ
    リ領域と、濃淡画像データを2値化処理した結果の画像
    データを格納する2値化画像メモリ領域とを文字読取装
    置の文字認識プロセッサに設けた記憶手段内に確保し、 イメージスキャナが前記濃淡画像メモリ領域に書き込ん
    だ濃淡画像データを予め設定した「しきい値」を基準に
    2値化して2値化画像メモリ領域に書き込む2値化処理
    手段と、 2値化画像メモリ領域に書き込まれた2値化画像データ
    を解析して同一字体あるいは文字品質で記載された一群
    をなす文章領域を抽出する手段と、 抽出した各文章領域について該領域画像データの特徴パ
    ラメータを演算によって求める特徴抽出手段と、 文章領域について抽出した特徴パラメータをもとに、該
    文章領域の文字性格および品質を判定する文字性格品質
    判定手段と、 文字性格品質判定手段の判定結果によって濃淡画像デー
    タを2値化する処理に適用する「しきい値」を選定する
    「しきい値」変更設定手段とを備え、 イメージスキャナの走査によって濃淡画像データを得た
    とき、走査ににあたって設定した読み取り条件によって
    定まる「しきい値」を用いて前記2値化処理手段から
    「しきい値」変更設定手段までの処理を実行して新規の
    「しきい値」を選定し、 新規に選定した「しきい値」を基準に濃淡画像メモリ領
    域の濃淡画像データを2値化処理して2値化画像メモリ
    領域を書き換えたのち、 書き換えられた2値化画像メモリのデータをもとに文字
    切り出し以降の文字認識処理を実行して認識結果を出力
    する処理を、抽出した文章領域毎に繰り返すようにした
    ことを特徴とする文字の認識方法。
  2. 【請求項2】文章領域を抽出する手段の後段に、特徴パ
    ラメータ抽出手段と並列に抽出した文章領域から予め定
    めた数の文字を切り出して文字認識を行って切出し文字
    の字体を判定する文章領域字体判定手段を設け、 文字性格品質判定手段が文章領域字体判定手段と特徴パ
    ラメータ抽出手段の両方の判定結果をもとに抽出した文
    章領域の文字性格および品質を判定するようにしたこと
    を特徴とする請求項1に記載の文字の認識方法。
JP7077536A 1995-04-03 1995-04-03 異字体異品質文字の認識方法 Pending JPH08272902A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7077536A JPH08272902A (ja) 1995-04-03 1995-04-03 異字体異品質文字の認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7077536A JPH08272902A (ja) 1995-04-03 1995-04-03 異字体異品質文字の認識方法

Publications (1)

Publication Number Publication Date
JPH08272902A true JPH08272902A (ja) 1996-10-18

Family

ID=13636718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7077536A Pending JPH08272902A (ja) 1995-04-03 1995-04-03 異字体異品質文字の認識方法

Country Status (1)

Country Link
JP (1) JPH08272902A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171551A (ja) * 2002-11-06 2004-06-17 Chuo Spring Co Ltd 指紋照合装置及び指紋画像評価方法
JP2019057174A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN117217876A (zh) * 2023-11-08 2023-12-12 深圳市明心数智科技有限公司 基于ocr技术的订单预处理方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171551A (ja) * 2002-11-06 2004-06-17 Chuo Spring Co Ltd 指紋照合装置及び指紋画像評価方法
JP2019057174A (ja) * 2017-09-21 2019-04-11 キヤノン株式会社 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN116719483A (zh) * 2023-08-09 2023-09-08 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN116719483B (zh) * 2023-08-09 2023-10-27 成都泛联智存科技有限公司 数据去重方法、装置、存储设备和计算机可读存储介质
CN117217876A (zh) * 2023-11-08 2023-12-12 深圳市明心数智科技有限公司 基于ocr技术的订单预处理方法、装置、设备及介质
CN117217876B (zh) * 2023-11-08 2024-03-26 深圳市明心数智科技有限公司 基于ocr技术的订单预处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
US20030063802A1 (en) Image processing method, apparatus and system
JPH09503329A (ja) 文書中の前景情報を背景情報から分離する方法
JPH05314315A (ja) 光学文字認識用画像データ処理方法
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
US20010055423A1 (en) Image processing device and program product
US20030012438A1 (en) Multiple size reductions for image segmentation
CN112861865A (zh) 一种基于ocr技术的辅助审计方法
US5561720A (en) Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch
EP0680005A2 (en) Speed and recognition enhancement for OCR using normalized height/width position
EP0949580B1 (en) Classification-driven thresholding of a normalized grayscale image
US5768414A (en) Separation of touching characters in optical character recognition
US7149352B2 (en) Image processing device, program product and system
IL98293A (en) A method for distinguishing between text and graphics
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JPH08272902A (ja) 異字体異品質文字の認識方法
JP2700131B2 (ja) パターン認識方法
CN113421256A (zh) 一种点阵文本行字符投影分割方法及装置
JP2812256B2 (ja) 文字認識装置および方法
JPH10154204A (ja) パターン認識装置及びパターン認識方法
Rodrigues et al. Character feature extraction using polygonal projection sweep (contour detection)
EP0800147A2 (en) Degraded character image restoration