JPH0731713B2 - キ−ワ−ド検出方式 - Google Patents

キ−ワ−ド検出方式

Info

Publication number
JPH0731713B2
JPH0731713B2 JP58164854A JP16485483A JPH0731713B2 JP H0731713 B2 JPH0731713 B2 JP H0731713B2 JP 58164854 A JP58164854 A JP 58164854A JP 16485483 A JP16485483 A JP 16485483A JP H0731713 B2 JPH0731713 B2 JP H0731713B2
Authority
JP
Japan
Prior art keywords
keyword
character
similarity
window
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58164854A
Other languages
English (en)
Other versions
JPS6057476A (ja
Inventor
賢一 前田
徹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58164854A priority Critical patent/JPH0731713B2/ja
Publication of JPS6057476A publication Critical patent/JPS6057476A/ja
Publication of JPH0731713B2 publication Critical patent/JPH0731713B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は例えば枠無しの紙面に記載された文字列中の特
定のキーワードの位置を効果的に検出することのできる
キーワード検出方式に関する。
〔発明の技術的背景とその問題点〕
文字認識処理は、一般に比較的広い観測領域(紙面)の
中から文字列を検出し、この文字列を構成する各文字を
それぞれ切出して、つまり検切りしたのち、その検切さ
れた文字の特徴パターンを抽出する等して行われる。具
体的には例えば書状郵便物に記載された宛名を示す文字
列を検出し、その宛名を構成する各文字をそれぞれ検切
して文字認識が行われる。
このような文字の検切処理は、文字認識に対する前処理
として非常に重要な役割を担っており、そこで従来では
文字認識処理とは独立に、例えば文字列に対するピッチ
情報、白領域(背景部)の存在範囲、或いは人工的検知
マーク等を手掛りとして検切処理が行われている。
ところがこのようにして検切処理を行う場合、文字列が
或る程度フォーマット指定されていることが必要であ
り、この為従来では専ら文字記入枠を設ける等してい
る。然し乍ら、文字記入枠によって文字位置を規定する
ことは自由度に欠け、また汎用性に欠ける。従って枠無
しの所謂白紙に記載された文字列の各文字を効果的に検
切し、それを認識することが強く望まれている。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、例えば枠無の紙面に記載された
文字列に対する検切を効果的に可能ならしめるキーワー
ド検出方式を提供することにある。
〔発明の概要〕
本発明は枠無しの紙面に記載された文字列中の特定のキ
ーワードの位置、例えば宛名の中の「県」「市」「町」
等のキーワードの位置を正確に検出し、これを手掛りと
して前記文字列の各文字の検切を可能ならしめるもの
で、特に上記キーワードの検出を文字領域に対するウィ
ンドウ位置を移動させ乍ら、上記ウィンドウによって文
字領域から切出したパターンとキーワードの辞書パター
ンとの類似度を計算してそのキーワードに対する類似度
のヒストグラムを求め、このヒストグラムのピーク位置
から前記文字領域におけるキーワード位置を検出するよ
うにしたものである。
〔発明の効果〕
かくして本発明によれば、少しずつずらされるウィンド
ウによって切出されたパターンとキーワードの標準パタ
ーンとの類似度のヒストグラムのピークを示す位置とし
て、枠無の用紙に記載された文字列中のキーワードの位
置を精度良く、しかも簡易に検出することが可能とな
る。従って、このキーワード位置を手掛りとして各文字
の検切を容易ならしめることができ、その結果文字認識
処理の効率向上を図ることが可能となる。また、文字記
入枠に制限されることなく、所謂白紙に自由に記載され
た文字列におけるキーワードを効果的に検出できるの
で、例えは書状郵便物の宛名読取り等に有効に応用する
ことができる等の実用上絶大なる効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の実施例につき説明する。
第1図は実施例方式を適用して構成される文字認識装置
のキーワード検出部を示す概略構成図である。この装置
は、例えば書状郵便物に記載された宛名の中から「町」
なるキーワードの位置を検出するものである。
入力部1は、書状郵便物に記載された情報を光電変換
し、文書画像として入力するものであり、行検切部2は
例えば上記文書画像の文字が書かれている方向の濃度の
射影をとり、その黒領域存在部分を検出する等して文字
列を示す行位置を検出している。このようにして検出さ
れた行の画像情報(文字列情報)が行単位で行メモリ3
に格納される。尚、上記行は文字列を示すものではな
く、文字列を構成する画像の画素を示している。
しかしてサンプル部4は、例えば第2図に示すように複
数のD/A変換器4aおよび複数の演算増幅器4bによって構
成され、前記画素行の各データをD/A変換したのち、隣
接する複数行のデータ間の加算値を求める等して所謂ボ
カシ処理を行い、r個の列の画素データに変換してい
る。この処理によってn行の画素行で示される文字列
が、ボカシ処理を施されたr列の文字列データとして変
換されることになる。
このようにして得られた文字列を示すr列の画像情報に
対して以下に説明するようにウィンドウ処理が行われ、
そのウィンドウによって切出された画像パターンと、辞
書メモリ5に予め登録されたキーワードの辞書パターン
との類似度が計算される。尚、上記辞書パターンは、正
規化部6を介して、前記行検切部2で求められた文字の
大きさ、つまり文字を構成する画素の行数の情報に従っ
て正規化されたのち、前記類似度計算に供せられる。し
かも、類似度の計算法として複合類似度法を用いる場合
には、複合類似度法による大きさや角度の変形に対する
吸収作用が利用できるので、上記正規化処理は必ずしも
必要でない。また前記正規化を、例えば前記サンプリン
グ処理後の文字画像の幅に辞書パターンのサイズを合せ
るようにしてもよく、このようにすることが最も簡単で
あると考えられる。またこの場合、正規化の情報として
上記行の幅しか得られないから、これによって辞書パタ
ーンの横または縦の一方のサイズしか規定できないが、
その他方については同一の比率で正規化するようにすれ
ばよい。
しかして類似度計算部7は、上記キーワードの辞書パタ
ーンと、サンプリング部4より与えられる文字列の画像
情報のウィンドウ処理して切出されるパターンとの類似
度を上記ウィンドウ位置を順に少しずつ移動させ乍ら計
算するもので、例えば第3図に示す如く構成される。こ
の第3図に示される構成の計算部7は、メモリーコリレ
ータと称されるSAW(Surface Acoustie Wave)デバイス
7aを用い、このデバイス7aを伝搬する信号によってウィ
ンドウ処理を行い乍ら、そこに存在する信号(ウィンド
ウによって検切されたパターン)と辞書パターンとの相
関演算を行い、各デバイス7aによって求められた相関演
算結果を加算器7b、2乗器7c等を介してまとめて、複合
類似度値を前記ウィンドウ位置に対応して得るものであ
る。このSAWデバイスを用いた相関演算の手法について
は、例えば電子通信学会誌Vol.65,No.12pp1267〜1273等
に詳しく述べられる通り、周知の技術をそのまま利用す
ることができる。このような構成の類似度計算部7によ
れば、文字列に対するウィンドウ位置を直線的に少しず
つ変え乍ら、同時にそのウィンドウ処理されたパターン
と辞書パターンとの類似度が計算できるので、非常に好
都合である。そして、このようにして、ウィンドウ位置
に対応して求められる類似度の値がヒストグラムメモリ
8に順に格納され、このメモリ8に前記類似度のヒスト
グラムが形成される。
ピーク検出部9は上記類似度のヒストグラムから、その
ピーク値を示すウィンドウ位置を求め、決定部10は上記
ピーク値を所定の閾値で弁別し、所定値以上のピーク値
を示すウィンドウ位置を前記入力文字列に対するキーワ
ードの位置として検出するようになっている。第4図は
ヒストグラム中のピーク値検出のアルゴリズムを示すも
ので、ヒストグラムメモリの値をウィンドウ位置に対応
して順に読み出し、そのヒストグラム変化が上向きの傾
向か、下向きの傾向かを判定する。そして、ヒストグラ
ムが上向きから下向きに変った時点の1つ前のウィンド
ウ位置をピーク位置として検出するようにしている。
以上、各部の一連の処理により、ウィンドウ制御された
文字パターンとキーワードの辞書パターンとの類似度の
ヒストグラムから、そのピークを示すウィンドウ位置と
してキーワード位置が検出されることになる。尚、図中
11は、上記各部の一連の動作を制御する制御部である。
このように本方式によれば、文字記入枠によって文字位
置を規定することなしに、自由に書かれた文字列中のキ
ーワード位置を非常に効果的に、しかも簡易に確実に検
出することができる。つまりウィンドウ処理して部分的
に抽出した文字列のパターンとキーワードの辞書パター
ンとの類似度を上記ウィンドウを少しずつ変え乍ら求め
て類似度のヒストグラムを作成し、このヒストグラムの
ピーク値からキーワード位置を求めるので、その検出精
度が非常に高い。従って、書状郵便物の宛名認識の為の
前処理等として多大な効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではな
い。例えば第5図に示すようにサンプル部4における処
理をROM4aを用いて行うようにしてもよく、また相関演
算を通常のディジタルLSI(例えばTRW社製TDC−1008J)
7dを用いて行うようにしてもよい。またウィンドウの移
動を文字列方向に沿って直線的に行うものについて説明
したが、その移動速度は上記相関演算の処理速度に応じ
て定めるようにすればよい。
更にはヒストグラムにおけるピーク値が1回しか生じな
い場合、つまり文字列中にキーワードが1個しか存在し
ないことが保証されるならば、第6図に示す如き簡易な
ピーク検出器だけを用いてピーク検出し、ヒストグラム
メモリを省略して装置を構成することができる。その
他、本発明はその要旨を逸脱しない範囲で種々変形して
実施することができる。
【図面の簡単な説明】
図は本発明の一実施例方式を採用して構成されるキーワ
ード検出装置を示すもので、第1図はその概略構成図、
第2図はサンプル部の構成例を示す図、第3図は類似度
計算部の構成例を示す図、第4図はヒストグラムのピー
ク検出のアルゴリズム例を示す図、第5図はサンプル・
類似度計算部の別の構成例を示す図、第6図はピーク検
出部の別の構成例を示す図である。 2…行検切部、3…行メモリ、4…サンプル部、5…辞
書メモリ、6…正規化部、7…類似度計算部、8…ヒス
トグラムメモリ、9…ピーク検出部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文字領域に対してウィンドウ位置を移動さ
    せながら上記ウィンドウにより前記文字領域から切出し
    たパターンとキーワードの辞書パターンとの類似度をそ
    れぞれ計算して上記キーワードに対する類似度のヒスト
    グラムを求め、このヒストグラムのピーク位置から前記
    文字領域における前記キーワードの位置を検出してなる
    ことを特徴とするキーワード検出方式。
  2. 【請求項2】キーワードの辞書パターンは、文字領域の
    文字幅から推定される文字の大きさに従って正規化され
    たのちに類似度計算の用いられるものである特許請求の
    範囲第1項記載のキーワード検出方式。
  3. 【請求項3】類似度は、複合類似度計算法に従って計算
    されるものである特許請求の範囲第1項記載のキーワー
    ド検出方式。
  4. 【請求項4】ウィンドウ位置の移動は、文字領域の文字
    列に沿って直線的に行われるものである特許請求の範囲
    第1項記載のキーワード検出方式。
JP58164854A 1983-09-07 1983-09-07 キ−ワ−ド検出方式 Expired - Lifetime JPH0731713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58164854A JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58164854A JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Publications (2)

Publication Number Publication Date
JPS6057476A JPS6057476A (ja) 1985-04-03
JPH0731713B2 true JPH0731713B2 (ja) 1995-04-10

Family

ID=15801175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58164854A Expired - Lifetime JPH0731713B2 (ja) 1983-09-07 1983-09-07 キ−ワ−ド検出方式

Country Status (1)

Country Link
JP (1) JPH0731713B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0245891A (ja) * 1988-08-08 1990-02-15 Nippon Avionics Co Ltd 文字認識方法
US5119433A (en) * 1990-03-12 1992-06-02 International Business Machines Corporation Method and system for locating the amount field on a document

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57111677A (en) * 1980-12-27 1982-07-12 Fujitsu Ltd Character pattern separation system
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device

Also Published As

Publication number Publication date
JPS6057476A (ja) 1985-04-03

Similar Documents

Publication Publication Date Title
US5120940A (en) Detection of barcodes in binary images with arbitrary orientation
JP3576570B2 (ja) 比較方法
US7715628B2 (en) Precise grayscale character segmentation apparatus and method
JPH0789363B2 (ja) 文字認識装置
Yadav et al. Text extraction in document images: highlight on using corner points
JPH0731713B2 (ja) キ−ワ−ド検出方式
Melhem et al. Text line segmentation of Al-Quran pages using binary representation
JP2861860B2 (ja) 宛名行抽出装置
JP2569103B2 (ja) 文字検出方法
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH0217832B2 (ja)
JP2683116B2 (ja) 罫線の除去方法
JP4242962B2 (ja) 文字切出装置
JPH0560147B2 (ja)
JP4785158B2 (ja) イメージデータ傾き補正方法及びイメージ入力装置
JP2590099B2 (ja) 文字読取方式
JP2580976B2 (ja) 文字切出し装置
JP3146882B2 (ja) 絵柄検査方法
JP2569132B2 (ja) 特殊文字行の判別方法
JP3349243B2 (ja) 文字列読み取り装置
CN117557763A (zh) 一种快速自适应采样方法及计算机可读存储介质
JPH057752B2 (ja)
JPH0550785B2 (ja)
JP2832035B2 (ja) 文字認識装置
JPH0418350B2 (ja)