JPH0731713B2

JPH0731713B2 - キ−ワ−ド検出方式

Info

Publication number: JPH0731713B2
Application number: JP58164854A
Authority: JP
Inventors: 賢一前田; 徹吉村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1983-09-07
Filing date: 1983-09-07
Publication date: 1995-04-10
Anticipated expiration: 2010-04-10
Also published as: JPS6057476A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は例えば枠無しの紙面に記載された文字列中の特
定のキーワードの位置を効果的に検出することのできる
キーワード検出方式に関する。

〔発明の技術的背景とその問題点〕

文字認識処理は、一般に比較的広い観測領域（紙面）の
中から文字列を検出し、この文字列を構成する各文字を
それぞれ切出して、つまり検切りしたのち、その検切さ
れた文字の特徴パターンを抽出する等して行われる。具
体的には例えば書状郵便物に記載された宛名を示す文字
列を検出し、その宛名を構成する各文字をそれぞれ検切
して文字認識が行われる。

このような文字の検切処理は、文字認識に対する前処理
として非常に重要な役割を担っており、そこで従来では
文字認識処理とは独立に、例えば文字列に対するピッチ
情報、白領域（背景部）の存在範囲、或いは人工的検知
マーク等を手掛りとして検切処理が行われている。

ところがこのようにして検切処理を行う場合、文字列が
或る程度フォーマット指定されていることが必要であ
り、この為従来では専ら文字記入枠を設ける等してい
る。然し乍ら、文字記入枠によって文字位置を規定する
ことは自由度に欠け、また汎用性に欠ける。従って枠無
しの所謂白紙に記載された文字列の各文字を効果的に検
切し、それを認識することが強く望まれている。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、例えば枠無の紙面に記載された
文字列に対する検切を効果的に可能ならしめるキーワー
ド検出方式を提供することにある。

〔発明の概要〕

本発明は枠無しの紙面に記載された文字列中の特定のキ
ーワードの位置、例えば宛名の中の「県」「市」「町」
等のキーワードの位置を正確に検出し、これを手掛りと
して前記文字列の各文字の検切を可能ならしめるもの
で、特に上記キーワードの検出を文字領域に対するウィ
ンドウ位置を移動させ乍ら、上記ウィンドウによって文
字領域から切出したパターンとキーワードの辞書パター
ンとの類似度を計算してそのキーワードに対する類似度
のヒストグラムを求め、このヒストグラムのピーク位置
から前記文字領域におけるキーワード位置を検出するよ
うにしたものである。

〔発明の効果〕

かくして本発明によれば、少しずつずらされるウィンド
ウによって切出されたパターンとキーワードの標準パタ
ーンとの類似度のヒストグラムのピークを示す位置とし
て、枠無の用紙に記載された文字列中のキーワードの位
置を精度良く、しかも簡易に検出することが可能とな
る。従って、このキーワード位置を手掛りとして各文字
の検切を容易ならしめることができ、その結果文字認識
処理の効率向上を図ることが可能となる。また、文字記
入枠に制限されることなく、所謂白紙に自由に記載され
た文字列におけるキーワードを効果的に検出できるの
で、例えは書状郵便物の宛名読取り等に有効に応用する
ことができる等の実用上絶大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の実施例につき説明する。

第１図は実施例方式を適用して構成される文字認識装置
のキーワード検出部を示す概略構成図である。この装置
は、例えば書状郵便物に記載された宛名の中から「町」
なるキーワードの位置を検出するものである。

入力部１は、書状郵便物に記載された情報を光電変換
し、文書画像として入力するものであり、行検切部２は
例えば上記文書画像の文字が書かれている方向の濃度の
射影をとり、その黒領域存在部分を検出する等して文字
列を示す行位置を検出している。このようにして検出さ
れた行の画像情報（文字列情報）が行単位で行メモリ３
に格納される。尚、上記行は文字列を示すものではな
く、文字列を構成する画像の画素を示している。

しかしてサンプル部４は、例えば第２図に示すように複
数のD/A変換器4aおよび複数の演算増幅器4bによって構
成され、前記画素行の各データをD/A変換したのち、隣
接する複数行のデータ間の加算値を求める等して所謂ボ
カシ処理を行い、ｒ個の列の画素データに変換してい
る。この処理によってｎ行の画素行で示される文字列
が、ボカシ処理を施されたｒ列の文字列データとして変
換されることになる。

このようにして得られた文字列を示すｒ列の画像情報に
対して以下に説明するようにウィンドウ処理が行われ、
そのウィンドウによって切出された画像パターンと、辞
書メモリ５に予め登録されたキーワードの辞書パターン
との類似度が計算される。尚、上記辞書パターンは、正
規化部６を介して、前記行検切部２で求められた文字の
大きさ、つまり文字を構成する画素の行数の情報に従っ
て正規化されたのち、前記類似度計算に供せられる。し
かも、類似度の計算法として複合類似度法を用いる場合
には、複合類似度法による大きさや角度の変形に対する
吸収作用が利用できるので、上記正規化処理は必ずしも
必要でない。また前記正規化を、例えば前記サンプリン
グ処理後の文字画像の幅に辞書パターンのサイズを合せ
るようにしてもよく、このようにすることが最も簡単で
あると考えられる。またこの場合、正規化の情報として
上記行の幅しか得られないから、これによって辞書パタ
ーンの横または縦の一方のサイズしか規定できないが、
その他方については同一の比率で正規化するようにすれ
ばよい。

しかして類似度計算部７は、上記キーワードの辞書パタ
ーンと、サンプリング部４より与えられる文字列の画像
情報のウィンドウ処理して切出されるパターンとの類似
度を上記ウィンドウ位置を順に少しずつ移動させ乍ら計
算するもので、例えば第３図に示す如く構成される。こ
の第３図に示される構成の計算部７は、メモリーコリレ
ータと称されるSAW（Surface Acoustie Wave）デバイス
7aを用い、このデバイス7aを伝搬する信号によってウィ
ンドウ処理を行い乍ら、そこに存在する信号（ウィンド
ウによって検切されたパターン）と辞書パターンとの相
関演算を行い、各デバイス7aによって求められた相関演
算結果を加算器7b、２乗器7c等を介してまとめて、複合
類似度値を前記ウィンドウ位置に対応して得るものであ
る。このSAWデバイスを用いた相関演算の手法について
は、例えば電子通信学会誌Vol.65,No.12pp1267〜1273等
に詳しく述べられる通り、周知の技術をそのまま利用す
ることができる。このような構成の類似度計算部７によ
れば、文字列に対するウィンドウ位置を直線的に少しず
つ変え乍ら、同時にそのウィンドウ処理されたパターン
と辞書パターンとの類似度が計算できるので、非常に好
都合である。そして、このようにして、ウィンドウ位置
に対応して求められる類似度の値がヒストグラムメモリ
８に順に格納され、このメモリ８に前記類似度のヒスト
グラムが形成される。

ピーク検出部９は上記類似度のヒストグラムから、その
ピーク値を示すウィンドウ位置を求め、決定部10は上記
ピーク値を所定の閾値で弁別し、所定値以上のピーク値
を示すウィンドウ位置を前記入力文字列に対するキーワ
ードの位置として検出するようになっている。第４図は
ヒストグラム中のピーク値検出のアルゴリズムを示すも
ので、ヒストグラムメモリの値をウィンドウ位置に対応
して順に読み出し、そのヒストグラム変化が上向きの傾
向か、下向きの傾向かを判定する。そして、ヒストグラ
ムが上向きから下向きに変った時点の１つ前のウィンド
ウ位置をピーク位置として検出するようにしている。

以上、各部の一連の処理により、ウィンドウ制御された
文字パターンとキーワードの辞書パターンとの類似度の
ヒストグラムから、そのピークを示すウィンドウ位置と
してキーワード位置が検出されることになる。尚、図中
11は、上記各部の一連の動作を制御する制御部である。

このように本方式によれば、文字記入枠によって文字位
置を規定することなしに、自由に書かれた文字列中のキ
ーワード位置を非常に効果的に、しかも簡易に確実に検
出することができる。つまりウィンドウ処理して部分的
に抽出した文字列のパターンとキーワードの辞書パター
ンとの類似度を上記ウィンドウを少しずつ変え乍ら求め
て類似度のヒストグラムを作成し、このヒストグラムの
ピーク値からキーワード位置を求めるので、その検出精
度が非常に高い。従って、書状郵便物の宛名認識の為の
前処理等として多大な効果が奏せられる。

尚、本発明は上述した実施例に限定されるものではな
い。例えば第５図に示すようにサンプル部４における処
理をROM4aを用いて行うようにしてもよく、また相関演
算を通常のディジタルLSI（例えばTRW社製TDC−1008J）
7dを用いて行うようにしてもよい。またウィンドウの移
動を文字列方向に沿って直線的に行うものについて説明
したが、その移動速度は上記相関演算の処理速度に応じ
て定めるようにすればよい。

更にはヒストグラムにおけるピーク値が１回しか生じな
い場合、つまり文字列中にキーワードが１個しか存在し
ないことが保証されるならば、第６図に示す如き簡易な
ピーク検出器だけを用いてピーク検出し、ヒストグラム
メモリを省略して装置を構成することができる。その
他、本発明はその要旨を逸脱しない範囲で種々変形して
実施することができる。

【図面の簡単な説明】

図は本発明の一実施例方式を採用して構成されるキーワ
ード検出装置を示すもので、第１図はその概略構成図、
第２図はサンプル部の構成例を示す図、第３図は類似度
計算部の構成例を示す図、第４図はヒストグラムのピー
ク検出のアルゴリズム例を示す図、第５図はサンプル・
類似度計算部の別の構成例を示す図、第６図はピーク検
出部の別の構成例を示す図である。２…行検切部、３…行メモリ、４…サンプル部、５…辞
書メモリ、６…正規化部、７…類似度計算部、８…ヒス
トグラムメモリ、９…ピーク検出部。

Claims

【特許請求の範囲】

【請求項１】文字領域に対してウィンドウ位置を移動さ
せながら上記ウィンドウにより前記文字領域から切出し
たパターンとキーワードの辞書パターンとの類似度をそ
れぞれ計算して上記キーワードに対する類似度のヒスト
グラムを求め、このヒストグラムのピーク位置から前記
文字領域における前記キーワードの位置を検出してなる
ことを特徴とするキーワード検出方式。
【請求項２】キーワードの辞書パターンは、文字領域の
文字幅から推定される文字の大きさに従って正規化され
たのちに類似度計算の用いられるものである特許請求の
範囲第１項記載のキーワード検出方式。
【請求項３】類似度は、複合類似度計算法に従って計算
されるものである特許請求の範囲第１項記載のキーワー
ド検出方式。
【請求項４】ウィンドウ位置の移動は、文字領域の文字
列に沿って直線的に行われるものである特許請求の範囲
第１項記載のキーワード検出方式。