JPH03240184A - 属性判定装置 - Google Patents

属性判定装置

Info

Publication number
JPH03240184A
JPH03240184A JP2037007A JP3700790A JPH03240184A JP H03240184 A JPH03240184 A JP H03240184A JP 2037007 A JP2037007 A JP 2037007A JP 3700790 A JP3700790 A JP 3700790A JP H03240184 A JPH03240184 A JP H03240184A
Authority
JP
Japan
Prior art keywords
character
document
attributes
unit
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2037007A
Other languages
English (en)
Inventor
Toshiyuki Itezono
射手園 敏行
Yoshiyuki Yamashita
山下 義征
Koji Ito
伊東 晃治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2037007A priority Critical patent/JPH03240184A/ja
Publication of JPH03240184A publication Critical patent/JPH03240184A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は文書構成要素のa性判定を行なう属性判定装
置に関する。
(従来の技術) 文書構成要素の属性判定に関する従来技術として文献■
:情報処理学会第37回(昭和63年後期)全国大会6
W−5に提案されるものかある。
この従来技術では、項目がどのように配置されているか
を記述した名刺モデルを複数fi類用意した上で、名刺
画像から抽出されたブロックの位置、高き、幅を名刺モ
デルに記述された項目と比較することにより、ブロック
の属性を推定する。
(発明が解決しようとする課題) しかしながら上述の従来技術は、名刺の場合のように各
項目の位置、高さ、幅をある程度限定してモデルの記述
を行なえる文書においてしか項目の属性を特定できない
。例えば第2図に示す例の場合、氏名及び企業名の2種
のa性が同一の項目欄「氏名(名称)欄」に混在し、従
って従来技術ではブロックの位置、高さ、幅からa性を
特定することはできなかった。
ざらに従来技術では、文書のレイアウトの種類に応した
多数のモデルを用意する必要があるのでメモリ容量が大
きくなり、また入力文書を多数のモデルと比較するため
処理が複雑で処理速度が遅くなるという問題点があった
この発明の目的は、上述した従来の問題点を解決し、同
一の項目欄に複数の属性が存在する文書の場合でも簡単
な処理で属性判定が行なえる属性判定装M%提供するこ
とにある。
(課題を解決するための手段) この目的の達成を図るため、この発明の属性判定装置は
、文書画像データから一文字毎に文字位置情報を抽出す
る検出部と、文字位置情報に基づいて一単位の文書構成
要素に関する要素特徴を求め、要素特徴に基づいて文書
構成要素の属性を判定する判定部とを備えて成ることを
特徴とする。
(作用) このような構成によれば、文字位置情報から一単位の文
書構成要素に関する要素特徴を求め、この要素特徴に基
づいて文書構成要素の属性を判定する。要素特徴として
は、例えば文字ピッチ、文字間距離、或は文字数を用い
る。
例えば、−単位の文書構成要素は氏名行或は企業名折で
ありこれら属性の異なる文字行が同一項目欄に混在する
場合を考える。この場合に、−単位の文書構成要素に関
しで得られる平均文字ピッチ及び平均文字間距離に着目
すれば、これらピッチ及び距離は氏名のほうがより長く
なる傾向がある。或は−単位の文書構成要素(こ関して
得られる文字数に着目すれば、文字数は企業名のほうが
より多くなる傾向かある。従ってこのような傾向を利用
することによって属性判定を行なえる。
(実施例) 以下、図面、1g照し、この発明の実施例につき説明す
る。尚、図面はこの発明が理解できる程度に、各構成成
分の配設位置、入出力信号の流れ、形状及び寸法を概略
的に示しである(こすぎす、従ってこの発明を図示例に
限定するものではない。
第二」(4倒 第1図はこの発明の第一実施例の説明に供する8g能ツ
ブロックであり、実施例装置を文字認識装置(こ適用し
た例の全体構成を概略的1こ示す。
この実施例の属性判定装置flOは文書画像データから
一文字毎に文字位置情報を抽出する検出部12と、文字
位置情報に基づいて一単位の文書構成要素に関する要素
特徴を求め、要素特徴に基づいて文書構成要素の属性を
判定する判定部14とを備えて成る。
この実施例では、属性判定装M10は文字認識装M16
の一部を構成するものであり、属性判定装置10の検出
部12を文字認識装[16の切出し部を利用して構成す
る。
従って文字認識装置16は、文書構成要素の属性判定結
果に加え文書画像データから切出した文字バタンを出力
する属性判定装置10と、量子化された文書画像データ
を得る前処理部18と、文字バタンを認識する認識部2
0と、認識結果及び文書構成要素の属性を用いて知識処
理を行なう知識処理部22と、知識辞′M部24とから
成る。
以下、文字認識装M16の説明と共に属性判定装M10
につき説明する。以下に述べる文字認識装M16は、氏
名及び企業名が混在する氏名(名称)欄に関し文字ピッ
チを利用して属性判定を行ない、属性判定に応した知識
辞書を用いて知識処理を行なうように構成した例である
前処理部18は入力文!(文字記録媒体)を光学的に読
取って入力文書の量子化された文書画像データを生成す
る画像読取部18aと、この文書画像データを保存する
画像メモリ18bとから成る。
第2図は画像データの一例を示す図である。画像データ
上には図示しないX−Y座標系を設定し、この座標系で
表される画素位置の画像データをメモリ18bから読出
せるようになしている。
検出部(切出し部)12は処理対象となる領域R(この
例では氏名(名称)欄の領域である。第2図中、領域R
を二点鎖線で囲んで示した)の位M%予め与えられてお
り、文字行に沿う方向(行方向)を主走査方向としてこ
の領域R内の画像データを走査し各走査線毎に領域8内
の累積黒画素数を求めて第一周辺分布を作成する。そし
て第一周辺分布に基づいて従来周知の技術により行領域
を検出し、列方向における行抽端及び終端位置を検出す
る。
次に検出部12は各行領域毎に行領域内の画像データを
切出しく行切出しを行ない)、行方向と直交する列方向
を主走査方向として行領域内の画像データを走査し、各
走査線毎に行領域内の累積黒画素数を求めて第二周辺分
布を作成する。そして第二周辺分布に基づいて従来周知
の技術により文字対の文字類t12を検出し、行方向に
おける文字始端及び終端位Mを検出する。
次に検出部12は、行領域内の画像データを各文字位置
で切取って一文字単位に文字バタンを切出す。
判定部14は領域R内の文字行1行を一単位の文書構成
要素とみなし、文字行1行分の各文字の文字位Mを検出
部12から入力し、これら各文字位置から文字行1行に
ついての平均文字ピッチを求め、平均文字ピッチを所定
の閾値と比較し、この比較結果に応して文字行1行の属
性が氏名及び企業名のいずれであるかを判定する。
また認識部20は検出部12がら文字バタンを入力し文
字バタンの認識を行ない、その認識結果として文字コー
ドを得る。
知識処理部22は判定部14がら一単位の文書構成要素
の属性判定結果を入力すると共に、当該文書構成要素が
含む各文字の認識結果を認識部20から入力する。知識
辞書部24は氏名辞書24a及び企業名辞!24bがら
成り、知識処理部22は属性判定結果が氏名であればこ
れに対応する辞824 a%及び企業名であればこれに
対応する辞!24bを選択し、−単位の文書構成要素の
各文字の認識結果を、選択した辞書と照合して知識処理
を行ないその結果を次段の装置例えばデータヘースヘ入
力する。
次に属性判定装置10につきより詳細に説明する。第3
図(A)及び(B)は企業名及び氏名の文字バタンの例
を示す図であり、これら図において一文字分の文字バタ
ンを一点鎖線の矩形枠で囲んで示した。
検出部12は、第一周辺分布から列方向における行領域
の始端位置CT及び終端位置CBを検出すると共に第二
周辺分布から各文字毎に行方向における文字の始端位置
CL及び終端位置C8を検出し、点(CT、 CL)、
(CT、OR)、(CB、CL)及び(CB、0日)の
4点を結ぶ矩形枠内の画像データを一文字分の文字バタ
ンとして切出す、同一文字行においては共通の位置CT
、08を用いる。
各文字行において始端位置の小さい順に数えて第n番目
の文字の始端及び終端位1ftcL(n)及び0日(n
)、また文字行1行が含む文字総個数をNと表せば、検
出部12は各文字行毎に文字始端位置座標系列(CL 
(n)I n= 1〜N)及び文字終端位置座標系列(
CR(n)I n−1、N)を判定部14に出力する。
尚、総個数Nは検出部12によって検出される。
判定部14は文字総個数Nと、座標系列(CL(n)I
 n= 1〜N)及び(CR(n)I n=1、N)と
から要素特徴として次式(1)で表される平均文字ピッ
チMCPt算出する。
・・・ (1) この例では各文字位置ヲ画像メモリ上の画素単位で表す
ので、平均文字ピッチも画素単位で表される。例えば画
像読取部18aでの解像度166画素mm、氏名(名称
)欄の文字幅3mmとすれば、第2図の氏名(名称)欄
の第1行目の企業名である「△△△△△株式会社」につ
いては平均文字ピッチは52画素となり、また第2行目
の氏名である「栂澤正英」については平均文字ピッチは
138画素となり、この例からも理解できるように、第
2図に示す書式の文書では、氏名(名称)欄においては
氏名の平均文字ピッチは企業名の平均文字ピッチに比べ
、大きくなる。
従って平均文字ピッチMCPを任意好適に定められた閾
値PT目しと比較することによって属性判定を行なえる
。判定部14は平均文字ピッチMCPか閾値PT目し以
上であれば当該MCPを得た文字行の属性を氏名と判定
し、また平均文字ピッチMCPか閾値PTHLを越えな
ければ当該MCPt得た文字行のa性を企業名と判定す
る。
例えばPTHL=90画素と設定すればよい。
笈;」蜘虹例 第−実施例では、要素情報を平均文字ピッチとしたか、
第二実施例では要素情報を平均文字間距離とする。
第二実施例では、判定部14の動作か以下に述べる点で
異なるほかは第一実施例と同様である。
以下、土として第−実施例と相違する点(ごつき説明し
、第−実施例と同様の点についではその詳細な説明を省
略する。
判定部14は検出部12から文字行1行の各文字の位?
In入力し、次式(2)に従って当該文字行の平均文字
間距離MCDを算出する。
・・・(2) 例えば画像読取部18aでの解像度]66画素mm、氏
名(名称)欄の文字幅3mmとすれば、第2図の氏名(
名称)aの第1行目の企業名である「△△△△△株式会
社」については平均文字間距離は4画素となり、また第
2行目の氏名である「栂澤正英」については平均文字間
距離は900画素なり、この例からも理解できるように
、第2図(こ示す書式の文書では、氏名(名称)欄にお
いでは氏名の平均文字間距離は企業名の平均文字間距離
に比べ、大きくなる。
従って平均文字闇路MMCDを任意好適に定められた閾
値DTHLと比較することによって属性判定を行なえる
。判定部14は平均文字間距離MODが閾値DTHL以
上であれば当該MCD!得た文字行の属性を氏名と判定
し、また平均文字闇路uMcDか閾値DTHLを越えな
ければ当該MCDを得た文字行の属性を企業名と判定す
る。
例えばPT目し=45画素と設定すればよい。
星ミj梨虹例 第二実施例では、判定部14の動作か以下に述べる点て
異なるほかは第一実施例と同様である。
以下、主として第−実施例と相違する点につき説明し、
第−実施例と同様の点についてはその詳細な説明を省略
する。
この実施例では要素情報を文字行1行が含む文字数とす
る。
第2図の氏名(名称)欄の第1行目の企業名である「△
△△△△株式会社」についでは文字総個数Nは9個とな
り、また第2行目の氏名である「栂澤正英」については
文字総個数Nは4個となり、この例からも理解できるよ
うに、第2図に示す書式の文書では、氏名(名称)欄に
おいて氏名の文字総個数Nは企業名の文字総個数Nに比
べ、小ざくなる。従って文字総個数N8任意好適に定め
られた閾値NT臼ヒと比較することによって属性判定を
行なえる。
判定部]4は検出部12がら一単位の文書構成要素(文
字行1行)か含む文字の総個数Nt大入力、総個数N及
び閾値NTHLを比較する。総個数Nが閾値NTHL以
上であれば当該N′@得た文字行の属性を企業名と判定
し、また総個数Nが閾値NT目しを越えなければ当該N
を得た文字行の属性を氏名と判定する。例えばNTHL
=6と設定すればよい。
この発明は上述した実施例にのみ限定されるものではな
く、従って各構成成分の動作、入出力信号、数値的条件
及びそのほかを任意好適に変更できる。
例えば、属性判定に要素特徴を1個だけ用いるのみなら
す複数個用いるようにしてもよい0例えば文字ピッチ、
文字間距離及び文字数のなかから任意好適に選択した2
個又は全部の要素特徴を用いて総合的に属性判定を行な
うことによって判定精度を向上できる。
また−単位の文書構成要素を文字行1行のみならす文字
行複数行としてもよい。
また上述した実施例では氏名及び企業名の2種の属性の
場合について説明したが、属性判定をこれら2種の属性
に限定するものではなく、要素特徴に差異を生ずる任意
好適な異なる種類の属性の判定にこの発明を適用できる
(発明の効果) 上述した説明からも明らかなように、この発明の属性判
定装置によれば、要素特徴例えば文字ピッチ、文字開路
M或は文字数を用いて属性を判定するので、従来技術で
は属性を特定できなかった場合にも、属性を特定できる
また文書構成要素毎に求めた要素特徴を用いて属性判定
を行なうので、モデルを用意する必要がなく従ってメモ
リ規模を縮小できる。また要素特徴を用いて属性判定を
行ない従って入力文書をモデルと比較して属性判定を行
なわずにすむので、属性判定の処理を簡単化できる。
従って小型かつ低価格であって高速に属性判定を行なえ
る属性判定装置を提供できる。
【図面の簡単な説明】
第1図はこの発明の詳細な説明に供する機能ブロック図
であって、実施例装置lを用いて構成した文字認識装置
の構成例を示す図、 第2図は文書画像データの例を示す図、第3図(A)〜
(B)は文字パタンの例を示す図である。 10・・・属性判定装置、  ]2・・・検出部14・
・・判定部。

Claims (4)

    【特許請求の範囲】
  1. (1)文書画像データから一文字毎に文字位置情報を抽
    出する検出部と、該文字位置情報に基づいて一単位の文
    書構成要素に関する要素特徴を求め、該要素特徴に基づ
    いて前記文書構成要素の属性を判定する判定部とを備え
    て成ることを特徴とする属性判定装置。
  2. (2)前記要素特徴を文字ピッチとしたことを特徴とす
    る請求項1に記載の属性判定装置。
  3. (3)前記要素特徴を文字間距離としたことを特徴とす
    る請求項1又は2に記載の属性判定装置。
  4. (4)前記要素特徴を文字数としたことを特徴とする請
    求項1〜3のいずれか一項に記載の属性判定装置。
JP2037007A 1990-02-17 1990-02-17 属性判定装置 Pending JPH03240184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2037007A JPH03240184A (ja) 1990-02-17 1990-02-17 属性判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2037007A JPH03240184A (ja) 1990-02-17 1990-02-17 属性判定装置

Publications (1)

Publication Number Publication Date
JPH03240184A true JPH03240184A (ja) 1991-10-25

Family

ID=12485639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2037007A Pending JPH03240184A (ja) 1990-02-17 1990-02-17 属性判定装置

Country Status (1)

Country Link
JP (1) JPH03240184A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6379193A (ja) * 1986-09-22 1988-04-09 Toshiba Corp 文字読取装置
JPH01305486A (ja) * 1988-06-02 1989-12-08 Toshiba Corp 文字判定装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6379193A (ja) * 1986-09-22 1988-04-09 Toshiba Corp 文字読取装置
JPH01305486A (ja) * 1988-06-02 1989-12-08 Toshiba Corp 文字判定装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070529A (ja) * 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置

Similar Documents

Publication Publication Date Title
US4408342A (en) Method for recognizing a machine encoded character
US4903312A (en) Character recognition with variable subdivisions of a character region
US8041113B2 (en) Image processing device, image processing method, and computer program product
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US5046114A (en) Method and structure for separating joined patterns for use in pattern and character recognition system
US7295694B2 (en) MICR-based optical character recognition system and method
JP3452774B2 (ja) 文字認識方法
EP0810542A2 (en) Bitmap comparison apparatus and method
EP0248262B1 (en) Apparatus and method for detecting character components on a printed document
US6324302B1 (en) Method and a system for substantially eliminating erroneously recognized non-solid lines
JPH03240184A (ja) 属性判定装置
JPS60153574A (ja) 文字読取方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH04352295A (ja) 文字列方向判別装置
JP3100825B2 (ja) 線認識方法
JP2697790B2 (ja) 文字タイプ決定方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2576080B2 (ja) 文字切出し方法
JP3071479B2 (ja) 行間スペース検出方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH06325197A (ja) バーコード認識方法
JPH09106438A (ja) 等幅フォントにおける幅の検出方法および装置
JPH03210688A (ja) 行検出装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2682456B2 (ja) 光学文字読取装置