JPH04346189A - 文字列種類識別装置 - Google Patents

文字列種類識別装置

Info

Publication number
JPH04346189A
JPH04346189A JP3146514A JP14651491A JPH04346189A JP H04346189 A JPH04346189 A JP H04346189A JP 3146514 A JP3146514 A JP 3146514A JP 14651491 A JP14651491 A JP 14651491A JP H04346189 A JPH04346189 A JP H04346189A
Authority
JP
Japan
Prior art keywords
character
character string
area
distance
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3146514A
Other languages
English (en)
Inventor
Norio Yamamoto
紀夫 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP3146514A priority Critical patent/JPH04346189A/ja
Publication of JPH04346189A publication Critical patent/JPH04346189A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字列種類識別装置に
関し、特に、光学的に文書画像を読み取り、文書の文字
列を認識する文書認識装置において、文書画像から切り
出された文字領域の文字列の種類の識別、例えば、英語
文字列/日本語文字列の識別を行う文字列種類識別装置
に関するものである。
【0002】
【従来の技術】紙の上に記述された文書内容をデータ処
理において、テキストデータとして再利用できるように
するため、文書認識処理の技術は重要である。文書認識
処理における一般的な手法は、紙の上の文書をイメージ
スキャナ等で先ずイメージデータとして読み込み、次に
、文書画像を文字領域および図形領域に分割し、文字領
域に関しては、テキストデータへの変換処理を行うため
、文字認識処理が行なわれる。この場合、文字認識率を
向上させるため、文字認識処理に先立って、当該文字領
域が英語文字領域であるか、または日本語文字領域なの
かを識別する文字列種類の識別を行う。そして、例えば
、英語文字領域に対しては英文文字認識装置により文字
認識処理を行い、また、日本語文字領域に対しては和文
文字認識装置により文字認識処理を行う。
【0003】従来、このような英語文字列/日本語文字
列の識別を行う識別手法としては、例えば、論文「A.
Lawrence Spitz, “Recognit
ion Processing for Multil
ingual Documents”, pp193〜
205, EP90 Proceedings of 
the International Confere
nce on Electronic Publish
ing, Document Manipulatio
n & Typography Gaithersbu
rg, Maryland, September 1
990, Edited by R. Furuta,
CAMBRIDGE UNIVERSITYPRESS
」に記載された日英文字列識別方法が知られている。こ
の日英文字列識別方法は、与えられた文字領域に関して
、縦方向および横方向に黒画素の頻度を射影し、その頻
度分布の特徴によって、文字領域の文字列の英語文字/
日本語文字の識別を行う方法である。
【0004】
【発明が解決しようとする課題】しかし、上述のような
従来における日英文字列識別方法では、文字領域の黒画
素の縦横方向の頻度分布の特徴により、文字領域の文字
列の英語文字/日本語文字の識別を行うため、確実に識
別できない場合が多くあり、また、識別処理では縦方向
および横方向の2方向に黒画素の頻度を射影し、その頻
度分布の特徴により識別するため、処理が複雑となり、
簡単に識別基準が決定できないという問題点がある。
【0005】本発明は、これらの問題点をを解決するた
めになされたものであり、本発明の目的は、文字領域の
文字列種類の識別を行うための特徴量の抽出が簡単であ
り、高い精度で文字列の識別を行うことができる文字列
種類識別装置を提供することにある。
【0006】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の文字列種類識別装置は、文書を画像形態で
入力し、入力した文書画像を文字領域および図形領域に
分割し、分割したそれぞれの領域に対して認識処理を行
う文書認識装置において、領域を分割する切り出し処理
により得られた文字領域のビットマップ文字列領域から
文字間隔の距離を抽出する文字間距離抽出手段(11)
と、抽出した文字間距離を基に文字間距離の頻度分布デ
ータを生成する頻度分布データ生成手段(12)と、こ
の頻度分布データに基いて文字列の種類の識別を行う文
字列種類識別手段(13)とを備えたことを特徴とする
【0007】
【作用】文書認識装置では、文書を画像形態で入力し、
入力した文書画像を文字領域および図形領域に分割し、
分割したそれぞれの領域に対して認識処理を行う。文字
領域の認識処理において、まず、文字列種類の識別を行
う。文字間距離抽出手段(11)は、入力した文書画像
の領域を分割する切り出し処理により得られた文字領域
のビットマップ文字列領域から文字間距離を抽出し、次
に、頻度分布データ生成手段(12)が、抽出した文字
間距離を基に文字間距離の頻度分布データを生成する。 文字間距離の頻度分布データは、例えば文字間距離頻度
テーブルが作成されて格納される。そして、次に文字列
種類識別手段(13)が、この文字間距離頻度テーブル
に格納した頻度分布データに基いて文字列の種類の識別
を行う。
【0008】文書の文字間距離は、文字列の種類の違い
により、例えば、英語文字列および日本語文字列の種類
の違いにより、それぞれ種類の違いの特徴は次のように
なっている。すなわち、英語文字列では文字間の距離の
分布が、文字(1単語内)の間の距離の集合と、単語間
の距離の集合とに2極化する。日本語文字列では文字間
の距離の分布が、各文字自体の間の距離は大きなバラツ
キはないが、漢字,ひら仮名,分離した文字(例えば文
字「化」のように2つの要素“イ”と“ヒ”に分かれる
文字),句読点などの文字形によって、ある程度に広く
分布する。
【0013】したがって、このような英語文字列および
日本語文字列の文字間の特徴を抽出するため、文字間の
距離の頻度分布データを求めるため、頻度テーブルを作
成して頻度データを格納する。これにより、頻度テーブ
ルに頻度分布データが作成される。この頻度分布データ
を特徴量として抽出して識別する。このような特徴量の
抽出により、文字列種類の識別は所定の判定基準により
識別できるので、複雑な識別の処理を必要とすることな
く、簡単な処理により、しかも確実に英語文字列および
日本語文字列などの文字列種類の識別が可能となる。
【0014】
【実施例】以下、本発明の実施例を図面を参照して具体
的に説明する。次の実施例の説明では、識別する文字列
の種類としては日本語文字列と英語文字列の2種類の識
別を行う文字列種類の識別システムの一例を説明する。 図1は本発明の一実施例にかかる日英文字列識別システ
ムの要部の構成を示す処理部のブロック図である。図1
のブロック図は、そのまま同時に処理フローを示すもの
となっている。ここでの日英文字列識別システムは、光
学的に文字を読み取る文書認識システムの一部を構成す
るものであり、文書認識システムにおける前段階の処理
部から出力される文字領域を表す矩形ビットマップ文書
画像を入力として受け取り、日英文字列の識別処理を行
う。まず、受け取ったビットマップを縦方向に走査する
ことにより、文字および文字の構成要素の間の空白の長
さを求める。以後、この空白の長さを文字間の距離とす
る。更に文字間の距離の頻度テーブルを作成して、その
頻度テーブルから特徴量を計算し、この特徴量により日
本語文字列または英語文字列の識別を行う。
【0015】図1において、文字間距離抽出部11は、
文書画像処理の前処理を行う領域切り出し処理部によっ
て、得られる文字列領域ビットマップ1を入力データと
して受け取ると、領域のビットマップを文字列方向と垂
直な方向に走査し、各文字間の距離を求める。距離頻度
テーブル作成部12は、文字間距離抽出部11で得られ
た文字間の距離から頻度テーブルを作成する。そして、
次段の特徴抽出結果判定部13は、文字間の頻度分布デ
ータから特徴量を算出する特徴量抽出の処理を行い、日
本語文字列および英語文字列の識別を行う。この識別は
、例えば、頻度分布データのピーク値を特徴量として変
換する数値計算処理を行い、日英文字列の判定を行う。 または、頻度分布データのピーク値分布の2極化分布を
特徴量として変換する数値計算処理を行って、日本語文
字列および英語文字列の種類の判定を行う。これにより
、特徴抽出結果判定部13から日/英判定結果2が出力
される。
【0016】図2は、文字列領域ビットマップから文字
間距離を求める処理を説明する図である。図2に示すよ
うに、得られた文字列領域のビットマップを文字列方向
と垂直な方向に走査し、すなわち文字列領域ビットマッ
プ21の各ビット列を上から下へ走査し、各々のビット
列について、黒画素が見つかった列については“1”の
フラグビットを立て、黒画素が見つからなかった列につ
いては“0”のフラグビットを立てる。各ビット列の順
次の処理の結果、例えば「1111110011111
100111111」のフラグビット列を得る。次に、
得られたフラグビット列における0の連続する個数をカ
ウントして、この数値を各々の文字間距離として求める
。図2に示す例では文字列領域ビットマップ21の文字
列画像「abc」から文字間距離22として“22”の
文字間距離のデータ列を得る。
【0017】図3は、文字間距離抽出部が英語文字列の
文字列領域ビットマップから文字間距離を求める処理例
を説明する図である。また、図4は、求めた文字間距離
から作成された英語文字列の文字間距離の頻度テーブル
の一例を示す図であり、図5は、英語文字列の文字間距
離の頻度テーブルの頻度分布データをグラフ表示した例
を示す図である。
【0018】図3に示すように、例えば、英語文字列「
We remain at your entire 
disposalfor further infor
mation」の文字列領域ビットマップデータ31を
、文字間距離抽出部11に入力し、入力された英語文字
列に対する文字間距離の抽出処理を行うと、その結果と
して、各々の文字間の距離“182112982472
1282221118371311273221112
24”のデータ列32が求められる。このデータ列32
の数字列は、各々の文字間の距離、すなわち前述したフ
ラグビットの“0”の連続する個数を表している。この
データ列32から、距離頻度テーブル作成部(12;図
1)が、各々の文字間距離ごとの頻度分布をカウントし
て、図4に示すような文字間距離頻度テーブル41を作
成する。このようにして作成された文字間距離頻度テー
ブル41の頻度データを棒グラフ表示すると、例えば、
図5に示すような文字間距離の頻度グラフ(ヒストグラ
ム)が得られる。図5の棒グラフの例に示されるとおり
、英語文字列における文字間距離の頻度グラフでは、各
々の英語文字列の間の文字間のピーク値(文字間距離の
値が1または2の部分)と、複数の英語文字列を組合せ
た単語の間の文字間のピーク値(文字間距離の値が7〜
8の部分)との2極化されて分布することになり、この
ような頻度分布する文字列の種類は英語文字列と判定さ
れる。
【0019】英語文字列および日本語文字列における文
字間距離の頻度分布データの特徴量の相互比較のため、
日本語文字列における文字列領域の場合の文字間隔距離
の頻度分布データの一例を示すと、それぞれ、図6およ
び図7のようになる。図6および図7は、それぞれ、日
本語文字列の文字間距離の頻度テーブルおよび頻度グラ
フを示している。このように、日本語文字列では、その
文字間距離の頻度分布データにおいて、ピーク値は小さ
いものとなり、その分布も偏在性はなく比較的に均一的
な分布となる。このため、文字間距離の頻度分布データ
において、例えば、ピーク値の大きさの判定により、英
語文字列と日本語文字列との識別が容易に行える。また
、ピーク値分布の2極化分布を判別しても、同様に英語
文字列と日本語文字列との種類の識別が容易に行える。
【0020】また、文字間距離頻度テーブルの頻度分布
データから日本語文字列および英語文字列の種類の判別
を行う場合、例えば、その判別アルゴリズムは文字間距
離頻度テーブルの頻度分布データを利用した特徴量の数
値計算を行い判別することになるが、その判別手法の判
別アルゴリズムとしては様々の手法が利用できる。
【0021】その一例を次に説明する。日英文字列領域
の文字間距離における相違点は、前述のように、日本語
文字列では、漢字やひら仮名などの様々な文字種によっ
て、文字間距離がある程度広く分布するのに対し、英語
文字列では、文字間と単語間で2極化することである。 そこで、この特徴を反映するような特徴量を数値計算に
より求めて日英文字列の種類の判定を行う。この例の一
つとして、例えば、頻度分布データにおける1番目のピ
ーク値(その前後も加える)の山と、そのピーク値の山
として接続していない2番目のピーク値(その前後も加
える)との和の全体に対する割合を計算して特徴量とし
て用いる。
【0022】前述した図示の例における文字列領域の頻
度分布データ(図4および図6)から当該特徴量を計算
すると、 《英語文字列の場合》 (1番目のピーク値)=13+13+3=29    
(2番目のピーク値)=3+4+1=8       
     (全体の値)=39    (全体に対する
割合)={(29+8)÷39}×100=94.9%   《日本語文字列の場合》 (1番目のピーク値)=1+6+0=7    (2番
目のピーク値)=0+4+1=5          
  (全体の値)=24    (全体に対する割合)
={(7+5)÷24}×100=50.0% このようにして得られた割合の値を特徴量として用いて
判定する場合、この特徴量からは、経験的に設定した閾
値(例えば75%)によって容易に英語文字列と日本語
文字列との識別が可能となる。
【0023】また、文字間距離頻度テーブルから抽出で
きる特徴量として、数値計算できる他の例として、次の
ような特徴量を用いることもできる。 (1)ピーク値の先鋭度を用いる場合、これは、ピーク
値とそれに隣り合う2つの値の小さい方と比の値を用い
る。 (2)ピークの山の数を用いる場合、英語文字列の場合
は、ピークの山の数が2つである場合が多く、日本語文
字列の場合は、それよりも多い場合がほとんどである。 したがって、ピークの山の数を特徴量として用いて、日
英文字列の文字列の種類を識別する。 (3)ピーク値とそれに隣り合う値の大きい方と和を用
いる場合、前述した数値計算例では、ピーク値とその前
後の3つの頻度の和を計算するようにしていたが、ピー
ク値とそれに隣り合う値の大きい方との2つの和の値を
特徴量としてを用いるようにしてもよい。この場合は、
前述の例に比ベて計算量が少なくなる。
【0024】以上、説明したように、文字間の距離の頻
度テーブルから頻度分布データを作成し、この頻度テー
ブルによる頻度分布データを特徴量として抽出して、当
該特徴量により日英文字列の文字列の種類の識別を容易
に確実に行うことができる。
【0025】この実施例の説明では、日本語文字列およ
び英語文字列の2つのカテゴリに属する文字列の種類の
識別を、文字列領域の文字間距離の頻度分布データによ
って識別する識別手法の例を説明しているが、この識別
手法は、同様の特徴を持つ文字列領域の識別にも応用で
きる。例えば、英語のように単語で区切って文章を書く
欧米系の言語などと、日本語のように単語で区切らない
中国語,韓国語などの言語と識別することは同様に行え
る。
【0026】
【発明の効果】以上説明したように、本発明の文字列種
類識別装置によれば、文字列の文字間の特徴を抽出して
識別する。すなわち、文字間距離の頻度テーブルを作成
し、この頻度テーブルによる頻度分布データを特徴量と
して抽出して、この特徴量の抽出により文字列の種類の
識別を行う。このため、識別は特徴量の抽出により所定
の判定基準により容易に識別できるので、複雑な処理を
必要とすることなく簡単な処理で、しかも確実に文字列
の種類の識別が可能となる。
【図面の簡単な説明】
【図1】  図1は本発明の一実施例にかかる日英文字
列識別システムの要部の構成を示す処理部のブロック図
【図2】  図2は文字列領域ビットマップから文字
間距離を求める処理を説明する図、
【図3】  図3は文字間距離抽出部が英語文字列の文
字列領域ビットマップから文字間距離を求める処理例を
説明する図、
【図4】  図4は求めた文字間距離から作成された英
語文字列の文字間距離の頻度テーブルの一例を示す図、
【図5】  図5は英語文字列の文字間距離の頻度テー
ブルの頻度分布データをグラフ表示した一例を示す図、
【図6】  図6は日本語文字列の文字領域から求めた
文字間距離により作成された文字間距離の頻度テーブル
の一例を示す図、
【図7】  図7は日本語文字列の文字間距離の頻度テ
ーブルの頻度分布データをグラフ表示した一例を示す図
である。
【符号の説明】
1…文字列領域ビットマップ、2…日/英判定結果、1
1…文字間距離抽出部、12…距離頻度テーブル作成部
、13…特徴抽出結果判定部、21…文字列領域ビット
マップ、22…文字間距離、31…文字列領域ビットマ
ップ、32…文字間距離のデータ列、41…文字間距離
頻度テーブル、61…文字間距離頻度テーブル。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  文書を画像形態で入力し、入力した文
    書画像を文字領域および図形領域に分割し、分割したそ
    れぞれの領域に対して認識処理を行う文書認識装置にお
    いて、領域を分割する切り出し処理により得られた文字
    領域のビットマップ文字列領域から文字間隔の距離を抽
    出する文字間距離抽出手段と、抽出した文字間距離を基
    に文字間距離の頻度分布データを生成する頻度分布デー
    タ生成手段と、この頻度分布データに基いて文字列の種
    類の識別を行う文字列種類識別手段とを備えたことを特
    徴とする文字列種類識別装置。
JP3146514A 1991-05-23 1991-05-23 文字列種類識別装置 Pending JPH04346189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3146514A JPH04346189A (ja) 1991-05-23 1991-05-23 文字列種類識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3146514A JPH04346189A (ja) 1991-05-23 1991-05-23 文字列種類識別装置

Publications (1)

Publication Number Publication Date
JPH04346189A true JPH04346189A (ja) 1992-12-02

Family

ID=15409366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3146514A Pending JPH04346189A (ja) 1991-05-23 1991-05-23 文字列種類識別装置

Country Status (1)

Country Link
JP (1) JPH04346189A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (ja) * 2008-04-11 2009-11-05 Nhn Corp ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
EP0543598B1 (en) Method and apparatus for document image processing
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
US5410611A (en) Method for identifying word bounding boxes in text
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3452774B2 (ja) 文字認識方法
JP2713622B2 (ja) 表形式文書読取装置
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
JPH05242292A (ja) 分離方法
JPH06214983A (ja) 文書画像の論理構造化文書への変換方法および装置
JPH04346189A (ja) 文字列種類識別装置
Kaur et al. TxtLineSeg: text line segmentation of unconstrained printed text in Devanagari script
JP3064508B2 (ja) 文書認識装置
JP2887823B2 (ja) 文書認識装置
JP2582611B2 (ja) マルチフオント辞書の作成法
JP3243389B2 (ja) 文書識別方法
JPH0415776A (ja) 文字のサイズ情報抽出方法
JPH0728934A (ja) 文書画像処理装置
JPH03126188A (ja) 文字認識装置
JPH0433079A (ja) 表処理方式
JPH04312162A (ja) 文字列抽出装置
JPS62184580A (ja) 文書清書装置
JPH0589279A (ja) 文字認識装置
JPS6327990A (ja) 文字認識方法