JPH04346189A

JPH04346189A - 文字列種類識別装置

Info

Publication number: JPH04346189A
Application number: JP3146514A
Authority: JP
Inventors: Norio Yamamoto; 紀夫山本
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1991-05-23
Filing date: 1991-05-23
Publication date: 1992-12-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字列種類識別装置に
関し、特に、光学的に文書画像を読み取り、文書の文字
列を認識する文書認識装置において、文書画像から切り
出された文字領域の文字列の種類の識別、例えば、英語
文字列／日本語文字列の識別を行う文字列種類識別装置
に関するものである。

【０００２】

【従来の技術】紙の上に記述された文書内容をデータ処
理において、テキストデータとして再利用できるように
するため、文書認識処理の技術は重要である。文書認識
処理における一般的な手法は、紙の上の文書をイメージ
スキャナ等で先ずイメージデータとして読み込み、次に
、文書画像を文字領域および図形領域に分割し、文字領
域に関しては、テキストデータへの変換処理を行うため
、文字認識処理が行なわれる。この場合、文字認識率を
向上させるため、文字認識処理に先立って、当該文字領
域が英語文字領域であるか、または日本語文字領域なの
かを識別する文字列種類の識別を行う。そして、例えば
、英語文字領域に対しては英文文字認識装置により文字
認識処理を行い、また、日本語文字領域に対しては和文
文字認識装置により文字認識処理を行う。

【０００３】従来、このような英語文字列／日本語文字
列の識別を行う識別手法としては、例えば、論文「Ａ．
Ｌａｗｒｅｎｃｅ　Ｓｐｉｔｚ，　“Ｒｅｃｏｇｎｉｔ
ｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ　ｆｏｒ　Ｍｕｌｔｉｌ
ｉｎｇｕａｌ　Ｄｏｃｕｍｅｎｔｓ”，　ｐｐ１９３〜
２０５，　ＥＰ９０　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　
ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅ
ｎｃｅ　ｏｎ　Ｅｌｅｃｔｒｏｎｉｃ　Ｐｕｂｌｉｓｈ
ｉｎｇ，　Ｄｏｃｕｍｅｎｔ　Ｍａｎｉｐｕｌａｔｉｏ
ｎ　＆　Ｔｙｐｏｇｒａｐｈｙ　Ｇａｉｔｈｅｒｓｂｕ
ｒｇ，　Ｍａｒｙｌａｎｄ，　Ｓｅｐｔｅｍｂｅｒ　１
９９０，　Ｅｄｉｔｅｄ　ｂｙ　Ｒ．　Ｆｕｒｕｔａ，
ＣＡＭＢＲＩＤＧＥ　ＵＮＩＶＥＲＳＩＴＹＰＲＥＳＳ
」に記載された日英文字列識別方法が知られている。こ
の日英文字列識別方法は、与えられた文字領域に関して
、縦方向および横方向に黒画素の頻度を射影し、その頻
度分布の特徴によって、文字領域の文字列の英語文字／
日本語文字の識別を行う方法である。

【０００４】

【発明が解決しようとする課題】しかし、上述のような
従来における日英文字列識別方法では、文字領域の黒画
素の縦横方向の頻度分布の特徴により、文字領域の文字
列の英語文字／日本語文字の識別を行うため、確実に識
別できない場合が多くあり、また、識別処理では縦方向
および横方向の２方向に黒画素の頻度を射影し、その頻
度分布の特徴により識別するため、処理が複雑となり、
簡単に識別基準が決定できないという問題点がある。

【０００５】本発明は、これらの問題点をを解決するた
めになされたものであり、本発明の目的は、文字領域の
文字列種類の識別を行うための特徴量の抽出が簡単であ
り、高い精度で文字列の識別を行うことができる文字列
種類識別装置を提供することにある。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
め、本発明の文字列種類識別装置は、文書を画像形態で
入力し、入力した文書画像を文字領域および図形領域に
分割し、分割したそれぞれの領域に対して認識処理を行
う文書認識装置において、領域を分割する切り出し処理
により得られた文字領域のビットマップ文字列領域から
文字間隔の距離を抽出する文字間距離抽出手段（１１）
と、抽出した文字間距離を基に文字間距離の頻度分布デ
ータを生成する頻度分布データ生成手段（１２）と、こ
の頻度分布データに基いて文字列の種類の識別を行う文
字列種類識別手段（１３）とを備えたことを特徴とする
。

【０００７】

【作用】文書認識装置では、文書を画像形態で入力し、
入力した文書画像を文字領域および図形領域に分割し、
分割したそれぞれの領域に対して認識処理を行う。文字
領域の認識処理において、まず、文字列種類の識別を行
う。文字間距離抽出手段（１１）は、入力した文書画像
の領域を分割する切り出し処理により得られた文字領域
のビットマップ文字列領域から文字間距離を抽出し、次
に、頻度分布データ生成手段（１２）が、抽出した文字
間距離を基に文字間距離の頻度分布データを生成する。文字間距離の頻度分布データは、例えば文字間距離頻度
テーブルが作成されて格納される。そして、次に文字列
種類識別手段（１３）が、この文字間距離頻度テーブル
に格納した頻度分布データに基いて文字列の種類の識別
を行う。

【０００８】文書の文字間距離は、文字列の種類の違い
により、例えば、英語文字列および日本語文字列の種類
の違いにより、それぞれ種類の違いの特徴は次のように
なっている。すなわち、英語文字列では文字間の距離の
分布が、文字（１単語内）の間の距離の集合と、単語間
の距離の集合とに２極化する。日本語文字列では文字間
の距離の分布が、各文字自体の間の距離は大きなバラツ
キはないが、漢字，ひら仮名，分離した文字（例えば文
字「化」のように２つの要素“イ”と“ヒ”に分かれる
文字），句読点などの文字形によって、ある程度に広く
分布する。

【００１３】したがって、このような英語文字列および
日本語文字列の文字間の特徴を抽出するため、文字間の
距離の頻度分布データを求めるため、頻度テーブルを作
成して頻度データを格納する。これにより、頻度テーブ
ルに頻度分布データが作成される。この頻度分布データ
を特徴量として抽出して識別する。このような特徴量の
抽出により、文字列種類の識別は所定の判定基準により
識別できるので、複雑な識別の処理を必要とすることな
く、簡単な処理により、しかも確実に英語文字列および
日本語文字列などの文字列種類の識別が可能となる。

【００１４】

【実施例】以下、本発明の実施例を図面を参照して具体
的に説明する。次の実施例の説明では、識別する文字列
の種類としては日本語文字列と英語文字列の２種類の識
別を行う文字列種類の識別システムの一例を説明する。図１は本発明の一実施例にかかる日英文字列識別システ
ムの要部の構成を示す処理部のブロック図である。図１
のブロック図は、そのまま同時に処理フローを示すもの
となっている。ここでの日英文字列識別システムは、光
学的に文字を読み取る文書認識システムの一部を構成す
るものであり、文書認識システムにおける前段階の処理
部から出力される文字領域を表す矩形ビットマップ文書
画像を入力として受け取り、日英文字列の識別処理を行
う。まず、受け取ったビットマップを縦方向に走査する
ことにより、文字および文字の構成要素の間の空白の長
さを求める。以後、この空白の長さを文字間の距離とす
る。更に文字間の距離の頻度テーブルを作成して、その
頻度テーブルから特徴量を計算し、この特徴量により日
本語文字列または英語文字列の識別を行う。

【００１５】図１において、文字間距離抽出部１１は、
文書画像処理の前処理を行う領域切り出し処理部によっ
て、得られる文字列領域ビットマップ１を入力データと
して受け取ると、領域のビットマップを文字列方向と垂
直な方向に走査し、各文字間の距離を求める。距離頻度
テーブル作成部１２は、文字間距離抽出部１１で得られ
た文字間の距離から頻度テーブルを作成する。そして、
次段の特徴抽出結果判定部１３は、文字間の頻度分布デ
ータから特徴量を算出する特徴量抽出の処理を行い、日
本語文字列および英語文字列の識別を行う。この識別は
、例えば、頻度分布データのピーク値を特徴量として変
換する数値計算処理を行い、日英文字列の判定を行う。または、頻度分布データのピーク値分布の２極化分布を
特徴量として変換する数値計算処理を行って、日本語文
字列および英語文字列の種類の判定を行う。これにより
、特徴抽出結果判定部１３から日／英判定結果２が出力
される。

【００１６】図２は、文字列領域ビットマップから文字
間距離を求める処理を説明する図である。図２に示すよ
うに、得られた文字列領域のビットマップを文字列方向
と垂直な方向に走査し、すなわち文字列領域ビットマッ
プ２１の各ビット列を上から下へ走査し、各々のビット
列について、黒画素が見つかった列については“１”の
フラグビットを立て、黒画素が見つからなかった列につ
いては“０”のフラグビットを立てる。各ビット列の順
次の処理の結果、例えば「１１１１１１００１１１１１
１００１１１１１１」のフラグビット列を得る。次に、
得られたフラグビット列における０の連続する個数をカ
ウントして、この数値を各々の文字間距離として求める
。図２に示す例では文字列領域ビットマップ２１の文字
列画像「ａｂｃ」から文字間距離２２として“２２”の
文字間距離のデータ列を得る。

【００１７】図３は、文字間距離抽出部が英語文字列の
文字列領域ビットマップから文字間距離を求める処理例
を説明する図である。また、図４は、求めた文字間距離
から作成された英語文字列の文字間距離の頻度テーブル
の一例を示す図であり、図５は、英語文字列の文字間距
離の頻度テーブルの頻度分布データをグラフ表示した例
を示す図である。

【００１８】図３に示すように、例えば、英語文字列「
Ｗｅ　ｒｅｍａｉｎ　ａｔ　ｙｏｕｒ　ｅｎｔｉｒｅ　
ｄｉｓｐｏｓａｌｆｏｒ　ｆｕｒｔｈｅｒ　ｉｎｆｏｒ
ｍａｔｉｏｎ」の文字列領域ビットマップデータ３１を
、文字間距離抽出部１１に入力し、入力された英語文字
列に対する文字間距離の抽出処理を行うと、その結果と
して、各々の文字間の距離“１８２１１２９８２４７２
１２８２２２１１１８３７１３１１２７３２２１１１２
２４”のデータ列３２が求められる。このデータ列３２
の数字列は、各々の文字間の距離、すなわち前述したフ
ラグビットの“０”の連続する個数を表している。この
データ列３２から、距離頻度テーブル作成部（１２；図
１）が、各々の文字間距離ごとの頻度分布をカウントし
て、図４に示すような文字間距離頻度テーブル４１を作
成する。このようにして作成された文字間距離頻度テー
ブル４１の頻度データを棒グラフ表示すると、例えば、
図５に示すような文字間距離の頻度グラフ（ヒストグラ
ム）が得られる。図５の棒グラフの例に示されるとおり
、英語文字列における文字間距離の頻度グラフでは、各
々の英語文字列の間の文字間のピーク値（文字間距離の
値が１または２の部分）と、複数の英語文字列を組合せ
た単語の間の文字間のピーク値（文字間距離の値が７〜
８の部分）との２極化されて分布することになり、この
ような頻度分布する文字列の種類は英語文字列と判定さ
れる。

【００１９】英語文字列および日本語文字列における文
字間距離の頻度分布データの特徴量の相互比較のため、
日本語文字列における文字列領域の場合の文字間隔距離
の頻度分布データの一例を示すと、それぞれ、図６およ
び図７のようになる。図６および図７は、それぞれ、日
本語文字列の文字間距離の頻度テーブルおよび頻度グラ
フを示している。このように、日本語文字列では、その
文字間距離の頻度分布データにおいて、ピーク値は小さ
いものとなり、その分布も偏在性はなく比較的に均一的
な分布となる。このため、文字間距離の頻度分布データ
において、例えば、ピーク値の大きさの判定により、英
語文字列と日本語文字列との識別が容易に行える。また
、ピーク値分布の２極化分布を判別しても、同様に英語
文字列と日本語文字列との種類の識別が容易に行える。

【００２０】また、文字間距離頻度テーブルの頻度分布
データから日本語文字列および英語文字列の種類の判別
を行う場合、例えば、その判別アルゴリズムは文字間距
離頻度テーブルの頻度分布データを利用した特徴量の数
値計算を行い判別することになるが、その判別手法の判
別アルゴリズムとしては様々の手法が利用できる。

【００２１】その一例を次に説明する。日英文字列領域
の文字間距離における相違点は、前述のように、日本語
文字列では、漢字やひら仮名などの様々な文字種によっ
て、文字間距離がある程度広く分布するのに対し、英語
文字列では、文字間と単語間で２極化することである。そこで、この特徴を反映するような特徴量を数値計算に
より求めて日英文字列の種類の判定を行う。この例の一
つとして、例えば、頻度分布データにおける１番目のピ
ーク値（その前後も加える）の山と、そのピーク値の山
として接続していない２番目のピーク値（その前後も加
える）との和の全体に対する割合を計算して特徴量とし
て用いる。

【００２２】前述した図示の例における文字列領域の頻
度分布データ（図４および図６）から当該特徴量を計算
すると、《英語文字列の場合》（１番目のピーク値）＝１３＋１３＋３＝２９　　　　
（２番目のピーク値）＝３＋４＋１＝８　　　　　　　
　　　　　（全体の値）＝３９　　　　（全体に対する
割合）＝｛（２９＋８）÷３９｝×１００＝９４．９％　　《日本語文字列の場合》（１番目のピーク値）＝１＋６＋０＝７　　　　（２番
目のピーク値）＝０＋４＋１＝５　　　　　　　　　　
　　（全体の値）＝２４　　　　（全体に対する割合）
＝｛（７＋５）÷２４｝×１００＝５０．０％このようにして得られた割合の値を特徴量として用いて
判定する場合、この特徴量からは、経験的に設定した閾
値（例えば７５％）によって容易に英語文字列と日本語
文字列との識別が可能となる。

【００２３】また、文字間距離頻度テーブルから抽出で
きる特徴量として、数値計算できる他の例として、次の
ような特徴量を用いることもできる。（１）ピーク値の先鋭度を用いる場合、これは、ピーク
値とそれに隣り合う２つの値の小さい方と比の値を用い
る。（２）ピークの山の数を用いる場合、英語文字列の場合
は、ピークの山の数が２つである場合が多く、日本語文
字列の場合は、それよりも多い場合がほとんどである。したがって、ピークの山の数を特徴量として用いて、日
英文字列の文字列の種類を識別する。（３）ピーク値とそれに隣り合う値の大きい方と和を用
いる場合、前述した数値計算例では、ピーク値とその前
後の３つの頻度の和を計算するようにしていたが、ピー
ク値とそれに隣り合う値の大きい方との２つの和の値を
特徴量としてを用いるようにしてもよい。この場合は、
前述の例に比ベて計算量が少なくなる。

【００２４】以上、説明したように、文字間の距離の頻
度テーブルから頻度分布データを作成し、この頻度テー
ブルによる頻度分布データを特徴量として抽出して、当
該特徴量により日英文字列の文字列の種類の識別を容易
に確実に行うことができる。

【００２５】この実施例の説明では、日本語文字列およ
び英語文字列の２つのカテゴリに属する文字列の種類の
識別を、文字列領域の文字間距離の頻度分布データによ
って識別する識別手法の例を説明しているが、この識別
手法は、同様の特徴を持つ文字列領域の識別にも応用で
きる。例えば、英語のように単語で区切って文章を書く
欧米系の言語などと、日本語のように単語で区切らない
中国語，韓国語などの言語と識別することは同様に行え
る。

【００２６】

【発明の効果】以上説明したように、本発明の文字列種
類識別装置によれば、文字列の文字間の特徴を抽出して
識別する。すなわち、文字間距離の頻度テーブルを作成
し、この頻度テーブルによる頻度分布データを特徴量と
して抽出して、この特徴量の抽出により文字列の種類の
識別を行う。このため、識別は特徴量の抽出により所定
の判定基準により容易に識別できるので、複雑な処理を
必要とすることなく簡単な処理で、しかも確実に文字列
の種類の識別が可能となる。

【図面の簡単な説明】

【図１】　　図１は本発明の一実施例にかかる日英文字
列識別システムの要部の構成を示す処理部のブロック図
、

【図２】　　図２は文字列領域ビットマップから文字
間距離を求める処理を説明する図、

【図３】　　図３は文字間距離抽出部が英語文字列の文
字列領域ビットマップから文字間距離を求める処理例を
説明する図、

【図４】　　図４は求めた文字間距離から作成された英
語文字列の文字間距離の頻度テーブルの一例を示す図、

【図５】　　図５は英語文字列の文字間距離の頻度テー
ブルの頻度分布データをグラフ表示した一例を示す図、

【図６】　　図６は日本語文字列の文字領域から求めた
文字間距離により作成された文字間距離の頻度テーブル
の一例を示す図、

【図７】　　図７は日本語文字列の文字間距離の頻度テ
ーブルの頻度分布データをグラフ表示した一例を示す図
である。

【符号の説明】

１…文字列領域ビットマップ、２…日／英判定結果、１
１…文字間距離抽出部、１２…距離頻度テーブル作成部
、１３…特徴抽出結果判定部、２１…文字列領域ビット
マップ、２２…文字間距離、３１…文字列領域ビットマ
ップ、３２…文字間距離のデータ列、４１…文字間距離
頻度テーブル、６１…文字間距離頻度テーブル。

Claims

【特許請求の範囲】

【請求項１】　　文書を画像形態で入力し、入力した文
書画像を文字領域および図形領域に分割し、分割したそ
れぞれの領域に対して認識処理を行う文書認識装置にお
いて、領域を分割する切り出し処理により得られた文字
領域のビットマップ文字列領域から文字間隔の距離を抽
出する文字間距離抽出手段と、抽出した文字間距離を基
に文字間距離の頻度分布データを生成する頻度分布デー
タ生成手段と、この頻度分布データに基いて文字列の種
類の識別を行う文字列種類識別手段とを備えたことを特
徴とする文字列種類識別装置。