JPH09319830A - フォント識別方法 - Google Patents

フォント識別方法

Info

Publication number
JPH09319830A
JPH09319830A JP8134917A JP13491796A JPH09319830A JP H09319830 A JPH09319830 A JP H09319830A JP 8134917 A JP8134917 A JP 8134917A JP 13491796 A JP13491796 A JP 13491796A JP H09319830 A JPH09319830 A JP H09319830A
Authority
JP
Japan
Prior art keywords
character
font
run length
target character
length histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8134917A
Other languages
English (en)
Inventor
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8134917A priority Critical patent/JPH09319830A/ja
Publication of JPH09319830A publication Critical patent/JPH09319830A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 斜めのストロークを含む文字や多少のノイズ
のある文字画像からでも、文字認識することなしにその
フォントを識別する。 【解決手段】 フォント識別部4内のランレングスヒス
トグラム処理部41は、画像全体の垂直方向のランレン
グスヒストグラムと、切り出された各文字のランレング
スヒストグラムを求める。特徴量計算部42は、それら
のランレングスヒストグラムの差分を求め、該差分を基
に各文字のフォント(明朝体かゴシック体)を識別す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識すること
なくフォントを識別するフォント識別方法に関する。
【0002】
【従来の技術】文字認識装置は、文字画像を認識し、そ
の文字コードを出力するものであり、その属性であるフ
ォントは識別されない。しかるに、高度化する文書画像
処理においては、文字画像の認識によって単に文字コー
ドを求めるにとどまらず、そのサイズやフォントなどの
属性を求めることが要求されている。
【0003】
【発明が解決しようとする課題】上記したように、従来
の文字認識装置は入力画像の文字パターンを認識して、
その文字コードを出力することは可能であるが、文字属
性の一つであるフォントを識別してその識別結果を出力
することは困難であった。
【0004】フォントを識別する装置としては、特開平
6−208649号公報に記載された文字認識装置があ
る。この装置では、識別手法としてランレングスヒスト
グラムを用いている。すなわち、水平方向および垂直方
向のランレングスヒストグラムのモード(最頻値)よっ
て横および縦の文字線幅を推定し、この線幅の比によっ
て明朝体かゴシック体かを判定する方法である。
【0005】しかし、この方法では、「中」や「田」等
のように文字を構成するストロークの多くが水平または
垂直な直線で、かつ画像にノイズがない場合でのみ識別
することができ、それ以外では精度よく識別できない。
例えば、斜めのストロークがあると、ランレングスヒス
トグラムのピークが誤った線幅で出力され、正しい線幅
を検出することができず、このため、多くの文字のフォ
ントが識別できないという問題がある。
【0006】本発明の目的は、斜めのストロークを含む
文字や多少のノイズのある文字画像からでも、文字認識
することなしにそのフォントを識別するフォント識別方
法を提供することにある。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、与えられた画像全体と、
該画像中の対象とする文字画像のそれぞれについて、所
定方向のランレングスヒストグラムを求め、それらの差
分(以下、特徴量)を基に前記対象文字のフォントを識
別することを特徴としている。
【0008】請求項2記載の発明では、前記対象文字画
像のランレングスヒストグラムを平滑化することを特徴
としている。
【0009】請求項3記載の発明では、前記対象文字の
特徴量を、該対象文字の前後の文字の特徴量を用いて平
滑化することを特徴としている。
【0010】請求項4記載の発明では、前記対象文字の
ランレングスヒストグラムの最頻値と、画像全体のラン
レングスヒストグラムの最頻値との差を基に前記対象文
字のフォントを識別することを特徴としている。
【0011】請求項5記載の発明では、前記対象文字の
フォント識別結果を、該対象文字の前後のフォント識別
結果を用いて修正することを特徴としている。
【0012】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例に係
るフォント識別装置の構成を示す。フォント識別装置
は、文書を2値画像として読み込む画像入力部1、画像
データを蓄積するメモリ2、文書画像から文字画像のみ
を抽出する文字切り出し部3、フォントを識別するフォ
ント識別部4、表示装置などの結果出力部5、全体を制
御する制御部6、データ通信路7から構成されている。
【0013】また、フォント識別部は、ランレングスヒ
ストグラムの作成やランレングスヒストグラムのモード
の計算を行うランレングスヒストグラム処理部41と、
ランレングスヒストグラムの差分から特徴量を求める特
徴量計算部42と、特徴量の平滑化を行う特徴量平滑化
部43と、識別結果修正部44から構成されている。
【0014】図2、3は、フオント識別処理のフローチ
ャートを示す。図2、3を用いて、本発明のフォント識
別処理を説明する。処理ステップ201では、画像入力
装置1により、識別対象である原稿を画像情報として本
装置内のメモリ2に取り込む。処理ステップ202で
は、文字切り出し部3は文書画像から文字画像のみを抽
出し、その外接矩形の座標を求める文字矩形抽出処理を
行う。
【0015】処理ステップ203では、ランレングスヒ
ストグラム処理部41は、切り出された全ての文字矩形
内の画像の垂直方向ランレングスヒストグラムを求める
(ノイズがないか、あるいはノイズの影響が大きくない
場合は、入力画像全体の垂直方向ランレングスヒストグ
ラムを求めるようにしてもよい)。この際、全ての大き
さについて求めると処理時間が増大するので、フォント
識別に有効である適当な大きさのランレングスまでのヒ
ストグラムを作成する。また、このランレングスヒスト
グラムは各値を全体の要素数で割る正規化を行う。
【0016】
【数1】
【0017】処理ステップ204では、フォント識別部
4は処理対象とする文字番号を初期化する。処理ステッ
プ205では、i番目の文字を取り出し、処理対象とす
る。処理ステップ206では、i番目の文字矩形の大き
さを計算し、閾値よりも大きいときは処理ステップ20
7に進み、小さいときは、処理ステップ208に進む。
【0018】処理ステップ207では、i番目の文字矩
形の垂直方向のランレングスヒストグラムを求める。処
理ステップ203で定めた大きさまでのランレングスヒ
ストグラムを求めこととする。また、処理ステップ20
3で行った正規化も行う。処理ステップ208では、処
理ステップ206で文字の大きさが閾値よりも小さいと
判断されたので、フォントを不定として、処理ステップ
211に進む。
【0019】処理ステップ209では、i番目の文字の
ランレングスヒストグラムを平滑化する。具体的には、
全てのrlについて、
【0020】
【数2】
【0021】のように、注目するランレングスヒストグ
ラムの両隣のテータを重みをかけて足し合わせ、重みの
合計で割る。処理ステップ210では、i番目の文字の
ランレングスヒストグラムと全体のランレングスヒスト
グラムの差分を求める。すなわち、
【0022】
【数3】
【0023】によって、各ランレングスヒストグラムに
ついて差の絶対値を求めて合計する。
【0024】処理ステップ211では、iを1だけイン
クリメントし、対象文字を一つ進める。処理ステップ2
12では、i番目の文字が存在するか否か確かめ、存在
すれば処理ステップ205へ、存在しなければ処理ステ
ップ213ヘ進む。
【0025】図3において、処理ステップ213では、
全ての文字のランレングスヒストグラムの差分の平滑化
を行う。今、n番目の文字のランレングスヒストグラム
の差分をCnとすると、
【0026】
【数4】
【0027】という式に従って、平滑化を行う。
【0028】処理ステップ214では、処理対象とする
文字番号を初期化する。処理ステップ215では、i番
目の文字を取り出し、処理対象とする。処理ステップ2
16では、i番目の文字のランレングスヒストグラムの
モード(最頻値)と全体のランレングスヒストグラムの
モードの差を求める。
【0029】処理ステップ217では、処理ステップ2
16で求めた差によって、 Mall−Mi≧th ただし、 Mall:全体のランレングスヒストグラムのモード Mi :i番目の文字のランレングスヒストグラムのモ
ード th :所定の閾値 が成立すれば処理ステップ218に、成立しなければ処
理ステップ221に進む。
【0030】処理ステップ218では、処理ステップ2
10で用いた式によってi番目の文字のランレングスヒ
ストグラムと全体のランレングスヒストグラムの差分を
求める。
【0031】処理ステップ219では、処理ステップ2
18で求めた差分が閾値より大きければ処理ステップ2
20に進み、小さければ処理ステップ221に進む。処
理ステップ220では、i番目の文字のフォントはゴシ
ック体と判定する。処理ステップ221では、i番目の
文字のフォントは明朝体と判定する。
【0032】処理ステップ222では、iを1だけイン
クリメントし、注目文字を一つ進める。処理ステップ2
23では、i番目の文字が存在するか否か確かめ、存在
すれば処理ステップ215に、存在しなければ処理ステ
ップ224に進む。
【0033】処理ステップ224では、識別結果修正部
44は識別結果をより正確なものとするために後処理を
行う。つまり、同じフォントの文字は固まって存在する
ことが多いので、前後の文字のフォントによって識別結
果を修正する処理である。基本的には明朝体(ゴシック
体)の一文字がゴシック体(明朝体)に挾まれた場合に
入れ替えを行う。図4は、フォントの入れ替えパターン
を示す。
【0034】但し、いずれの場合も入れ替える文字矩形
の信頼度とその前後(不定と識別された文字矩形は除
く)の文字矩形の信頼度の平均の差が閾値よりも大きい
時には上記の入れ替えは行わない。
【0035】このようにして全ての文字のフォントを精
度良く識別し、全体の処理を終了する。なお、本発明は
上記した構成に限定されるものではなく、上記フォント
識別部、文字切り出し部などは、プロセッサ上でソフト
ウェア処理によって実現してもよい。
【0036】
【発明の効果】以上、説明したように、請求項1記載の
発明によれば、対象文字と全体のランレングスヒストグ
ラムの差分を特徴量としているので、高精度に、また効
率良くフォントを識別することができ、文書画像の再現
に有用となる。また、本発明では文字認識を必要とせ
ず、また特徴量として、複雑な画像処理の必要のないラ
ンレングスヒストグラムを用いているので、高速で、プ
ログラムサイズが小さいフォント識別装置を実現するこ
とができる。
【0037】請求項2記載の発明によれば、対象文字の
ランレングスヒストグラムを平滑化し、画像のつぶれや
ノイズの影響を軽減できるので、高精度にフォントを識
別することができる。
【0038】請求項3記載の発明によれば、対象文字の
特徴量を対象文字の前後の特徴量を用いて平滑化してい
るので、同じフォントにも係らず一文字だけ大きく特徴
量の異なる文字が出現しても、それが誤って識別される
ことが防止される。
【0039】請求項4記載の発明によれば、対象文字と
全体のランレングスヒストグラムのモードをそれぞれ計
算し、もし対象文字のランレングスヒストグラムのモー
ドが全体のそれ以下の場合には、明朝体と識別すること
で、それ以降の処理を省くことができる。これによっ
て、効率的にフォントを識別することが可能になる。
【0040】請求項5記載の発明によれば、対象文字と
その前後の文字の識別結果によって結果を修正すること
ができる。これは、識別を誤ったとしても、予め定義さ
れたパターンの識別結果になったときには修正を施すこ
とができ、高精度にフォントを識別することが可能とな
る。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の処理フローチャートである。
【図3】図2の続きの処理フローチャートである。
【図4】フォントの入れ替えパターンを示す。
【符号の説明】
1 画像入力部 2 メモリ 3 文字切り出し部 4 フォント識別部 5 結果出力部 6 制御部 7 データ通信路

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 与えられた画像全体と、該画像中の対象
    とする文字画像のそれぞれについて、所定方向のランレ
    ングスヒストグラムを求め、それらの差分(以下、特徴
    量)を基に前記対象文字のフォントを識別することを特
    徴とするフォント識別方法。
  2. 【請求項2】 前記対象文字画像のランレングスヒスト
    グラムを平滑化することを特徴とする請求項1記載のフ
    ォント識別方法。
  3. 【請求項3】 前記対象文字の特徴量を、該対象文字の
    前後の文字の特徴量を用いて平滑化することを特徴とす
    る請求項1記載のフォント識別方法。
  4. 【請求項4】 前記対象文字のランレングスヒストグラ
    ムの最頻値と、画像全体のランレングスヒストグラムの
    最頻値との差を基に前記対象文字のフォントを識別する
    ことを特徴とする請求項1記載のフォント識別方法。
  5. 【請求項5】 前記対象文字のフォント識別結果を、該
    対象文字の前後のフォント識別結果を用いて修正するこ
    とを特徴とする請求項1記載のフォント識別方法。
JP8134917A 1996-05-29 1996-05-29 フォント識別方法 Pending JPH09319830A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8134917A JPH09319830A (ja) 1996-05-29 1996-05-29 フォント識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8134917A JPH09319830A (ja) 1996-05-29 1996-05-29 フォント識別方法

Publications (1)

Publication Number Publication Date
JPH09319830A true JPH09319830A (ja) 1997-12-12

Family

ID=15139563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8134917A Pending JPH09319830A (ja) 1996-05-29 1996-05-29 フォント識別方法

Country Status (1)

Country Link
JP (1) JPH09319830A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099507B2 (en) 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099507B2 (en) 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质
CN109784146B (zh) * 2018-12-05 2023-11-07 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US8525935B2 (en) Moving image processing apparatus and method, and computer readable memory
US7054485B2 (en) Image processing method, apparatus and system
US20070013791A1 (en) Tracking apparatus
US11281930B2 (en) System and method for object detection
US20220392240A1 (en) Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof
JP3099797B2 (ja) 文字認識装置
JP2003303346A (ja) 目標追跡方法、目標追跡装置、目標追跡プログラム、並びにこのプログラムを記録した記録媒体
JPH09319830A (ja) フォント識別方法
JP3985928B2 (ja) 画像処理方法、画像処理装置、文字認識装置及び記憶媒体
JPH02293989A (ja) 文字認識装置
JP2821303B2 (ja) 掠れ文字結合方式
JP3585143B2 (ja) 文字列抽出方法および装置
JP3848792B2 (ja) 文字列認識方法及び記録媒体
JP4111787B2 (ja) 行切り出し装置、行切り出し方法、プログラム及び記録媒体
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JPS63101983A (ja) 文字列抽出方式
JPH10124614A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP3600364B2 (ja) 文字切り出し方法及び装置
JP2859307B2 (ja) 文字切出し装置
JPH0528260A (ja) 輪郭ベクトル抽出方式
JP2001143076A (ja) 画像処理装置
JP3919390B2 (ja) 文字認識装置
CN114764916A (zh) 文本识别处理方法、装置及相关设备
JPH0498477A (ja) 文字切り出し方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040928

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050510