JPH1055411A - フォント識別装置 - Google Patents

フォント識別装置

Info

Publication number
JPH1055411A
JPH1055411A JP8226070A JP22607096A JPH1055411A JP H1055411 A JPH1055411 A JP H1055411A JP 8226070 A JP8226070 A JP 8226070A JP 22607096 A JP22607096 A JP 22607096A JP H1055411 A JPH1055411 A JP H1055411A
Authority
JP
Japan
Prior art keywords
font
stroke
character
image
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8226070A
Other languages
English (en)
Inventor
Tei Abe
悌 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8226070A priority Critical patent/JPH1055411A/ja
Publication of JPH1055411A publication Critical patent/JPH1055411A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 斜めのストロークを含む文字や多少のノイズ
が含まれる文字画像であっても,文字認識せずにそのフ
ォントを識別を効率的に,かつ高精度に可能にするこ
と。 【解決手段】 画像情報を入力し,その画像情報の中か
ら文字画像のみを抽出し,フォントを識別するフォント
識別装置において,文字画像中に明朝体に特徴的な横ス
トロークの右上部にある三角形の形状をした飾りを示す
セリフがあるか否かを判断し,セリフがあると判断した
文字を明朝体であると識別するフォント識別部104を
備えた。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は文字認識を行わずに
フォント識別を実現するフォント識別装置に関し,特
に,明朝体に特徴的な「セリフ」の抽出・識別を行う文
書再現に有用なフォント識別装置に関する。
【0002】
【従来の技術】従来における文字認識装置は文字画像を
認識し,その文字コードを出力するものである。これは
文字コードのみであり,その属性であるフォントは識別
されない。ところが,文書処理の高速化に伴い,文字コ
ードだけでなくフォント情報も必要となる。つまり,高
速化する文書処理においては,文字画像の認識によって
単に文字コードを求めるにとどまらず,そのサイズやフ
ォントなどの属性を求めることが要求される。
【0003】ところが,従来の文字認識装置において
は,入力画像中の文字パターンを認識し,その文字コー
ドを出力することは可能であるが,文字属性の一つであ
るフォントを識別し,その識別結果を出力することは困
難であった。
【0004】そこで,上記で述べたような不具合を解消
するものとして,たとえば特開平6−208649号公
報の『文字認識装置』が開示されている。これはランレ
ングスヒストグラムを用いた識別手法であって,水平方
向および垂直方向のランレングスヒストグラムのモード
(最頻値)によって横方向および縦方向における文字線
幅を推定し,これらの線幅の比により明朝体かゴシック
体かを判定するものである。
【0005】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の文字認識装置にあっては,水平・
垂直方向のランレングスヒストグラムのモード(最頻
値)により横および縦の文字線幅を推定し,これらの縦
と横の線幅比によりフォントを識別するため,たとえば
「中」や「田」などのように文字を構成するストローク
の多くが水平かあるいは垂直な垂線で,かつ画像にノイ
ズがない場合にのみ良好に識別することができない。す
なわち,高精度で,かつ効率のよい識別ができないとい
う問題点があった。
【0006】たとえば,斜めのストロークがあると,ラ
ンレングスヒストグラムのピークが誤ったところで出て
しまい,正しい線幅を検出することができない。これで
はほとんどの文字のフォントを識別することができない
ため,実用的ではないという問題点があった。
【0007】本発明は,上記に鑑みてなされたものであ
って,斜めのストロークを含む文字や多少のノイズが含
まれる文字画像であっても,文字認識せずにそのフォン
トを識別を効率的に,かつ高精度に可能にすることを目
的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係るフォント識別装置にあっては,画
像情報を入力し,その画像情報の中から文字画像のみを
抽出し,フォントを識別するフォント識別装置におい
て,前記文字画像中に明朝体に特徴的な横ストロークの
右上部にある三角形の形状をした飾りを示すセリフがあ
るか否かを判断し,セリフがあると判断した文字を明朝
体であると識別するフォント識別手段を備えたものであ
る。
【0009】すなわち,文字画像内に明朝体に特徴的な
セリフがあるか否かを判断し,セリフがあれば明朝体で
あると識別し,セリフがなければフォント不定を識別す
ることにより,非常に精度が高く,かつ効率よい識別が
可能となる。
【0010】また,請求項2に係るフォント識別装置に
あっては,前記フォント識別手段は,横に長いストロー
クを抽出するストローク抽出手段を備えているものであ
る。
【0011】すなわち,セリフの抽出の前段階として,
セリフは必ず長いストロークの右上部に存在するルール
に注目し,横に長いストロークを抽出することにより,
効率のよいセリフ抽出が可能となる。
【0012】また,請求項3に係るフォント識別装置に
あっては,前記フォント識別手段は,横に長いストロー
クのうち,細いストロークのみを抽出するためのストロ
ーク幅識別手段をさらに備えているものである。
【0013】すなわち,請求項2の横方向の長いストロ
ークの抽出において,幅の大きいストロークはゴシック
体か,あるいは明朝体のセリフのないストロークである
可能性が高いので,無効ストロークであるとみなし,以
後のセリフの抽出を行わないことにより,効率のよいセ
リフ抽出が可能となる。
【0014】また,請求項4に係るフォント識別装置に
あっては,前記フォント識別手段は,セリフの部分の画
像を抽出するセリフ抽出手段を備えているものである。
【0015】すなわち,請求項2で抽出されたストロー
クの右上部分の画像を抽出することにより,文字画像中
のすべての領域について調べる処理に対し,セリフの部
分の画像抽出が高精度で,かつ効率的に実現する。
【0016】また,請求項5に係るフォント識別装置に
あっては,前記フォント識別手段は,あらかじめ記憶さ
れているセリフの形を示す画像と抽出した画像とを比較
し,抽出した画像がセリフであるか否かを判定するセリ
フ判定手段をさらに備えているものである。
【0017】すなわち,あらかじめセリフの形を記憶し
ておき,それと請求項4で抽出された画像とを比べるこ
とにより,請求項4で抽出された画像がセリフか否かを
正確に判定することが可能になる。
【0018】
【発明の実施の形態】以下,本発明のフォント識別装置
について添付図面を参照し,詳細に説明する。
【0019】〔実施の形態〕 (実施の形態の構成)図1は,実施の形態に係るフォン
ト識別装置の構成を示すブロック図である。図におい
て,このフォント識別装置は,文書を2値画像として読
み込む画像入力部101と,画像データを蓄えておくメ
モリ102と,文書画像から文字画像のみを抽出する文
字切り出し部103と,フォントの識別を行うフォント
識別手段としてのフォント識別部104と,この装置全
体を統括的に制御する制御部105と,識別結果を出力
する結果出力部106とから構成されている。
【0020】さらに,フォント識別部104は,横方向
の長いストロークを抽出するストローク抽出手段として
のストローク抽出部107と,ストローク幅を判定する
ストローク幅判定手段としてのストローク幅判定部10
8と,セリフ部分の画像を抽出するセリフ抽出手段とし
てのセリフ抽出部109と,抽出した画像がセリフであ
るか否かを判定するセリフ判定手段としてのセリフ判定
部110とから構成されている。
【0021】(実施の形態の動作)次に,以上のように
構成されたフォント識別装置の動作について,図2〜図
5を参照しながら説明する。
【0022】図2および図3は,この実施の形態のフォ
ント識別動作を示すフローチャートである。
【0023】図において,まず,画像入力部101によ
り識別対象である原稿を画像情報としてメモリ102に
取り込む(S201)。続いて,文字切り出し部103
により文書画像から文字画像のみを抽出し,その外接矩
形の座標を求める文字矩形切り出し処理を実行する(S
202)。
【0024】さらに,処理対象とする文字番号を初期化
(i←1)し(S203),i番目の文字画像を取り出
し,処理対象とする(S204)。そして,フォント識
別部104のストローク抽出部107により,i番目の
文字矩形内の横に長いストロークをすべて抽出する(S
205)。次に,ストロークが抽出できたか否かを判断
する(S206)。
【0025】上記ステップS206において,ストロー
クが抽出できたと判断した場合,処理対象とするストロ
ーク番号を初期化(j←1)する(S207)。そし
て,j番目のストロークを取り出し,処理対象とする
(S208)。続いて,ストローク幅判定部108によ
り,j番目のストロークの太さが閾値よりも太いストロ
ークであるか否かを判断する(S209)。
【0026】上記ステップS209において,ストロー
ク幅判定部108があらかじめ設定された閾値よりも太
いストロークではないと判断した場合,j番目のストロ
ークの右上のセリフがあると思われる部分の画像をセリ
フ抽出部109により抽出する(S210)。
【0027】ここで,ストロークとセリフの画素の構成
例を図4に示す。図4に示すように,ストロークの右上
部分の黒画素を右端から順に走査し,その座標を保存す
ることにより,画像を抽出する。
【0028】なお,図4において,斜線部分は長い横ス
トロークを構成する黒画素,黒部分はセリフを構成する
黒画素,白部分はその他を構成する黒画素をそれぞれ示
している。
【0029】上記ステップS210が終了すると,次に
上記ステップS210でセリフ抽出部109によりが抽
出した画像がセリフであるか否かをセリフ判定部110
により判断する(S211)。
【0030】すなわち,この処理動作では図5に示す理
想的なセリフの形を用い,上記ステップS210で抽出
された画像と図5に示す画像(セルフの形)とのマッチ
ングを行い,その差があらかじめ定めておいた閾値以下
であればセリフであると判断する。
【0031】上記ステップS211において,抽出した
画像がセリフであると判断した場合,i番目の文字のフ
ォントを明朝体であると判定する(S212)。一方,
上記ステップS211において,抽出した画像がセリフ
ではないと判断した場合,ストローク番号jを1つイン
クリメントする(S213)。
【0032】そして,j番目のストロークがあるか否か
を判断する(S214)。ここで,j番目のストローク
があると判断した場合,上記ステップ208に戻る。一
方,j番目のストロークがないと判断した場合,i番目
の文字のフォントを不定であると判定する(S21
5)。
【0033】次に,上記ステップS212あるいはステ
ップS215を実行した後,文字番号i番目を1つイン
クリメントし(S216),i番目の文字があるか否か
を判断しする(S217)。ここで,i番目の文字があ
ると判断した場合,上記ステップS204に戻り,i番
目の文字がないと判断した場合,この処理動作を終了す
る。
【0034】〔実施の形態の効果〕したがって,以上述
べてきたように,この実施の形態によれば,文書画像の
文字のフォントを精度よく識別することが可能となり,
文書画像の再現にたいへん有用となる。特に,文字認識
を必要とせず,さらに特徴量として明朝体に特有なセリ
フの抽出・判定を行っているので,高速で,かつサイズ
の小さいプログラムを有するフォント識別装置を提供す
ることができる。
【0035】
【発明の効果】以上説明したように,本発明に係るフォ
ント識別装置(請求項1)によれば,文字画像内に明朝
体に特徴的なセリフがあるか否かを判断し,セリフがあ
れば明朝体であると識別し,セリフがなければフォント
不定を識別するため,非常に精度が高く,かつ効率よい
識別を実現することができる。
【0036】また,本発明に係るフォント識別装置(請
求項2)によれば,セリフの抽出の前段階として,セリ
フは必ず長いストロークの右上部に存在するルールに注
目し,横に長いストロークを抽出するため,効率のよい
セリフ抽出を実現することができる。
【0037】また,本発明に係るフォント識別装置(請
求項3)によれば,請求項2の横方向の長いストローク
の抽出において,幅の大きいストロークはゴシック体
か,あるいは明朝体のセリフのないストロークである可
能性が高いので,無効ストロークであるとみなし,以後
のセリフの抽出を行わないため,効率のよいセリフ抽出
を実現することができる。
【0038】また,本発明に係るフォント識別装置(請
求項4)によれば,請求項2で抽出されたストロークの
右上部分の画像を抽出するため,文字画像中のすべての
領域について調べる処理に対し,セリフの部分の画像抽
出を高精度で,かつ効率的に実現することができる。
【0039】また,本発明に係るフォント識別装置(請
求項5)によれば,あらかじめセリフの形を記憶してお
き,それと請求項4で抽出された画像とを比べるため,
請求項4で抽出された画像がセリフか否かを正確に判定
することができる。
【図面の簡単な説明】
【図1】実施の形態に係るフォント識別装置の構成を示
すブロック図である。
【図2】実施の形態に係るフォント識別動作を示すフロ
ーチャートである。
【図3】実施の形態に係るフォント識別動作を示すフロ
ーチャートである。
【図4】ストロークとセリフの画素構成例を示す説明図
である。
【図5】理想的なセリフの形を示す説明図である。
【符号の説明】
101 画像入力部 103 文字切り出し部 104 フォント識別部 105 制御部 107 ストローク抽出部 108 ストローク幅判定部 109 セリフ抽出部 110 セリフ判定部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 画像情報を入力し,その画像情報の中か
    ら文字画像のみを抽出し,フォントを識別するフォント
    識別装置において,前記文字画像中に明朝体に特徴的な
    横ストロークの右上部にある三角形の形状をした飾りを
    示すセリフがあるか否かを判断し,セリフがあると判断
    した文字を明朝体であると識別するフォント識別手段
    を,備えたことを特徴とするフォント識別装置。
  2. 【請求項2】 前記フォント識別手段は,横に長いスト
    ロークを抽出するストローク抽出手段を備えていること
    を特徴とする請求項1に記載のフォント識別装置。
  3. 【請求項3】 前記フォント識別手段は,横に長いスト
    ロークのうち,細いストロークのみを抽出するためのス
    トローク幅識別手段をさらに備えていることを特徴とす
    る請求項2に記載のフォント識別装置。
  4. 【請求項4】 前記フォント識別手段は,セリフの部分
    の画像を抽出するセリフ抽出手段を備えていることを特
    徴とする請求項1に記載のフォント識別装置。
  5. 【請求項5】 前記フォント識別手段は,あらかじめ記
    憶されているセリフの形を示す画像と抽出した画像とを
    比較し,抽出した画像がセリフであるか否かを判定する
    セリフ判定手段をさらに備えていることを特徴とする請
    求項4に記載のフォント識別装置。
JP8226070A 1996-08-09 1996-08-09 フォント識別装置 Pending JPH1055411A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8226070A JPH1055411A (ja) 1996-08-09 1996-08-09 フォント識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8226070A JPH1055411A (ja) 1996-08-09 1996-08-09 フォント識別装置

Publications (1)

Publication Number Publication Date
JPH1055411A true JPH1055411A (ja) 1998-02-24

Family

ID=16839346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8226070A Pending JPH1055411A (ja) 1996-08-09 1996-08-09 フォント識別装置

Country Status (1)

Country Link
JP (1) JPH1055411A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784146A (zh) * 2018-12-05 2019-05-21 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质
CN109784146B (zh) * 2018-12-05 2023-11-07 广州企图腾科技有限公司 一种字体种类识别方法、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
JP4031210B2 (ja) 文字認識装置、文字認識方法、及び記録媒体
JP2000181993A (ja) 文字認識方法および装置
JP2006338578A (ja) 文字認識装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP3099797B2 (ja) 文字認識装置
JPH1055411A (ja) フォント識別装置
JPH02293989A (ja) 文字認識装置
JPH0528319A (ja) 画像処理方法及び装置
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH0749926A (ja) 文字認識装置
JP3163698B2 (ja) 文字認識方法
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP3220226B2 (ja) 文字列方向判別方法
JP3411795B2 (ja) 文字認識装置
JPH0916715A (ja) 文字認識装置および方法
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JPH05174185A (ja) 日本語文字認識装置
JPH06231306A (ja) 文字認識装置
JPH10334188A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP3045086B2 (ja) 光学式文字読取方法および装置
JPH10134147A (ja) フォント識別装置およびそのフォント識別処理を記憶した記憶媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050315