JPH08123904A - 書体種類処理装置 - Google Patents

書体種類処理装置

Info

Publication number
JPH08123904A
JPH08123904A JP6256332A JP25633294A JPH08123904A JP H08123904 A JPH08123904 A JP H08123904A JP 6256332 A JP6256332 A JP 6256332A JP 25633294 A JP25633294 A JP 25633294A JP H08123904 A JPH08123904 A JP H08123904A
Authority
JP
Japan
Prior art keywords
character
typeface
type
contour line
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6256332A
Other languages
English (en)
Inventor
Kenji Hashimoto
賢治 橋本
Katsumi Murai
克己 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6256332A priority Critical patent/JPH08123904A/ja
Publication of JPH08123904A publication Critical patent/JPH08123904A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文書画像から切り出した文字領域に含まれる
書体の種類を形状に関する特徴類似度から識別すること
ができる書体種類処理装置を提供すること。 【構成】 画像データ入力手段1により得た文書画像デ
ータから文字領域切り出し手段2により文字領域を切り
出し、文字形状特徴抽出手段3により文字の形状に関す
る特徴量を得て、あらかじめ用意した各書体種類毎辞書
8と距離計算手段4を用いて類似度を計算し、得られた
類似度から書体種類判定手段5により書体種類を識別す
る。使用要求に応じて書体種類格納手段6により記憶装
置に格納、あるいは書体種類出力手段7により出力装置
に表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報処理装置において
デジタル化された画像データから対象となる文字領域を
切り出し、文字の形状に関する特徴量に基づいて書体の
種類を決定し、書体の種類に基づく輪郭線補正や文字形
状特徴量を抽出することを基本とした書体種類処理装置
に関するものである。
【0002】
【従来の技術】近年、計算機およびその周辺技術の発達
によりワードプロセッサやパーソナルコンピュータが普
及し、それにともなって特に文書を対象とした画像デー
タを計算機に入れたり出したりする、たとえばイメージ
スキャナやプリンターなどの入出力装置と総称される周
辺機器も発達してきた。この発達により、特にイメージ
スキャナやプリンターにおいては高解像度且つ高精細に
入出力が行える装置が開発製品化されている。この高解
像度化・高精細化にともない、文字フォントと総称され
る活字をデジタル化して計算機上で扱ったものが品質の
高い文字の入出力手段として使用され始めた。低解像度
の入出力装置しか存在しない時代においては、計算機上
で扱う文字は例えば縦横それぞれ24ドットの升目に収
まるようないわゆるドット表現されたものが文字フォン
トとして大半であったが、近年の高解像度入出力装置の
出現にともない文字の輪郭線を例えばスプライン等の曲
線式で表現するいわゆるアウトラインフォントと呼ばれ
る文字フォントの計算機上での扱い方が生まれてきた。
この輪郭線表現(アウトライン)により、文字として古
くから存在する代表的な例として明朝体やゴシック体等
の様々な書体(字体)が次々と計算機上のアウトライン
フォントへと転換してきている。これら文字フォントの
多種多様化とは別に、印刷技術の発達から様々な文書が
紙の上に印刷され、出版を始めとして膨大な文書を生み
出している。これら文書を計算機で扱うためにイメージ
スキャナ等で読み込んでデジタルイメージのまま文書画
像データとして保存したり、文字については文字認識と
呼ばれる技術を使用して文字を数字などの決まったコー
ドに変換して保存するという技術も研究開発されて発達
してきた。
【0003】
【発明が解決しようとする課題】しかしながら、これま
で研究開発されてきた文字認識と呼ばれる技術において
はイメージスキャナでの読み込み条件や取り込んだ対象
文書画像上のよごれや網掛けをはじめとする飾り等のノ
イズの影響など様々な要因からどのような文書に対して
も100%正確に文字をコードに変換することは現在の
ところ不可能であり、計算機での認識の後に人間の判断
による修正が必要となる場合がしばしばあった。また、
文字認識を行って文字をコードに変換してしまうと、も
ともとの文書での文字の字体や大きさ、位置・配置、飾
りといった情報を別個に扱わない限りもとの文書の情報
が失われてしまってもとの状態を再現することが不可能
となってしまい、場合によっては使用者が必要であった
かもしれない情報を失うことにもなる。これらの情報を
失わないためには、デジタルイメージとして文書画像を
取り込んだまま保存することが考えられるが、解像度が
高くなればなるほどデータの容量が増大し、インデック
ス等の付加情報を加えておかないと文書画像の中から必
要な部分のみを選択することも困難になる。
【0004】本発明は、このような従来の装置の課題を
考慮し、文書画像のデジタルデータから文字領域を切り
出し、文字領域における文字の書体を識別し、あらかじ
め用意した書体種類毎の輪郭線情報に基づいて修正を行
い、文書における文字に関する情報をできるだけ残した
まま格納、再生が行えるようにした書体種類処理装置を
提供することを目的とする。
【0005】
【課題を解決するための手段】上記課題を解決するため
に本発明の書体種類処理装置は、画像データから対象と
なる文字を含む文字領域を切り出し、文字領域に含まれ
る文字の形状に関する特徴量を抽出し、あらかじめ用意
した書体種類毎の特徴量との類似度を計算し、類似度に
基づいて書体の種類を識別し、書体の種類によってあら
かじめ用意された文字の輪郭線情報に基づく修正を行
い、文書中の文字を輪郭線として使用要求に応じて格納
または再生することができる構成にしたものである。
【0006】
【作用】本発明によれば、あらかじめ用意した書体種類
毎の特徴量との類似度計算から書体の種類を識別し、書
体の種類によってあらかじめ用意された文字の輪郭線情
報に基づいて文字の修正を行い格納あるいは表示するこ
とが可能である。すなわち、文字認識を行わずに書体の
種類のみを識別して格納形式を決定することで、文字の
誤認識を避けると共に格納は輪郭線の記述に従って行え
るので、たとえ高解像度の画像データであっても限られ
たデータ容量に押さえることが可能である。
【0007】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。
【0008】図1は、本発明の一実施例における書体種
類処理装置の機能ブロック図である。図1において、文
字を含んだ文書画像をたとえばイメージスキャナやビデ
オカメラのような画像取り込み装置を用いて入力し、画
像データ入力手段1によりデジタル値に変換する。この
画像データから文字領域切り出し手段2を用いて文字が
含まれる領域を切り出す。切り出した文字領域に含まれ
る文字の形状に対して、文字形状特徴抽出手段3を用い
て特徴量を抽出する。この特徴量とあらかじめ用意した
各書体種類毎特徴辞書8とから文字形状に関する特徴量
がどれだけ類似しているかを計算する距離計算手段4を
用いて類似度を計算する。計算結果の類似度をもとにし
て書体種類判定手段5を用いて文字領域に含まれる書体
の種類、たとえば明朝体であるとかゴシック体であると
かを識別する。識別結果を使用要求にあわせて、たとえ
ば書体種類格納手段6を用いて記憶装置に格納したり、
あるいは書体種類出力手段7を用いて出力装置に表示す
る。
【0009】図2は、本発明における文字識別手段によ
り識別した結果を用いて文字領域の文字の輪郭線修正を
行う書体種類処理装置の機能ブロック図である。図2に
おいて、画像データ入力手段21により文字を含んだ文
書画像をデジタル値に変換する。この文書画像データか
ら文字領域切り出し手段22を用いて文字が含まれる領
域を切り出す。切り出した文字領域に含まれる書体の種
類を書体種類識別手段23を用いて識別する。得られた
書体種類に応じて、あらかじめ用意した各書体種類毎輪
郭線情報27に基づいて文字輪郭線修正手段24を用い
て文字の輪郭線上のノイズ除去や欠落部分の補充といっ
た修正等の処理を行う。文字輪郭線の修正した結果を使
用者の要求にあわせて、たとえば文字輪郭線格納手段2
5を用いて記憶装置に格納したり、あるいは文字輪郭線
出力手段26を用いて出力装置に表示する。
【0010】図3は、本発明における書体種類毎の輪郭
線情報から書体種類毎の特徴辞書作成を行う書体種類処
理装置の機能ブロック図である。図3において、あらか
じめ用意した各書体種類毎輪郭線情報31から各書体種
類間共通項抽出手段32を用いて書体共通項33を抽出
する。抽出した書体共通項と各書体種類毎輪郭線情報と
から各書体独立特徴抽出手段34を用いて各書体種類毎
特徴辞書35を作成する。
【0011】図4は、本発明における文書画像から文字
領域を切り出す具体例である。対象となる文書をイメー
ジスキャナで取り込んだ例の画像41から、文字領域4
2を識別して切り出しているところである。この例で
は、文書中に絵やイメージスキャナの取り込み時の条件
から生じたノイズ等が混在している中で文字領域を切り
出している。文字とイラスト等の絵が一体となってしま
った文書では、あらかじめ絵の中に文字がある情報を与
えておいて切り出しを行うか、あるいは絵の中の文字に
ついては切り出しを行わないという規則を設けておくこ
とで、文字領域切り出しの誤りを極力避けるようにす
る。この例では白黒2値の例示であるが、実際にイメー
ジスキャナ等の画像入力装置で読み込む場合には、装置
の種類によって数階調から数十、数百階調、あるいはカ
ラー画像として読み込むことも可能であり、それらの階
調や色情報も正確な文字領域切り出しを行う上で適宜使
用することが可能である。例えば階調情報を使用すれ
ば、白黒2値の画像よりもより正確な輪郭線の情報が得
られる。
【0012】図5は、本発明における文書画像から文字
領域を切り出す際の手段を示す具体例である。文書画像
が白地に黒の文字で書かれたものであるとして、輪郭線
ごとに分解された集まり51から各輪郭線を最小包含す
る長方形52を抽出する。その抽出した全ての長方形の
集まりから面積の分布を求め、もとの画像を取り込んだ
際の画像入力装置の解像度に対して文字として形を形成
しうる特定の長方形の面積を閾値としてそれ以上の面積
の持つ長方形が存在する領域を文字領域として抽出す
る。閾値を設ける理由は、画像入力時の様々なノイズや
網掛け等の飾りによって小さい長方形が無数に検出され
る場合に文字領域としてそれらを抽出しないようにする
ためである。また例えば、ある一つの長方形の面積が他
と比較してあらかじめ定めておいた閾値を越えるような
場合、その領域をイラストや罫線、飾り等の文字以外の
領域とするか、あるいは一つの大きな文字として個別に
扱う。輪郭線を包含する形として長方形を例にしている
が、例えば最小包含円であるとか正方形など他の形であ
ることも可能である。文字領域としての単位は、一つの
輪郭線毎、輪郭線において縦方向に長いものあるいは横
方向に長いものが連続する場合に接続あるいは切断して
正方形に近い形にしたもの、横方向あるいは縦方向につ
ながる一連の長方形群、さらには長方形重心間の位置関
係の相関を計算して文書自体が縦方向であるか横方向で
あるかを判定して段落等をひとまとめにしたものなどで
切り出すことが考えられる。ただし、書体種類を識別す
る上で同じ領域に違う書体種類が存在する場合に識別が
困難となるので、複数の長方形をまとまった形で切り出
す際には、長方形単位の輪郭線情報も同時に保存してお
き、領域内の違う書体種類の識別に利用する。輪郭線を
包含する最小かつ特定の形を持った図形の面積から文字
領域切り出しのための情報を得る例を示したが、文字領
域切り出しの方法として他に輪郭線領域の相関性や連続
性あるいは統計を用いる手法とか、あらかじめ用意した
文書画像データフォーマットの様々なパターンの辞書と
のマッチングを用いる手法など別の手法が可能である。
【0013】図6は、本発明における書体種類の具体例
である。ワードプロセッサやパーソナルコンピュータに
おけるディスプレイやプリンタなどの出力装置の高解像
度化にともなって、文字もドットデータとしての表現か
ら輪郭線(アウトライン)を数式などで表現することで
出力時にドットデータに展開する解像度に依存しないデ
ータ表現へと変化してきている。ここに示したのは代表
的な書体種類の例で、文字の成り立ちから名前がつけら
れている明朝体61、ゴシック体62、丸ゴシック体6
3、楷書体64である。この他にも名前が付けられてい
る例として、隷書体、行書体、草書体、教科書体、ナー
ル書体、創英書体、ポップ書体など多数存在する。ま
た、同じ書体名であっても文字の制作者によってそれぞ
れ特徴を持っており、固有の名前をつけて更に細かく分
類している場合もある。さらに同じ書体種類であって
も、ウエイトと呼ばれる線の太さが異なるボールド体や
全体を斜めにした通称イタリック体なども存在する。高
精細な出力装置の出現にともなって輪郭線表現された文
字フォント(アウトラインフォント)は、日本語の平仮
名やカタカナ、漢字の書体はまだ数百種類程度である
が、英語のアルファベットなどの書体については文字種
類数が26種と限られているために数千から数万種類に
及んでいる。ここでの対象は、日本語の平仮名、カタカ
ナ、漢字をあげているが、日本語の書体の中にはアルフ
ァベットや数字や記号も含まれており、同様の技術は英
語のアルファベットにおいても拡張使用可能である。
【0014】図7は、本発明における書体種類識別のた
めの文字領域に対する解析格子の例である。明朝体71
とゴシック体72の例を示している。デジタル化したデ
ータとして例えば白黒2値であった場合、解像度に応じ
て格子状のデータの集まりとして文字も表現されること
になる。解像度が高ければ高いほど、正確に文字の形状
を表現することが可能となる。解像度を例えば300[d
pi]というように規定していないが、文字としての形状
を保つために文字の大きさにたいする相対的な最低限の
解像度以上は必要である。このデジタル化したデータに
基づいて以降の識別を行う際の特徴抽出を行う。
【0015】図8は、本発明における文字形状特徴抽出
手段の具体例である。文字形状特徴抽出の一つの手法と
して、文字が占有する面積の方向成分の比を算出する方
法がある。成分比を求める2方向としては、画像をデジ
タル化した際の水平方向と垂直方向をそのまま使用する
81や、縦方向n横方向mの整数倍毎と縦方向m横方向
nの整数倍毎にポイントをとることで角度を直角に保っ
たまま方向成分を抽出する82や、縦方向n横方向mの
整数倍毎と縦方向p横方向qの整数倍毎にポイントをと
ることで角度を0°以外の自由に設定して方向成分を抽
出する83などがある。各方向への線密度の比率を特徴
量として抽出し、あらかじめ用意しておいた書体種類毎
の特徴量との類似度として計算を行い、書体種類の識別
を行う。代表的な例では、明朝体とゴシック体を識別す
る場合、明朝体の横方向の線分は縦方向に比べて細いの
が特徴なのに対してゴシック体の場合は横方向縦方向と
も線分の太さはほとんど変わらないのが特徴であり、垂
直方向と水平方向の成分比81を用いることで、識別が
可能となる。ただし、文書から画像データとして入力す
る際に入力条件によっては文字領域が必ずしも水平垂直
方向と一致せず傾きを持つ場合があり、このような状況
では文書画像の傾きを検出して補正するか、2方向を垂
直に保ったまま方向成分抽出の角度を自由に変化するこ
とができる82を併用することで、より正確な特徴抽出
と書体種類の識別を行うことが可能となる。ゴシック体
と楷書体を識別する際には、楷書体が斜め線を多く含ん
でいることから2方向が互いに垂直でなく自由に角度を
設定できる83を使用することで特徴に準じた角度設定
による方向成分比の特徴抽出を行うことができ識別の精
度も向上する。ゴシックと丸ゴシックなどの例のように
成分比のみでは識別するのが困難な場合、輪郭線の形状
特徴を成分比と併用することも可能である。例えば、輪
郭線として直線、円錐曲線、スプライン曲線などを直接
用いて比較する方法や、輪郭線からフーリエ記述子やチ
ェーンコードのような別の次元の特徴量に変換して比較
する方法などが考えられる。他に、文字輪郭線を最小包
含する図形にたいする文字占有領域の割合としての密度
や、2方向だけでなくて多方向の方向成分比を使用した
り、文字輪郭線の重心からの同心円特徴量、文字輪郭線
の中心線など様々な特徴量を識別のための類似度距離計
算として使用することが可能である。これら様々な特徴
量をあらかじめ階層的に記述しておいて、識別可能なレ
ベルを書体種類毎に設定しておき、識別対象となる文書
画像に含まれる書体種類が特定できるレベルまで特徴抽
出を階層的に行うことも可能である。
【0016】図9は、本発明における文字輪郭線修正手
段の具体例である。例えば91のようにコピーの繰り返
しなどにより文字のかすれや、ノイズや網掛けなどの飾
りなどによる文字の汚れなどが文書には存在する。この
文字にたいして書体種類識別手段を用いて識別を行い、
正確な輪郭線情報を得て文字のかすれにたいする補充9
2やノイズの除去93を行うことができる。この例で
は、文字「永」というような文字認識と同等の特定まで
行えている場合を示しているが、例えばゴシック体であ
ると種類の識別が行えただけの場合でも縦方向線分と横
方向線分の関係や輪郭線存在する部分的な歪みなどあら
かじめ用意した輪郭線情報では有り得ない状況の輪郭線
部分を用意した輪郭線情報に基づいて修正することがで
きる。また、正確には種類の識別が行えなかったとして
も、いずれかの書体種類であると特定しておくことで、
その輪郭線情報に基づく修正は可能である。この場合、
もとの文書画像中の書体種類情報の正確な復元は不可能
となるが、ノイズ除去やかすれ補充などの処理で可読性
が増した文書画像を得ることができるし、仮にあらかじ
め用意されていなかった文字の種類であっても対応する
ことが可能で格納や表示の際のデータ形式を確保するこ
とができる。さらに、文字をコードに置き換える文字認
識の前処理として書体種類をいずれかに特定しておくこ
とは、認識時の辞書選択などで有効であり、認識精度の
向上や認識処理の低減につながる。また、飾りやイラス
トなども別途輪郭線を抽出しておくことで、必要に応じ
て再生してやれば元の文書画像の情報をある程度損なわ
ずに格納再生が行える。
【0017】図10は、本発明における文字輪郭線格納
手段の具体例である。文字の輪郭線を特徴点と特徴点間
の線分で表現する方法で、輪郭線の線分の接線方向が連
続でない点すなわちコーナー点(角点)102と接線方
向は連続であるが線分の性質が直線から曲線に変化する
点(曲率が不連続であれば尖点)103と各点の間をつ
なぐ線分101とで表現される。輪郭線の形状によって
は、例えば円形など102や103の点が存在せずに線
分101のみで表現する場合もある。線分101として
は直線と曲線が存在するが、それぞれ個別にあるいは一
般的なスプライン曲線の場合など直線を一次の曲線とし
てまとめて扱うなど様々な表現が用途にあわせて可能で
ある。輪郭線から中心線104を抽出し、中心線にたい
する方向と厚みを別途記述する形式で文字輪郭線を間接
的に格納することも可能である。書体種類識別後の修正
においてあらかじめ用意する輪郭線情報では、文字を部
分的な部品にわけて文字の種類間で共通化して格納して
おいたり、輪郭線毎に分解して接続情報や禁則情報など
をあわせてもっておくことで修正時の補助情報を多くし
てより正確な輪郭線の修正を行うこともできる。
【0018】図11は、本発明における各書体種類間共
通項抽出手段の具体例である。例えば、各書体種類群1
11から中心線を抽出して、線分の端点や屈折点、接続
点などをグラフ112のように抽出する。例では、線分
の端点を○、線分が直角に曲がる点を●、線分が直角よ
りも大きい角度で折れる点を□、線分が直角より小さい
角度で折れる点を■、線分が枝分かれする点を△として
表現している。さらに細かく線分の枝分かれの方向と
か、折れる点での方向とかを4分割あるいはもっと多く
分割して表現することも可能である。この例では、楷書
体の横方向と縦方向が垂直では無いところが反映されて
いない。他の書体種類によっては上部の点がくっついて
いたり、はねの接続する部位が異なったりする。これら
は書体種類ごとに異なる特徴として抽出できるようにす
るとともに、共通項辞書のゆらぎとして定義しておく。
例えば文字コードにする場合、「永」と文字の共通項1
12から端点をa、線分が直角に折れる点をb、枝分か
れする点を(×,×…,×)、線分が直角よりも大きい
角度で折れる点c、線分が直角よりも小さい角度で折れ
る点をdとして、輪郭線毎に左上から右下の順に選択し
輪郭毎の区切りをスペースであけるとすると、113の
ように
【0019】
【数1】aa ab((a,a),ca) ada
【0020】
【数2】aa ab(a,a,ca) ada
【0021】
【数3】aa ab(a,(a,ca)) ada という表現への変換ができる。111の種類では(数
1)の例は無いが、なねの接続する位置が異なる場合に
は(数2)や(数3)のような例も存在する。さらに、
点がくっついてしまって輪郭線の数が3つから2つにな
る場合は、(数1)が変化したとすると、
【0022】
【数4】a(a,b((a,a),ca) ada (数4)のような表現も存在する。これらは、ゆらぎと
して全て共通項の範疇に扱うか、個別の特徴事項として
書体種類毎独立特徴の構造付随情報として扱うことが考
えられる。枝分かれを()で示したが、さらに枝分かれ
の方向を持った情報として(以外に[{<などを使い分
けて細分化することも可能である。ここの例では、ab
cというコードへの置き換えを示したが、数字や他のコ
ードで表現することも可能であり、分類する数が増えれ
ばそれに十分対応できるコードへの変換も必要となる。
文字の共通項112の情報から、各書体種類毎にそれぞ
れの輪郭線の形状に関する例えば線分の長さ、線分の太
さ、線分や特徴点の配置など独自の特徴となる情報を抽
出する。さらに、2方向の成分比などの書体種類識別の
ときに使用する特徴辞書を自動作成するための機能を設
けておくことで書体種類処理装置と一体となったシステ
ムを構成することができる。
【0023】なお、本発明の各手段は、コンピュータを
用いてソフトウェア的に実現し、あるいはそれら各機能
を有する専用のハード回路を用いて実現する事が出来
る。
【0024】
【発明の効果】以上説明したように本発明によれば、次
のような効果を得ることができる。
【0025】文書の画像データから切り出した文字領域
に対して書体種類の識別を行い、書体種類毎の輪郭線情
報に基づいてかすれの補充やノイズの除去を行うことで
可読性の高い文書画像が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例における書体種類処理装置の
機能ブロック図
【図2】本発明の一実施例における文字識別手段により
識別した結果を用いて文字領域の文字の輪郭線修正を行
う書体種類処理装置の機能ブロック図
【図3】本発明の一実施例における書体種類毎の輪郭線
情報から書体種類毎の特徴辞書作成を行う書体種類処理
装置の機能ブロック図
【図4】本発明の一実施例における文書画像から文字領
域を切り出す具体例
【図5】本発明の一実施例における文書画像から文字領
域を切り出す際の手段を示す具体例
【図6】本発明の一実施例における書体種類の具体例
【図7】本発明の一実施例における書体種類識別のため
の文字領域に対する解析格子の具体例
【図8】本発明の一実施例における文字形状特徴抽出手
段の具体例
【図9】本発明の一実施例における文字輪郭線修正手段
の具体例
【図10】本発明の一実施例における文字輪郭線格納手
段の具体例
【図11】本発明の一実施例における各書体種類間共通
項抽出手段の具体例
【符号の説明】
1 画像データ入力手段 2 文字領域切り出し手段 3 文字形状特徴抽出手段 4 距離計算手段 5 書体種類判定手段 6 書体種類格納手段 7 書体種類出力手段 8 各書体種類毎特徴辞書

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 画像データを入力しデジタル値に変換す
    る画像データ入力手段と、入力された画像データから文
    字が含まれる領域を抽出する文字領域切り出し手段と、
    切り出した文字領域に含まれる文字の形状に関する特徴
    量を抽出する文字形状特徴抽出手段と、文字の種類毎に
    あらかじめ用意された各書体種類毎特徴辞書と、文字の
    形状に関する特徴量がどれだけ類似しているかを計算す
    るための距離計算手段と、文字の形状に関する特徴量の
    類似度から文字の種類を判定する書体種類判定手段と、
    書体種類の判定結果を記憶装置に格納する書体種類格納
    手段と、書体種類の判定結果を出力装置に表示する書体
    種類出力手段とを備え、 前記画像データ入力手段によりデジタル値に変換した画
    像データから前記文字領域切り出し手段により文字が含
    まれる領域を抽出し、前記文字形状特徴抽出手段を用い
    て文字領域に含まれる文字の形状に関する特徴量を抽出
    し、前記距離計算手段と前記各書体種類毎特徴辞書を用
    いて文字の形状に関する特徴量が各書体種類に対してど
    れだけ類似しているかの度合いである類似度を計算し、
    前記書体種類判定手段を用いて距離計算結果である類似
    度から文字領域に含まれる文字の種類を判定し、使用要
    求に応じて書体種類の判定結果を前記書体種類格納手段
    により記憶装置に格納、あるいは前記書体種類出力手段
    により出力装置に表示することを特徴とする書体種類処
    理装置。
  2. 【請求項2】 画像データを入力しデジタル値に変換す
    る画像データ入力手段と、入力された画像データから文
    字が含まれる領域を抽出する文字領域切り出し手段と、
    切り出した文字領域に含まれる文字がどの種類の文字で
    あるかを識別する書体種類識別手段と、書体の種類毎に
    あらかじめ用意された各書体種類毎輪郭線情報と、文字
    の輪郭線情報に基づいて文字の輪郭線の修正を行う文字
    輪郭線修正手段と、文字の輪郭線を記憶装置に格納する
    文字輪郭線格納手段と、文字の輪郭線を出力装置に表示
    する文字輪郭線出力手段とを備え、 前記画像データ入力手段によりデジタル値に変換した画
    像データから前記文字領域切り出し手段により文字が含
    まれる領域を抽出し、前記書体種類識別手段を用いて文
    字領域に含まれる書体の種類を決定し、前記文字輪郭線
    修正手段と前記各書体種類毎輪郭線情報を用いて決定し
    た書体種類に対応する文字の輪郭線情報からデジタル化
    された文字の輪郭線に対する削除と補充の修正を行い、
    使用要求に応じて修正後の文字輪郭線を前記文字輪郭線
    格納手段により記憶装置に格納、あるいは前記文字輪郭
    線出力手段により出力装置に表示することを特徴とする
    書体種類処理装置。
  3. 【請求項3】 書体種類別にあらかじめ用意された各書
    体種類毎輪郭線情報と、書体種類間で共通する項目を抽
    出する各書体種類間共通項抽出手段と、各書体種類毎に
    独立して持っている特徴を抽出する各書体独立特徴抽出
    手段とを備え、 書体種類別の文字形状を表現する輪郭線情報を類別した
    前記各書体種類毎輪郭線情報から前記各書体種類間共通
    項抽出手段を用いて文字形状の各書体間での共通項を抽
    出し、文字形状の各書体間共通項と前記各書体種類毎輪
    郭線情報から前記各書体独立特徴抽出手段を用いて各書
    体種類毎に独立して持っている文字形状の特徴を抽出し
    各書体種類毎特徴辞書を作成することを特徴とする書体
    種類処理装置。
  4. 【請求項4】 文字領域として同じ種類の書体で構成さ
    れる文字だけが存在するように1文字あるいは複数の文
    字を含む領域を切り出す文字領域切り出し手段を備えた
    ことを特徴とする請求項1または請求項2いずれかに記
    載の書体種類処理装置。
  5. 【請求項5】 切り出した文字領域における画像データ
    の水平方向および垂直方向に存在するデータの成分比、
    あるいは異なる2方向以上から抽出したデータの成分比
    を特徴量として距離計算および書体種類判定を行うこと
    を特徴とする請求項1記載の書体種類処理装置。
  6. 【請求項6】 文字輪郭線情報から文字中心線情報を抽
    出し、文字中心線情報に基づく書体種類間での共通する
    項目を抽出する手段を備えたことを特徴とする請求項3
    記載の書体種類処理装置。
  7. 【請求項7】 文字輪郭線情報として特徴点情報と、特
    徴点間を結ぶ自由曲線情報との組み合わせで表現した情
    報で構成された各書体種類毎輪郭線情報をあらかじめ用
    意しておくか、あるいは標準データから付随情報として
    作成することを特徴とする請求項3記載の書体種類処理
    装置。
  8. 【請求項8】 画像データから切り出した文字領域の格
    納、あるいはその他のイラストなど文字以外の領域を格
    納するのに文字輪郭線情報で使用している方法と同等の
    輪郭線表現を用いることを特徴とする請求項1または請
    求項2いずれかに記載の書体種類処理装置。
JP6256332A 1994-10-21 1994-10-21 書体種類処理装置 Pending JPH08123904A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6256332A JPH08123904A (ja) 1994-10-21 1994-10-21 書体種類処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6256332A JPH08123904A (ja) 1994-10-21 1994-10-21 書体種類処理装置

Publications (1)

Publication Number Publication Date
JPH08123904A true JPH08123904A (ja) 1996-05-17

Family

ID=17291209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6256332A Pending JPH08123904A (ja) 1994-10-21 1994-10-21 書体種類処理装置

Country Status (1)

Country Link
JP (1) JPH08123904A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100658119B1 (ko) * 1998-12-16 2006-12-15 후지쯔 가부시끼가이샤 문자 인식 장치 및 방법
JP2012178647A (ja) * 2011-02-25 2012-09-13 Seiko Epson Corp 画像形成装置、および画像形成方法
CN111275049A (zh) * 2020-01-19 2020-06-12 佛山市国方识别科技有限公司 一种文字图像骨架特征描述符获取的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100658119B1 (ko) * 1998-12-16 2006-12-15 후지쯔 가부시끼가이샤 문자 인식 장치 및 방법
JP2012178647A (ja) * 2011-02-25 2012-09-13 Seiko Epson Corp 画像形成装置、および画像形成方法
CN111275049A (zh) * 2020-01-19 2020-06-12 佛山市国方识别科技有限公司 一种文字图像骨架特征描述符获取的方法及装置
CN111275049B (zh) * 2020-01-19 2023-07-21 佛山市国方识别科技有限公司 一种文字图像骨架特征描述符获取的方法及装置

Similar Documents

Publication Publication Date Title
US5784487A (en) System for document layout analysis
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
EP1999688B1 (en) Converting digital images containing text to token-based files for rendering
EP0543599B1 (en) Method and apparatus for image hand markup detection
KR100658119B1 (ko) 문자 인식 장치 및 방법
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5539841A (en) Method for comparing image sections to determine similarity therebetween
EP0738987B1 (en) Processing machine readable forms
US5828771A (en) Method and article of manufacture for determining whether a scanned image is an original image or fax image
US20020021840A1 (en) Apparatus for extracting ruled line from multiple-valued image
US20060018544A1 (en) Method and apparatus for detecting an orientation of characters in a document image
Pal et al. Identification of different script lines from multi-script documents
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JP2006092346A (ja) 文字認識装置、文字認識方法および文字認識プログラム
JP2009003937A (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
JPH01253077A (ja) 文字列検出方法
US5625710A (en) Character recognition apparatus using modification of a characteristic quantity
JPH08123904A (ja) 書体種類処理装置
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Suchenwirth et al. Optical recognition of Chinese characters
JPH0516632B2 (ja)
JP2005063055A (ja) 画像作成装置、画像作成プログラムおよびこのプログラムが記録された記録媒体
JP4259950B2 (ja) 画像認識装置、画像認識プログラムおよび記録媒体
JPH02202689A (ja) 文字認識装置