JP3823005B2 - Bitmap font creation device and document restoration device - Google Patents

Bitmap font creation device and document restoration device Download PDF

Info

Publication number
JP3823005B2
JP3823005B2 JP2000082156A JP2000082156A JP3823005B2 JP 3823005 B2 JP3823005 B2 JP 3823005B2 JP 2000082156 A JP2000082156 A JP 2000082156A JP 2000082156 A JP2000082156 A JP 2000082156A JP 3823005 B2 JP3823005 B2 JP 3823005B2
Authority
JP
Japan
Prior art keywords
character
font
bitmap
unique
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000082156A
Other languages
Japanese (ja)
Other versions
JP2001265317A (en
Inventor
勉 黒瀬
浩一 橋本
光昭 石戸谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Riso Kagaku Corp
Original Assignee
Riso Kagaku Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Riso Kagaku Corp filed Critical Riso Kagaku Corp
Priority to JP2000082156A priority Critical patent/JP3823005B2/en
Publication of JP2001265317A publication Critical patent/JP2001265317A/en
Application granted granted Critical
Publication of JP3823005B2 publication Critical patent/JP3823005B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ビットマップフォント、ビットマップフォントを作成する方法および装置、ビットマップフォントを構成するフォント文字を用いて文書を作成する方法および装置並びに前記フォント文字を用いて作成された文書の文字を認識する方法および装置に関するものである。
【0002】
【従来の技術】
従来、ユーザがパーソナルコンピュータ(以下パソコンという)やワードプロセッサ(以下ワープロという)で任意に作成した文書のデジタルデータ(各文字の文字コードおよび印字位置の情報)を保管しておいたり、持ち運んだりすることができる記録媒体(記憶媒体)として、フロッピーディスクやCD−ROMなどが広く知られている。この種の記録媒体に記録されている文書の内容は、記録媒体に対応する装置、例えばFDドライブ装置やCD−ROMドライブ装置などの読出装置を搭載したパソコンやワープロを用いることで誤りなく復元させることができる。
【0003】
ただし、保管状態にある多数の記録媒体の中から、所望の文書を記録した媒体を見つけ出す(いわゆる検索)ためには、パソコンやワープロを用いて、記録されている文書をファイル名を頼りに順次読み出して画面に表示して内容を確認する必要がある。しかしながら、このような方法は、作業効率が悪いという問題点がある。
【0004】
一方、持ち運び(ハンドリング)中の時間を利用して文書の内容を確認するためには、記録媒体とともに表示部を有する携帯型の読出装置を持ち歩くか、または該文書の印刷物(紙媒体)を持ち歩く必要がある。しかしながら、読出装置を持ち歩く方法では、見難くない程度の表示画面を備えた装置にすると持ち運ぶのに大きすぎたり重すぎたりするという問題があり、印刷物を持ち歩く方法では、記録媒体と印刷物との両方を管理(ファイル)する必要があり、二重管理が生じるという問題点がある。
【0005】
そこで、上述のような問題点を解決する一方法として、文書を印刷物でのみハンドリングすることとし、従来より提案されている種々の文字認識方法を用いて、前記印刷物の文字を認識することで、文書のデジタルデータを復元するということが考えられる。
【0006】
【発明が解決しようとする課題】
ところが、従来の文字認識方法では、100%の文字認識率を得ることは困難であり、文書のデジタルデータを誤りなく復元できるものではなく(復元率が100%にならない)、文書を印刷物でのみハンドリングするのでは文書管理の方法としては必ずしも十分ではないという問題がある。
【0007】
例えば、対象となる文書が、複数の文字パーツからなる漢字を含んでいたり、全角文字と半角文字とが混在していたりするようなものである場合、文字認識の前工程として行なう文字の切出し処理の際に1文字を誤りなく切り出すことができず、切出し処理を誤ることによって文字認識率が低下してしまう虞れがある。特に漢字は、1文字が複数の分離された偏(へん)や旁(つくり)などと呼ばれる部首から構成され、異なる文字において共通の部首が使われていたり、部首それ自体が単体で特定の文字を表すことがあったり、また例えば、‘一’は漢数字の“三”の一部でもあるが‘一’そのものでもあるように、文字パーツそれ自体が単体で特定の文字を表すこともあるために、切出し処理を誤りやすい。
【0008】
なお、文字の切出しの精度を上げるための方法も種々提案されてはいるが、その方法は、膨大なメモリが必要であったり、処理時間が長くなったりするという問題点がある。
【0009】
つまり、文書内容の確認や検索が容易にでき、またデジタルデータを誤りなく復元でき、さらに、二重管理という問題を生じることがない文書管理方法はいまだ確立されていないのが実状である。
【0010】
本発明は上記事情に鑑みてなされたものであり、上述した従来の問題点を解決することのできる文書管理方法を実現するのに好適なビットマップフォントを提供するとともに、該ビットマップフォントを作成する方法および装置、ビットマップフォントを構成する専用フォント文字を用いて文書を作成する方法および装置並びに前記専用フォント文字を用いて作成された文書の文字を認識する方法および装置を提供することを目的とするものである。
【0011】
【課題を解決するための手段】
本発明によるビットマップフォントは、多数の専用フォント文字から構成されたビットマップフォントであって、各専用フォント文字について、該専用フォント文字を構成する文字パーツの少なくとも1つが、該専用フォント文字以外の全専用フォント文字を構成する全文字パーツのいずれとも異なる固有文字パーツであることを特徴とするものである。
【0012】
ここで「文字パーツ」とは、文字成分を担持する画素(例えば黒画素)が所定範囲(例えば8近傍画素)内で互いに連結している画素の群からなるものを意味し、漢字における偏や旁などの部首とは異なるものである。なお、本願発明における「文字」は、図形や記号も含むものとする。
【0013】
「ビットマップフォント(bit-mapped font) 」とは、文字(記号や図形も含む;以下同様)の情報を、そのままの形状でドット表現した方式のフォントであり、文字の情報をコード化してなるコード化フォントと対応するものである。
【0014】
なお「専用フォント文字」の「専用」は、後述する「基礎フォント文字」の「基礎」との対比のために用いたものであって、「専用フォント文字」は、必ずしも、後述する文書データ作成方法および装置並びに文字認識方法および装置にのみ利用することができるというものではなく、該専用フォント文字を従来のフォント文字に置き換えて、文書作成などに利用してもかまわない。
【0015】
本発明によるビットマップフォント作成方法は、上記ビットマップフォント、具体的には前記固有文字パーツを有する専用フォント文字のビットマップを作成する方法であって、基礎ビットマップフォントを構成する基礎フォント文字を予め用意し、該基礎フォント文字を構成する文字パーツのビットマップに対して、下記1)〜4)のいずれかの方法による変形を加えることにより固有文字パーツを生成して、該固有文字パーツを有する専用フォント文字のビットマップを作成することを特徴とするものである。
【0016】
1)黒画素を付加する方法
2)前記文字パーツを構成する黒画素を白画素に変更する方法
3)前記文字パーツを構成する黒画素を8近傍画素にシフトさせる方法
4)1)〜3)のうち少なくとも2つの組み合わせによる方法
ここで「基礎フォント」とは、固有文字パーツを有する多数の専用フォント文字からなる本願発明に係るビットマップフォント以外のフォントであって、例えば従来のより通常用いられているフォントが相当する。
【0017】
上記において、黒画素あるいは白画素といったのは、文字成分が黒画素で表される黒文字のときを前提として表現したものであり、黒文字を反転した白抜き文字の場合には、上記黒画素あるいは白画素をそれぞれ反対にして考えるとよく、本願発明には、この白抜き文字の態様も含まれるものとする。
【0018】
上記ビットマップフォント作成方法において、基礎ビットマップフォントが予め得られていないときには、コード化フォントを構成するフォント文字のビットマップを作成してこの基礎ビットマップフォントを得るとよい。
【0019】
ここで「コード化フォント」とはビットマップフォント以外のフォントを代表して記述したものであり、ビットマップフォント以外のフォントである限り、必ずしもコード化フォントのみに限定されるものではない。
【0020】
本発明による文書データ作成方法は、上記ビットマップフォントを構成する専用フォント文字のビットマップデータを用いて文書のビットマップデータを作成することを特徴とするものである。なお、「文書」とは、少なくとも1つの文字からなる文字列を意味する。
【0021】
上記文書データ作成方法においては、文書を構成する各文字に対応する専用フォント文字の各ビットマップを、該ビットマップの基準点を各文字の文字位置基準点に対応させて順次配置することにより、文書のビットマップを作成するものとするのが望ましい。
【0022】
ここで「ビットマップの基準点を各文字の文字位置基準点に対応させて順次配置する」とは、要するに、印刷用紙上などの文字出力物上において、ワープロなどで作成した文書の文字レイアウトと同じになるように、各文字に対応する専用フォント文字を順に出力(例えば印刷)することを意味する。
【0023】
本発明による文字認識方法は、上記ビットマップフォントを構成する専用フォント文字のビットマップを用いて作成された文書のビットマップから文字を認識する文字認識方法であって、
ビットマップフォントを構成する各専用フォント文字の固有文字パーツと該固有文字パーツに対応する文字とを対応づけてなる文字パーツ照合用テーブルを予め用意し、
文書のビットマップから文字パーツを抽出し、抽出した文字パーツのビットマップと固有文字パーツのビットマップとを照合して、該抽出した文字パーツが固有文字パーツであるか否かを判定し、
抽出した文字パーツが固有文字パーツであるときには、該固有文字パーツに対応する文字を文字パーツ照合用テーブルから読み出すことを特徴とするものである。
【0024】
ここで固有文字パーツと固有文字パーツに対応する文字とを対応づける方法は、少なくとも固有文字パーツのみに基づいて対応する元の文字を復元することができる方法であればよく、例えばビットマップや文字コードなどを間に介在させる方法を用いてもよい。
【0025】
上記文字認識方法においては、さらに固有文字パーツに対応する文字の基準点を示す情報を固有文字パーツ相対位置データとして文字パーツ照合用テーブルに予め格納しておき、
抽出した文字パーツが固有文字パーツであるときには、該当する(該固有文字パーツに対応する文字の)固有文字パーツ相対位置データを文字パーツ照合用テーブルから読み出して、該読み出した基準点の、前記文書のビットマップ上における位置に応じて、文字パーツ照合用テーブルから読み出した固有文字パーツに対応する文字を配置するのが望ましい。
【0026】
ここで「読み出した基準点の、前記文書のビットマップ上における位置に応じて、文字パーツ照合用テーブルから読み出した固有文字パーツに対応する文字を配置する」とは、文書のビットマップ上つまり文字出力物上における専用文字パーツの基準点と固有文字パーツに対応する文字の基準点を対応づけて文書データを復元することを意味し、要するにワープロなどのデータ上において、復元した文書の文字レイアウトが元の文書の文字レイアウトと同じになるように、各固有文字パーツに対応する各文字のビットマップデータを配置することを意味する。
【0027】
本発明によるビットマップフォント作成装置は、上記ビットマップフォントを作成する装置であって、基礎ビットマップフォントを構成する基礎フォント文字のビットマップデータを記憶する基礎フォント文字記憶手段と、基礎フォント文字記憶手段から基礎フォント文字のビットマップデータを読み出して、該読み出したビットマップデータが表す基礎フォント文字を構成する文字パーツのビットマップに対して、下記1)〜4)のいずれかの方法による変形を加えることにより固有文字パーツを生成して、該固有文字パーツを有する専用フォント文字のビットマップを作成する専用フォント文字作成手段とを備えてなることを特徴とするものである。
【0028】
1)黒画素を付加する方法
2)前記文字パーツを構成する黒画素を白画素に変更する方法
3)前記文字パーツを構成する黒画素を8近傍画素にシフトさせる方法
4)1)〜3)のうち少なくとも2つの組み合わせによる方法
上記ビットマップフォント作成装置においては、コード化フォントを構成するフォント文字のビットマップを作成して基礎ビットマップフォントを生成する基礎ビットマップフォント生成手段を備えたものとするのが望ましい。
【0029】
本発明による文書データ作成装置は、専用フォント文字を用いて文書のビットマップデータを生成する装置であって、上記ビットマップフォントを構成する多数の専用フォント文字の各ビットマップデータを記憶する専用フォント文字記憶手段と、文書を構成する各文字に対応する専用フォント文字の各ビットマップデータを専用フォント文字記憶手段から読み出して、該読み出した専用フォント文字のビットマップデータを用いて文書のビットマップデータを作成する文書ビットマップデータ作成手段とを備えたことを特徴とするものである。
【0030】
上記文書データ作成装置においては、文字パーツ照合用テーブルを、さらに固有文字パーツに対応する文字の基準点を示す情報を固有文字パーツ相対位置データとして格納するものとし、
文書ビットマップデータ作成手段を、抽出した文字パーツが固有文字パーツであるときには、該当する固有文字パーツ相対位置データを文字パーツ照合用テーブルから読み出して、該読み出した基準点の、文書のビットマップ上における位置に応じて、文字パーツ照合用テーブルから読み出した固有文字パーツに対応する文字を配置するものとするのが望ましい。
【0031】
本発明による文字認識装置は、上記ビットマップフォントを構成する専用フォント文字のビットマップを用いて作成された文書のビットマップから文字を認識する文字認識装置であって、ビットマップフォントを構成する各専用フォント文字の固有文字パーツと該固有文字パーツに対応する文字とを対応づけてなる文字パーツ照合用テーブルと、
文書のビットマップから文字パーツを抽出し、抽出した文字パーツのビットマップと、固有文字パーツのビットマップとを照合して、抽出した文字パーツが固有文字パーツであるか否かを判定する固有文字パーツ判定手段と、
抽出した文字パーツが固有文字パーツであると判定されたとき、固有文字パーツに対応する文字を文字パーツ照合用テーブルから読み出す文字読出手段とを備えたことを特徴とするものである。
【0032】
上記文字認識装置においては、文字パーツ照合用テーブルを、固有文字パーツに対応する文字のビットマップの基準点を示す情報を固有文字パーツ相対位置データとして予め格納することにより、固有文字パーツのビットマップと該固有文字パーツに対応する文字の文字位置基準点とを対応づけるものとし、
文字読出手段を、抽出した文字パーツが固有文字パーツであるときには、該当する固有文字パーツ相対位置データを文字パーツ照合用テーブルから読み出して、該読み出した基準点の、文書のビットマップ上における位置に応じて、文字パーツ照合用テーブルから読み出した固有文字パーツに対応する文字を配置するものとするのが望ましい。
【0033】
【発明の効果】
本発明によるビットマップフォントによれば、該ビットマップフォントを構成する専用フォント文字は、それぞれ前記固有文字パーツを有するので、この専用フォント文字を用いて文書の各文字を用紙に印刷し、印刷された各文字を読み取って文字認識して元の文書を復元するという方法を取るに際して、好適なビットマップフォントにすることができ、結果として、文書を印刷物でのみ管理するという文書管理方法を確立することができる。
【0034】
具体的には、基礎フォント文字が固有文字パーツを有していないときには、基礎フォント文字の文字パーツを上記方法を用いて変形して固有文字パーツを生成し、この固有文字パーツを有する専用フォント文字を得、この専用フォント文字を用いてワープロなどで作成した文書データにしたがって各文字を用紙に印刷するなどすれば、専用フォント文字は基礎フォント文字の形状を多少変形したか若しくはそのままの形状であるので、文字の認識性を損ねるものではなく、印刷物などを見ただけで、ユーザは元の文書の内容を容易に確認できる。また、保管状態にあったり持ち運び中であったりしても、印刷物を確認するだけでよく、特定の装置を用いて文書内容を読み出す必要がない。
【0035】
一方、印刷物などから元のデータを復元するに際して、文字パーツを単位として固有文字パーツであるか否かを照合・判定し、専用フォント文字が有する固有文字パーツに対応する文字を照合用テーブルから読み出す、換言すれば、固有文字パーツにのみ基づいて元の文字を復元するようにすれば、従来の文字認識技術において誤認識の原因となる文字の切出し処理を行なう必要性がなく、文字の認識率を向上させることができ、結果として、文書のデジタルデータを正確に復元させることができる。
【0036】
また、専用フォント文字のビットマップの基準点を各文字の文字位置基準点に対応させて順次配置する、つまり、印刷用紙上などの文字出力物上において、文書の文字レイアウトと同じになるように各文字に対応する専用フォント文字を順に出力すれば、ワープロなどで作成した文書の元データと同じレイアウトで文書内容を確認することができる。
【0037】
また、このような印刷物を読み取って得た固有文字パーツに対応する文字のビットマップの基準点を各文字の文字位置基準点に対応させて順次配置する、つまり復元した文書の文字レイアウトが元の文書の文字レイアウトと同じになるように、各固有文字パーツに対応する各文字のビットマップデータを配置すれば、復元されたデジタルデータに基づいて再出力した画像上や印刷物上においても、元の文書とほぼ同じレイアウトでその内容を確認することができる。
【0038】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。
【0039】
図1は本発明の実施の形態によるビットマップフォント作成方法を実施する装置の構成を示すブロック図である。
【0040】
図1に示すように、このビットマップフォント作成装置1は、基礎ビットマップフォントを構成する基礎フォント文字のビットマップデータを記憶する基礎フォント文字記憶手段10と、読み出したビットマップデータが表す基礎フォント文字の、該基礎フォント文字を構成する文字パーツのビットマップに対して、後述する種々の方法を用いて変形を加えることにより固有文字パーツを生成して該固有文字パーツを有する専用フォント文字のビットマップを作成する専用フォント文字作成手段11とを備えている。
【0041】
ここで、専用フォント文字は、文字パーツ(本実施の形態では8近傍画素において隣接している黒画素群;他の基準を用いてもよい)の少なくとも1つが、ビットマップフォントの全文字中で唯一の形状、すなわちこの文字パーツによって該文字パーツを含む文字を特定することができる固有の形状をなす固有文字パーツを有するものである。
【0042】
この固有形状は、従来のフォント文字の文字パーツ自体が固有の形状をなしている場合もあるが、そうでないときには、従来のフォント文字を基礎フォント文字としてビットマップ化した後に、所定の文字パーツを選択し、この文字パーツに後述する種々の方法を用いて微小変形を加えることで作成することができる。このような微小変形は元の文字の印象を大きく損なわない程度のものであるので、この専用フォント文字を見れば元の文字を容易に認識することができ、この専用フォント文字を用いて作成された文書のビットマップデータに基づいて出力される印刷物を見るだけで、ユーザは元の文書内容を容易に確認できる。また、後述するように、該印刷物に基づいて復元される文字の認識率もほぼ100%にできるから、結果として、該印刷物を見るだけで復元される文書の内容を認識することもできる。
【0043】
次に、ビットマップフォント作成装置1によるビットマップフォントの作成方法、つまりビットマップフォントを構成する多数の専用フォント文字を作成する方法について、図2および図3(図2の続き)に示すフローチャートを参照して説明する。なお、図中、ステップ番号にはS印を付す。
【0044】
1)専用フォント文字作成手段11は、先ず、基礎フォント文字記憶手段10に格納されている、専用フォント文字の基礎となる特定のフォント(基礎フォント)、サイズ、およびスタイルを有する一般的な文字である基礎フォント文字のセット(フォントデータ)から、任意の1文字のデータを選択して読み出す(ステップ1)。
【0045】
本実施の形態においては、基礎フォント文字のセットとして、ひらがな、カタカナ、漢字を含み、文字サイズは7×7画素(ピクセル)、スタイルはノーマルのゴシックフォントの文字からなるものを使用している。また、本実施の形態においては、ステップ1における文字選択を、文字コードの小さい順に行なうようにしている。
【0046】
図4(a1)(b1)(c1)に、基礎フォント文字のビットマップデータの一例を示す。
【0047】
なお、基礎フォントがビットマップフォントでないときには、基礎ビットマップフォント生成手段を設けて、コード化フォントを構成するフォント文字の形状そのものが表されるように予めドット化(ビットマップ化)して基礎ビットマップフォントを生成し、生成した基礎ビットマップフォントを基礎フォント文字記憶手段10に格納しておくとよい。
【0048】
2)選択された基礎フォント文字のビットマップデータから、文字パーツを抽出し、順次文字パーツ番号を付与する(ステップ2)。
【0049】
例えば、図4(a1)(b1)(c1)に示すように、文字コードiに対応する基礎フォント文字「一」からは1つ(文字パーツ番号:j00)、文字コードiに対応する基礎フォント文字「二」からは2つ(文字パーツ番号:j10、j11)、文字コードiに対応する基礎フォント文字「三」からは3つ(文字パーツ番号:j20、j21、j22)の文字パーツがそれぞれ抽出される。
【0050】
さらに、基礎フォント文字の文字コードと、ステップ2において抽出された文字パーツ数、各文字パーツに付与された文字パーツ番号およびビットマップデータとの対応関係を示す情報テーブルを作成する(ステップ3)。また、このとき、固有文字パーツ判定フラグを「0(固有文字パーツでないことを意味する)」に初期化しておく。作成した情報テーブルの一例を図5に示す。なお、上記対応関係は、図5中の項目(a)〜(d)、および(f)に相当する。
【0051】
3)ステップ1〜3までの処理を全ての基礎フォント文字に対して行なう(ステップ4)。
【0052】
4)全ての基礎フォント文字に対する情報テーブルの作成が終了した後、基礎フォント文字のセットから1文字を選択する(ステップ5)。
【0053】
5)選択された基礎フォント文字の文字パーツを1つ選択する(ステップ6)。本実施の形態においては、この選択を、文字パーツ番号の小さい順に行なうようにしている。
【0054】
さらに、選択された文字パーツのビットマップデータを、図5に示す情報テーブルに格納されている、該文字パーツを除く全ての文字パーツのビットマップデータと比較し、黒画素群の配置が完全に一致している文字パーツの個数(以下同一形状文字パーツ数という)Nを抽出する(ステップ7)。
【0055】
さらに、同一形状文字パーツ数Nの情報を、情報テーブルに追加する(ステップ8)。この同一形状文字パーツ数Nの情情は、図5に示す情報テーブルの項目(e)に相当する。
【0056】
6)ステップ6〜8までの処理を、選択された基礎フォントの全ての文字パーツに対して行なう(ステップ9)。次いで、ステップ5〜9までの処理を、全ての基礎フォント文字に対して行なう(ステップ10)。
【0057】
7)全ての基礎フォント文字に対する情報テーブルへの情報追加が終了した後、基礎フォント文字のセットから1文字を選択する(ステップ11)。
【0058】
8)選択された基礎フォント文字が、固有形状の文字パーツ、具体的には同一形状文字パーツ数N=0である文字パーツを有しているか否かを、図5に示す情報テーブルに格納されている同一形状文字パーツ数Nの情報に基づいて判定する(ステップ12)。
【0059】
9)ステップ12において、固有形状の文字パーツを有していると判定された場合は、文字特定用の文字パーツ(本発明の固有文字パーツに相当)の設定を行なう(ステップ13)。
【0060】
具体的には、基礎フォントが固有形状の文字パーツを1つ有している場合、その文字パーツを固有文字パーツに設定し、固有文字パーツ判定フラグを「1」に修正する。例えば、図4(c2)に示すように、基礎フォント文字「三」については、番号j20の文字パーツを固有文字パーツに設定する。
【0061】
一方、基礎フォント文字が固有形状の文字パーツを複数有している場合は、それらのうちの1つを固有文字パーツに設定する。本実施の形態においては、文字パーツ番号が小さいものを、固有文字パーツに設定するようにしている。
【0062】
さらに、各文字パーツが固有文字パーツであるか否かを示す情報である固有文字パーツ判定フラグとともに、固有文字パーツであるものについては文字位置基準点の座標の復元を可能にする固有文字パーツ相対位置データを、図5に示す情報テーブルの項目(g)に追加する(ステップ14)。本実施の形態においては、図4(c2)中●で示す文字位置基準点の座標に対する、同図中△で示す固有文字パーツの外接四角形bにおける左上頂点画素の座標の相対的位置情報を固有文字パーツ相対位置データとしている。ここで、図5の項目(g)のデータ(x,y)において、xは主走査方向の相対位置、yは副走査方向の相対位置を示している。
【0063】
なお、図5の項目(g)の< >内に記載されたデータは、ステップ12において、固有文字パーツの設定が行なわれなかった文字パーツの固有文字パーツ相対位置データを参考値として示したものである。このデータは必ずしもここで求めておく必要はない。
【0064】
10)一方、ステップ12において、固有形状の文字パーツを有していないと判定された文字については、いずれかの文字パーツを、変形用文字パーツに設定する(ステップ16)。本実施の形態においては、同一形状文字パーツ数Nの最も少ない文字パーツを優先的に変形用文字パーツに設定するようにしている。ただし、同一形状文字パーツ数Nの最も少ない文字パーツが複数存在する場合は、文字パーツ番号が小さいものを変形用文字パーツに設定するようにしている。
【0065】
さらに、ステップ16において設定された変形用文字パーツに対し、変形可能画素を抽出して所定の変形を施す(ステップ17,18)。ここで、変形の方法としては、変形用文字パーツへの黒画素の付加(方法A)、変形用文字パーツを構成する黒画素の白画素への変更(方法B)、変形用文字パーツを構成する黒画素の8近傍画素へのシフト(方法C)およびこれらのうち少なくとも2つの組み合わせによるもの(方法D)などがあげられる。それぞれの変形方法における変形可能画素としての条件は、以下に示す通りである。なお、本実施の形態においては、1画素単位での変形を優先的に行なうことで、基礎フォント文字の印象が大きく損なわれないようにしている。また、抽出された変形可能画素のうち、座標がラスター順で小さいものから、黒画素への変更、白画素への変更または8近傍画素へのシフトを行なうようにしている。
【0066】
図6を参照して、方法A〜Bについての変形可能画素の条件を示す。
【0067】
<方法A>(図6(a)参照)
a)文字サイズに固有の領域a内の白画素
b)変形用文字パーツに8近傍画素において隣接している白画素
c)他の文字パーツに8近傍画素において隣接していない白画素
【0068】
<方法B>(図6(b)参照)
白画素への変更により変形用文字パーツを複数のパーツに分離させることがない該変形用文字パーツを構成する黒画素
【0069】
<方法C>(図6(c)参照)
a)シフトさせても文字サイズに固有の領域a内にある変形用文字パーツを構成する黒画素
b)シフトさせても変形用文字パーツを複数のパーツに分離させることがない該変形用文字パーツを構成する黒画素
c)シフトさせても他の文字パーツに8近傍画素において隣接することがない変形用文字パーツを構成する黒画素
【0070】
例えば、基礎フォント文字「一」については、番号j00の文字パーツを変形用文字パーツに設定し、方法Aを用いて、図4(a2)の△で示す画素が黒画素となるようにビットマップデータを変形する。
【0071】
また、基礎フォント文字「一」については、番号j10の文字パーツを変形用文字パーツに設定し、方法Aを用いて、図4(b2)の△で示す画素が黒画素となるようにビットマップデータを変形する。
【0072】
11)変形用文字パーツの変形後のビットマップデータと、図5に示す情報テーブルに格納されている全ての文字パーツのビットマップデータとを比較し、固有形状であるか否かを判定する(ステップ19)。固有形状であると判定された場合は、この変形用文字パーツを固有文字パーツに設定する。具体的には、情報テーブルの、文字パーツのビットマップデータ、同一形状文字パーツ数および固有文字パーツ判定フラグの情報をそれぞれ変形後のものに修正する、つまり同一形状文字パーツ数Nを「0」にし、固有文字パーツ判定フラグを「0」から「1」に修正するとともに、変更後のビットマップデータに基づく固有文字パーツ相対位置データをステップ14と同様にして項目(g)に追加する。
【0073】
一方、固有形状でないと判定された場合は、ステップ17からステップ19までの処理を、変形の処理方法を変えて、変形用文字パーツの変形後の形状が固有であると判定されるまで繰り返し行なう。なお、設定された変形用文字パーツに上記方法A〜Dを用いて変形を施しても固有形状とならない場合は、変形用文字パーツを他の文字パーツに設定し直して、同様にステップ17からステップ19までの処理を行なう(ステップ20)。
【0074】
12)ステップ11以降の処理を、全ての基礎フォント文字に対して行なう(ステップ15)。
【0075】
13)各フォント文字について、設定された固有文字パーツを用いて専用フォント文字を作成する。具体的には、基礎フォント文字の固有文字パーツに設定される文字パーツ番号部分は設定された固有文字パーツを用い、それ以外は基礎フォント文字の文字パーツそのものを用いてビットマップデータを作成する。
【0076】
これにより、文字位置基準点の座標が基礎フォント文字の文字位置基準点の座標と同じ専用フォント文字のセットであるフォントデータが作成される。作成されたフォントデータは、例えばCD−ROMなどのコンピュータ読取り可能な媒体に記録して配布するとよい。図4(a3)(b3)(c3)に、漢数字「一」、「二」、「三」についての専用フォント文字のビットマップデータを示す。
【0077】
このように、上記方法を用いれば、簡単な方法で専用フォント文字のビットマップデータを作成することができる。
【0078】
次に、上述のようにして作成された専用フォント文字からなるビットマップフォントを用いて文書のビットマップデータを作成する、本発明に係る文書データ作成部を備えた文書作成装置、および文書作成装置により作成、出力された印刷物から文書のデジタルデータを復元する、本発明に係る文字認識部を備えた文書復元装置の一実施の形態について説明する。なお、この文書作成装置と文書復元装置とを合わせて、紙によるデジタル・インターフェース・システム(以下紙DIFシステムという)という。
【0079】
図7は文書作成装置の概略構成を示すブロック図、図8は文書復元装置の概略構成を示すブロック図、図9はパソコンやワープロなどで作成された文書原稿の一例を示す図である。
【0080】
文書作成装置2は、図7に示すように、文字情報抽出手段20と、専用フォント文字記憶手段31および文書ビットマップデータ作成手段32からなる文書データ作成部30と、プリンタなどの画像出力手段40とから構成されており、ユーザがパソコンやワープロで任意に作成した文書の各文字の文字情報のうち、文字コードおよび文字位置基準点の座標に応じて、専用フォント文字を用いて文書の印刷物50を作成し、出力するものである。
【0081】
文書データ作成部30を構成する専用フォント文字記憶手段31には、上述したビットマップフォント作成装置1により作成された専用フォント文字のビットマップデータ(フォントデータ)を格納するものである。なお、このデータの入手に際しては、例えば専用フォント文字のセットを記録したCD−ROMなどの媒体を不図示の読取装置で読み取って、読み取ったデータを専用フォント文字記憶手段31に記憶させるとよい。
【0082】
文書データ作成部30を構成する文書ビットマップデータ作成手段32は、ユーザがパソコンやワープロで任意に作成した文書の各文字の文字情報のうちの文字コードに応じて専用フォント文字記憶手段31に記憶されている所定の専用フォント文字のビットマップデータを読み出し、この読み出した専用フォント文字のビットマップデータを、各文字の文字情報のうち文字位置基準点の座標に応じて、元の文書の大きさに対応する全画素が白のデジタル画像の所定の位置に貼り付けることによって、専用フォント文字を用いた文書のビットマップデータを作成するものである。
【0083】
ここで、文字位置基準点の座標としては、文字サイズに応じて固有な領域内の所定の座標とすればよく、本例においては、図9中●で示す、各文字の周囲に点線を付した矩形領域a内の左上頂点画素の座標とする。なお、これに限らず、文字の基準位置を定めることができるかぎり、その他の座標を文字位置基準点の座標としてもよい。
【0084】
文書復元装置3は、図8に示すように、スキャナなどの画像入力手段60と、文書ビットマップデータ抽出手段70と、文字パーツ判定手段81、文字パーツ照合用テーブル82、および文字読出手段83からなる文字認識部80と、ラスタライザ手段90とから構成されており、上記文書作成装置2により作成、出力された印刷物50から、元の文書のデジタルデータをパソコンやワープロ上で復元させるものである。
【0085】
文字認識部80を構成する文字パーツ照合用テーブル82には、専用フォント文字のセットに含まれている全ての文字パーツのビットマップデータが、重複することなく、文字を特定可能な固有の形状を有するか否かを示す情報である固有文字パーツ判定フラグとともに格納されている。また、文字を特定可能な固有の形状を有する文字パーツ(固有文字パーツ)については、所定の文字コードおよび文字位置基準点の座標に対する該固有文字パーツの相対的位置情報である固有文字パーツ相対位置データが格納されている。文字パーツ照合用テーブル82の一例を図10に示す。
【0086】
文字認識部80を構成する文字パーツ判定手段81は、専用フォント文字を用いた文書のビットマップデータから、文字パーツを抽出し、抽出した文字パーツのビットマップデータと、文字パーツ照合用テーブル82に格納されている文字パーツのビットマップデータとの照合を行ない、抽出された文字パーツが固有文字パーツであるか否かを判定するものである。なお、ここで使用する文書のビットマップデータは、印刷物50を画像入力手段60で読み込み、文書ビットマップデータ抽出手段70で文書部分のビットマップデータを抽出することによって得られる。
【0087】
文字認識部80を構成する文字読出手段83は、抽出された文字パーツが固有文字パーツであると判定されたとき、固有文字パーツに対応する文字コードおよび固有文字パーツ相対位置データを文字パーツ照合用テーブル82から読み出すものである。
【0088】
次に、文書作成装置2および文書復元装置3からなる紙DIFシステムの作用について説明する。
【0089】
文書作成装置2では、以下のようにして専用フォント文字を用いて文書の印刷物50が出力される。
【0090】
1)先ず文字情報抽出手段20により、ユーザがパソコンやワープロで任意に作成した文書の各文字の文字情報のうち、文字コードおよび文字位置基準点の座標を抽出する(図9参照)。
【0091】
2)次に文書ビットマップデータ作成手段32において、各文字の文字コードに応じて、専用フォント文字記憶手段31に記録されている所定の専用フォント文字のビットマップデータを順次読み出す。そして、文書の各文字の文字位置基準点が配される用紙上の位置に該文字に対応する専用フォント文字の文字位置基準点が配されるように、元の文書の大きさに対応する全画素が白のデジタル画像の所定の位置に、読み出した専用フォント文字のビットマップデータを順次貼り付ける。これにより、専用フォント文字を用いた文書のビットマップデータD1が作成される。
【0092】
3)画像出力手段40は、専用フォント文字を用いた文書のビットマップデータD1に基づいて文書の印刷物50を100dpiで出力する。これにより、パソコンなどで作成した文書の元データと同じレイアウト(文字位置)で専用フォント文字が印刷される。
【0093】
なお、本実施の形態においては、後述する文書復元装置3の文書ビットマップデータ抽出手段70によって文書ビットマップデータを正確に抽出することができるように、文書の画像領域サイズおよび解像度に応じたスケール枠55を用紙の縁から数ミリ内側にかけて印刷するようにしている。図11に、このスケール枠55付きの専用フォント文字を用いた文書の印刷物50の一例を示す。なお、スケール枠に限らず、その他の基準位置を示す文字や記号を印刷するようにしてもよい。
【0094】
図11から判るように、専用フォント文字の一部(図では「一」や「二」)については元の文字(基礎フォント文字)に比べて形状が多少変形されているが、文字の認識性を損ねるものではなく、この印刷物50を見ただけで、ユーザは元の文書の内容を容易に確認できる。また、パソコンなどで作成した文書の元データと同じ位置に各文字が印刷されるので、元データと同じレイアウトで文書内容を確認することができる。
【0095】
したがって、文書情報をFDなどに記録して保存する形態をとれば文書内容の確認のための装置が必要とされるのに対して、本発明によれば、保管状態にあったり持ち運び中であったりしても、特定の装置を用いることなく、紙出力のみで文書の内容をユーザが認識できる。
【0096】
一方文書復元装置3では、以下のようにして専用フォント文字を用いた文書の印刷物50から元の文書のデジタルデータD1が復元される。
【0097】
1)画像入力手段60により、専用フォント文字を用いた文書の印刷物50を400dpiの多値画像データとして読み込む。また、文書ビットマップデータ抽出手段70により、この多値画像データから、該印刷物50のスケール枠55内に存在する100dpiの文書ビットマップデータを抽出する。
【0098】
なお、画像入力手段60による印刷物50の読み込みの際には、印刷物50の文字レイアウトに合わせて読み込むようにする。具体的には、図11に示す印刷物50を読み込む場合には、印刷物50の左上を走査原点として、右方向を主走査方向、下方向を副走査方向として読み取ることとする。読取り方向がこれとは異なる場合には、画像データ上で適当な回転処理を行った後に後述する各処理を行なうようにする。
【0099】
なお、本実施の形態においては、上述のように印刷物50にはスケール枠55が印刷されている。スケール枠55と印刷文字との相対位置は原稿画像を忠実に再現するものであり、印刷物が多少天地左右にずれて画像入力手段60により斜めに読み取られても、周知の位置ズレ補正方法を用いてこの相対位置に基づいて画像データ上で位置ズレを補正することにより、位置ズレのない文書ビットマップデータを抽出することができ、結果として正確な文字認識が可能となる。つまり、スケール枠55は文書ビットマップデータを抽出する際の位置決め用のデータとして機能するものである。
【0100】
2)文字パーツ判定手段81により、全ての文字パーツを抽出し、抽出した各文字パーツのビットマップデータを、文字パーツ照合用テーブル82に記録されている文字パーツのビットマップデータと照合し、固有文字パーツ判定フラグの情報から各文字パーツが固有文字パーツであるか否かを判定する。なお、本実施の形態においては、この照合の際に、一般的に知られているハッシュ法を採用している(例えば、「アルゴリズムC」 第2巻:R.セジウィック著:近代科学社を参照)。勿論、ハッシュ法以外の方法を用いて照合してもかまわない。
【0101】
3)文字読出手段83は、固有文字パーツでないと判定されたものについては無視する。これにより、同じ形状を有する文字パーツについては、文字コードが対応づけられていないから、不要な文字が復元されることはない。
【0102】
一方、固有文字パーツであると判定されたものについては、文字パーツ照合用テーブル82から固有文字パーツに対応する文字コードおよび固有文字パーツ相対位置データを読み出す。さらに、この固有文字パーツ相対位置データに基づいて、文字位置基準点の座標を復元する。具体的には、図12に示すように、図中△で示す固有文字パーツの外接四角形bにおける左上頂点画素の画像データ上(ラスタ上)における主走査方向および副走査方向の各位置(座標)と、固有文字パーツ相対位置データが示す相対位置情報とに基づいて、図中aで示す矩形領域の左上部の●で示す文字位置基準点の、画像データ上(ラスタ上)における主走査方向および副走査方向の各位置を求める。これにより文字位置基準点の座標が復元される。
【0103】
4)ラスタライザ手段90により、求められた文字位置基準点の座標の画像データ上(ラスタ上)における走査位置の走査順(ラスター順)で小さいものから順に、文字コードを並べる。
【0104】
これにより、文字コードの記述からなる、元の文書のデジタルデータを、パソコンやワープロ上で正確に復元させることができる。つまり、文字(本例では文字コード)の復元は専用フォント文字中の固有文字パーツのみに基づいて行っており、しかも専用フォント文字の形状そのものではなく、文字パーツを単位として固有文字パーツであるか否かを照合・判定し、固有文字パーツに対応する文字コードを参照して文字を特定することにしているので、従来の文字認識技術において誤認識の原因となる文字の切出し処理を行なう必要性がなく、文字の認識率を向上させることができ、結果として、文書のデジタルデータを正確に復元させることができる。なお、文字コードを参照して文字を特定するので、固有文字パーツが基礎フォントの文字パーツを変形したものである場合においても、変形の態様に左右されることなく一義的に文字を特定することができる。
【0105】
また、文字の基準位置情報も含めて復元するようにしているので、文字が配されるべき位置についても正確に復元することができ、復元されたデジタルデータに基づいて再出力した画像上や印刷物上においても、元の文書とほぼ同じレイアウトでその内容を確認することができる。
【0106】
以上説明したように、上記実施の形態による紙DIFシステムにおいては、文書作成装置2において作成された専用フォント文字を用いた文書の印刷物50を見ただけで、ユーザは文書の内容を容易に確認できるし、また、文書復元装置3において、専用フォント文字を用いた文書の印刷物50から、元の文書をパソコンやワープロ上で正確に復元させることができる。
【0107】
したがって、本発明を文書管理の方法として利用することによって、文書情報を紙出力のみで管理することができるようになるので、文書内容の確認や検索が容易にでき、また文書のデジタルデータを誤りなく復元でき、さらに、二重管理という問題を生じることがない文書管理方法を確立することができる。
【0108】
なお、上記実施の形態においては、文字パーツ照合用テーブル82に、専用フォント文字のセットに含まれている全ての文字パーツのビットマップデータやその他の情報を重複することなく格納するものとしているが、文字データの復元という点においては、固有文字パーツ以外は必ずしも必要なものではなく、固有文字パーツのみの情報を格納するようにしてもよい。
【0109】
また、上記実施の形態においては、全角文字のみで構成されている文書を例に説明したが、全角文字と半角文字とが混在する文書に対しても、全ての文字が固有文字パーツを備えるように専用フォント文字のビットマップデータを作成することで、同様の効果を得ることができる。
【0110】
また、上記実施の形態においては、1つの基礎フォント文字のセットを利用した固有文字パーツに対応する文字コードおよび文字の位置の情報を復元するようになっているが、固有文字パーツの種類を増やすことで、スタイル(書体)やサイズに応じて固有文字パーツを設定することもできる。こうすれば、文書作成装置で作成されたビットマップデータは、スタイル(書体)やサイズなども含めて、元の文書原稿をより忠実に反映するものとなる。これらの文字情報のうち何を固有文字パーツから得られるようにするかは、生成されるビットマップデータの原稿に対する忠実さの度合いと、専用フォント文字記憶手段の容量とのバランスによって決めれば良い。
【0111】
さらに、上記実施の形態においては、1つの文字について1つの固有文字パーツを設定するものとして説明したが、1つの文字について複数の固有文字パーツを設定してもよい。この場合、同一文字についての文字コードと位置情報が各固有文字パーツに対応づけられているので、いずれの固有文字パーツに基づいて文字を復元しても、元の文字を確実に復元できる。なお、復元位置は同じ位置であるから、文字重なり(2度うち)が生じ得るが、文字ズレが生じることはないので問題はない。
【図面の簡単な説明】
【図1】本発明の実施の形態によるビットマップフォント作成方法を実施する装置の構成を示すブロック図
【図2】専用フォント文字を作成する方法を示すフローチャート
【図3】専用フォント文字を作成する方法を示すフローチャート(図2の続き)
【図4】基礎フォント文字から専用フォント文字を作成する方法を示す図であって、基礎フォント文字のビットマップデータの一例を示した図(a1),(b1),(c1)、固有文字パーツおよび変形用文字パーツ(変形後)のビットマップデータの一例を示した図(a2),(b2),(c2)、専用フォント文字のビットマップデータの一例を示した図(a3),(b3),(c3)
【図5】基礎フォント文字の文字コードと、対応する各種情報との対応関係を示す情報テーブルの一例を示した図
【図6】変形方法Aにおける変形可能画素の一例を示す図(a)、変形方法Bにおける変形可能画素の一例を示す図(b)、変形方法Cにおける変形可能画素の一例を示す図(c)
【図7】本発明の一実施の形態による文書作成装置の概略構成を示すブロック図
【図8】本発明の一実施の形態による文書復元装置の概略構成を示すブロック図
【図9】文書原稿の一例を示す図
【図10】文字パーツ照合用テーブルの一例を示した図
【図11】専用フォント文字を用いた文書の一例を示す図
【図12】専用フォント文字を用いた文書からの固有文字パーツの抽出および文字位置基準点の座標の復元方法を説明するための図
【符号の説明】
1 ビットマップフォント作成装置
2 文書作成装置
3 文書復元装置
10 基礎フォント文字記憶手段
11 専用フォント文字作成手段
20 文字情報抽出手段
30 文書データ作成部
31 専用フォント文字記憶手段
32 ビットマップデータ作成手段
40 画像出力手段
50 印刷物
60 画像入力手段
70 文書ビットマップデータ抽出手段
80 文字認識部
81 文字パーツ判定手段
82 文字パーツ照合用テーブル
83 文字読出手段
90 ラスタライザ手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a bitmap font, a method and apparatus for creating a bitmap font, a method and apparatus for creating a document using font characters constituting the bitmap font, and a document character created using the font character. The present invention relates to a recognition method and apparatus.
[0002]
[Prior art]
Conventionally, digital data (character code of each character and information on printing position) of documents arbitrarily created by a user with a personal computer (hereinafter referred to as a personal computer) or a word processor (hereinafter referred to as a word processor) is stored or carried. As recording media (storage media) capable of recording, floppy disks, CD-ROMs, and the like are widely known. The content of a document recorded on this type of recording medium can be restored without error by using a device corresponding to the recording medium, for example, a personal computer or word processor equipped with a reading device such as an FD drive device or a CD-ROM drive device. be able to.
[0003]
However, in order to find a medium in which a desired document is recorded (so-called search) from a large number of storage media in a stored state, the recorded documents are sequentially ordered by file name using a personal computer or word processor. It needs to be read and displayed on the screen to check the contents. However, such a method has a problem that work efficiency is poor.
[0004]
On the other hand, in order to check the contents of a document by using the time during carrying (handling), carry a portable reading device having a display unit together with a recording medium, or carry a printed matter (paper medium) of the document. There is a need. However, in the method of carrying the reading device, there is a problem that the device having a display screen that is not difficult to see is too large or too heavy to carry. In the method of carrying the printed material, both the recording medium and the printed material are used. There is a problem in that double management occurs.
[0005]
Therefore, as one method for solving the above-mentioned problems, the document is handled only with a printed material, and by using various character recognition methods conventionally proposed, the characters of the printed material are recognized, It is conceivable to restore the digital data of the document.
[0006]
[Problems to be solved by the invention]
However, with the conventional character recognition method, it is difficult to obtain a 100% character recognition rate, and the digital data of the document cannot be restored without error (the restoration rate does not become 100%), and the document is only printed. There is a problem that handling is not always sufficient as a document management method.
[0007]
For example, if the target document contains kanji characters consisting of multiple character parts, or mixed double-byte and single-byte characters, character extraction processing is performed as a pre-process for character recognition. In this case, it is impossible to cut out one character without error, and there is a possibility that the character recognition rate may be lowered due to a wrong cutting process. In particular, Kanji is composed of a group of radicals called “separation” or “success”, and a common radical is used for different characters, or the radical itself is a single unit. It may represent a specific character, or, for example, the character part itself represents a specific character, such as 'one' is also part of the Chinese numeral "three" but is also 'one' itself In some cases, the cutting process is easy to make an error.
[0008]
Various methods for improving the accuracy of character extraction have been proposed. However, this method has a problem that a large amount of memory is required and a processing time becomes long.
[0009]
In other words, the actual situation is that a document management method that can easily check and search document contents, can restore digital data without error, and does not cause the problem of double management has yet to be established.
[0010]
The present invention has been made in view of the above circumstances, and provides a bitmap font suitable for realizing a document management method capable of solving the above-described conventional problems, and creates the bitmap font. The present invention provides a method and apparatus for creating a document using a dedicated font character constituting a bitmap font, and a method and apparatus for recognizing a document character created using the dedicated font character. It is what.
[0011]
[Means for Solving the Problems]
The bitmap font according to the present invention is a bitmap font composed of a number of dedicated font characters, and for each dedicated font character, at least one of the character parts constituting the dedicated font character is other than the dedicated font character. It is a unique character part that is different from any of all the character parts that constitute all the exclusive font characters.
[0012]
Here, the “character part” means a group of pixels in which pixels carrying a character component (for example, black pixels) are connected to each other within a predetermined range (for example, eight neighboring pixels). It is different from a radical such as a spear. The “character” in the present invention includes a figure and a symbol.
[0013]
A “bit-mapped font” is a font in a format that expresses information of characters (including symbols and figures; the same shall apply hereinafter) as dots in the same shape, and encodes character information. Corresponds to the coded font.
[0014]
The “dedicated font character” “dedicated” is used to compare the “basic font character” described later with the “basic”, and the “dedicated font character” is not necessarily the document data creation described later. It is not limited to the method and apparatus and the character recognition method and apparatus, and the dedicated font character may be replaced with a conventional font character and used for creating a document.
[0015]
A bitmap font creation method according to the present invention is a method for creating the bitmap font, specifically, a bitmap of a dedicated font character having the unique character part, and the basic font characters constituting the basic bitmap font are Prepared in advance, a unique character part is generated by modifying the bitmap of the character parts constituting the basic font character by any of the following methods 1) to 4), and the unique character part is A bitmap of dedicated font characters is created.
[0016]
1) Method of adding black pixels
2) A method of changing black pixels constituting the character parts to white pixels
3) A method of shifting black pixels constituting the character part to 8 neighboring pixels.
4) A method based on a combination of at least two of 1) to 3)
Here, the “basic font” is a font other than the bitmap font according to the present invention composed of a large number of dedicated font characters having unique character parts, and corresponds to, for example, a conventionally used font.
[0017]
In the above, the black pixel or the white pixel is expressed on the assumption that the character component is a black character represented by a black pixel. In the case of a white character obtained by inverting the black character, the black pixel or the white pixel is used. It is better to consider the pixels opposite to each other, and the invention of the present application includes this aspect of white characters.
[0018]
In the above bitmap font creation method, when a basic bitmap font is not obtained in advance, it is preferable to create a bitmap of font characters constituting the coded font to obtain this basic bitmap font.
[0019]
Here, the “coded font” is described on behalf of a font other than the bitmap font, and is not necessarily limited to the coded font as long as it is a font other than the bitmap font.
[0020]
The document data creation method according to the present invention is characterized in that bitmap data of a document is created using bitmap data of dedicated font characters constituting the bitmap font. Note that “document” means a character string composed of at least one character.
[0021]
In the document data creation method, each bitmap of dedicated font characters corresponding to each character constituting the document is sequentially arranged with the reference point of the bitmap corresponding to the character position reference point of each character, It is desirable to create a bitmap of the document.
[0022]
Here, “sequentially arrange the bitmap reference points in correspondence with the character position reference points of each character” means that the character layout of a document created by a word processor or the like on a character output product such as print paper This means that exclusive font characters corresponding to each character are sequentially output (for example, printed) so as to be the same.
[0023]
A character recognition method according to the present invention is a character recognition method for recognizing a character from a bitmap of a document created using a bitmap of dedicated font characters constituting the bitmap font.
Prepare in advance a character parts collation table that associates the unique character parts of each dedicated font character constituting the bitmap font with the characters corresponding to the unique character parts,
Extract character parts from the document bitmap, compare the extracted character parts bitmap with the unique character parts bitmap, and determine whether the extracted character parts are unique character parts,
When the extracted character part is a unique character part, the character corresponding to the unique character part is read from the character part collating table.
[0024]
Here, the method of associating the unique character part with the character corresponding to the unique character part may be any method that can restore the corresponding original character based on at least the unique character part. A method of interposing a code or the like may be used.
[0025]
In the above character recognition method, information indicating the reference point of the character corresponding to the unique character part is stored in advance in the character part collating table as the unique character part relative position data,
When the extracted character part is a unique character part, the relevant character part relative position data (of the character corresponding to the unique character part) is read from the character part collating table, and the document of the read reference point It is desirable to arrange a character corresponding to the unique character part read from the character part collating table according to the position on the bitmap.
[0026]
Here, "the character corresponding to the unique character part read from the character part collation table is arranged according to the position of the read reference point on the bitmap of the document" means that the character on the document bitmap is a character. This means that the document data is restored by associating the reference point of the dedicated character part with the reference point of the character corresponding to the unique character part on the output material. In short, the character layout of the restored document on the data such as word processor This means that bitmap data of each character corresponding to each unique character part is arranged so as to be the same as the character layout of the original document.
[0027]
A bitmap font creation device according to the present invention is a device for creating the above bitmap font, a basic font character storage means for storing bitmap data of basic font characters constituting the basic bitmap font, and a basic font character storage. The bitmap data of the basic font character is read from the means, and the bitmap of the character part constituting the basic font character represented by the read bitmap data is deformed by any one of the following methods 1) to 4). In addition, a dedicated font character creating means for creating a unique character part and creating a bitmap of the dedicated font character having the unique character part is provided.
[0028]
1) Method of adding black pixels
2) A method of changing black pixels constituting the character parts to white pixels
3) A method of shifting black pixels constituting the character part to 8 neighboring pixels.
4) A method based on a combination of at least two of 1) to 3)
The bitmap font creation apparatus preferably includes basic bitmap font generation means for generating a bitmap of font characters constituting the coded font and generating a basic bitmap font.
[0029]
A document data creation device according to the present invention is a device that generates bitmap data of a document using a dedicated font character, and stores the bitmap data of a number of dedicated font characters constituting the bitmap font. Bit map data of the character storage means and each bitmap data of the dedicated font character corresponding to each character constituting the document is read from the dedicated font character storage means, and the bitmap data of the document is read using the bitmap data of the read dedicated font character And a document bitmap data creating means for creating a document bitmap data.
[0030]
In the document data creation device, the character part matching table is further stored with information indicating the reference point of the character corresponding to the unique character part as unique character part relative position data,
When the extracted character part is a unique character part, the document bitmap data creation means reads the corresponding unique character part relative position data from the character part collation table, and reads the read reference point on the document bitmap. It is desirable to arrange characters corresponding to the unique character parts read from the character part collation table in accordance with the positions of the characters.
[0031]
A character recognition device according to the present invention is a character recognition device for recognizing characters from a bitmap of a document created using a bitmap of dedicated font characters constituting the bitmap font, and each of the components constituting the bitmap font A character part collation table in which a unique character part of a dedicated font character is associated with a character corresponding to the unique character part;
A unique character that extracts a character part from a document bitmap and compares the extracted character part bitmap with a bitmap of a unique character part to determine whether the extracted character part is a unique character part Parts judgment means,
Character extraction means is provided for reading out a character corresponding to the unique character part from the character part collating table when it is determined that the extracted character part is a unique character part.
[0032]
In the character recognition device, the character part collation table stores in advance information indicating the reference point of the bitmap of the character corresponding to the unique character part as the unique character part relative position data, so that the bitmap of the unique character part is stored. And the character position reference point of the character corresponding to the unique character part,
When the extracted character part is a unique character part, the character reading means reads the corresponding unique character part relative position data from the character part collation table, and sets the read reference point at the position on the document bitmap. Accordingly, it is desirable to arrange characters corresponding to the unique character parts read from the character parts matching table.
[0033]
【The invention's effect】
According to the bitmap font of the present invention, the dedicated font characters constituting the bitmap font have the unique character parts, respectively, so that each character of the document is printed on a sheet using the dedicated font characters. In addition, when taking a method of reading each character and recognizing the character to restore the original document, a suitable bitmap font can be obtained, and as a result, a document management method for managing the document only in a printed matter is established. be able to.
[0034]
Specifically, when the basic font character does not have a unique character part, the character part of the basic font character is transformed using the above method to generate a unique character part, and the dedicated font character having this unique character part. If each character is printed on paper according to the document data created by a word processor or the like using this dedicated font character, the dedicated font character is a slightly modified shape of the basic font character or the shape as it is. Therefore, the user can easily confirm the contents of the original document only by looking at the printed matter without losing the character recognition. Even if the document is stored or being carried, it is only necessary to confirm the printed matter, and there is no need to read out the document contents using a specific device.
[0035]
On the other hand, when restoring original data from printed matter, etc., collation / judgment is made as to whether or not the character part is a unique character part, and the character corresponding to the unique character part of the dedicated font character is read from the collation table. In other words, if the original characters are restored based only on the unique character parts, there is no need to perform character extraction processing that causes erroneous recognition in the conventional character recognition technology, and the character recognition rate. As a result, the digital data of the document can be accurately restored.
[0036]
In addition, the reference point of the bitmap of the dedicated font character is sequentially arranged corresponding to the character position reference point of each character, that is, so that it is the same as the character layout of the document on the character output such as on the printing paper. If the dedicated font characters corresponding to each character are output in order, the document content can be confirmed with the same layout as the original data of the document created by a word processor or the like.
[0037]
In addition, the character bitmap reference points corresponding to the unique character parts obtained by reading such printed matter are sequentially arranged in correspondence with the character position reference points of each character, that is, the restored document character layout is the original. If the bitmap data of each character corresponding to each unique character part is arranged so that it is the same as the character layout of the document, the original data will be re-output based on the restored digital data and on the printed matter. The contents can be confirmed with almost the same layout as the document.
[0038]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0039]
FIG. 1 is a block diagram showing the configuration of an apparatus for implementing a bitmap font creation method according to an embodiment of the present invention.
[0040]
As shown in FIG. 1, this bitmap font creating apparatus 1 includes a basic font character storage means 10 for storing bitmap data of basic font characters constituting a basic bitmap font, and a basic font represented by the read bitmap data. A bit of a dedicated font character having the unique character part by generating a unique character part by modifying the bit map of the character part constituting the basic font character of the character by using various methods to be described later Dedicated font character creation means 11 for creating a map is provided.
[0041]
Here, at least one of the character parts (in this embodiment, a group of black pixels adjacent to 8 neighboring pixels; other criteria may be used) is a special font character in all characters of the bitmap font. It has a unique character part that has a unique shape, that is, a unique shape by which the character including the character part can be specified by this character part.
[0042]
In some cases, the character part of the conventional font character itself may have a unique shape, but if this is not the case, after converting the conventional font character into a basic font character as a bitmap, It can be created by selecting and applying a minute deformation to the character part using various methods described later. Such minute deformations are such that the impression of the original character is not greatly impaired, so if you look at this dedicated font character, you can easily recognize the original character, and it is created using this dedicated font character. The user can easily confirm the contents of the original document simply by looking at the printed matter output based on the bitmap data of the original document. Further, as will be described later, since the recognition rate of characters restored based on the printed material can be almost 100%, as a result, it is possible to recognize the content of the restored document simply by looking at the printed material.
[0043]
Next, a flowchart shown in FIG. 2 and FIG. 3 (continuation of FIG. 2) regarding a method for creating a bitmap font by the bitmap font creation device 1, that is, a method for creating a number of dedicated font characters constituting the bitmap font. The description will be given with reference. In the figure, step numbers are marked with S.
[0044]
1) First, the dedicated font character creating means 11 is a general character having a specific font (basic font), size, and style that is the basis of the dedicated font character, stored in the basic font character storage means 10. An arbitrary character data is selected and read from a certain basic font character set (font data) (step 1).
[0045]
In this embodiment, the basic font character set includes hiragana characters, katakana characters, and kanji characters, the character size is 7 × 7 pixels (pixels), and the style is a normal Gothic font character. In this embodiment, the character selection in step 1 is performed in ascending order of the character code.
[0046]
FIG. 4 (a1), (b1), and (c1) show examples of basic font character bitmap data.
[0047]
When the basic font is not a bitmap font, a basic bitmap font generation means is provided, and the basic bit is converted into a dot (bitmap) in advance so that the shape of the font character constituting the coded font is represented. It is preferable to generate a map font and store the generated basic bitmap font in the basic font character storage means 10.
[0048]
2) Character parts are extracted from the bitmap data of the selected basic font characters, and character part numbers are sequentially assigned (step 2).
[0049]
For example, as shown in FIGS. 4 (a1), (b1), and (c1), the character code i 0 1 from the basic font character "1" corresponding to 00 ), Character code i 1 2 from the basic font character "2" corresponding to (character part number: j 10 , J 11 ), Character code i 2 3 from the basic font character "3" corresponding to (character part number: j 20 , J 21 , J 22 ) Character parts are extracted.
[0050]
Further, an information table is created that shows the correspondence between the character code of the basic font character, the number of character parts extracted in step 2, the character part number assigned to each character part, and bitmap data (step 3). At this time, the unique character part determination flag is initialized to “0 (meaning that it is not a unique character part)”. An example of the created information table is shown in FIG. The correspondence relationship corresponds to items (a) to (d) and (f) in FIG.
[0051]
3) The processing from step 1 to step 3 is performed for all basic font characters (step 4).
[0052]
4) After the creation of the information table for all the basic font characters is completed, one character is selected from the set of basic font characters (step 5).
[0053]
5) One character part of the selected basic font character is selected (step 6). In this embodiment, this selection is performed in ascending order of the character part number.
[0054]
Furthermore, the bitmap data of the selected character part is compared with the bitmap data of all the character parts except the character part stored in the information table shown in FIG. Number of matching character parts (hereinafter referred to as the number of identically shaped character parts) N 1 Is extracted (step 7).
[0055]
Furthermore, the number N of the same shape character parts 1 Is added to the information table (step 8). Number N of the same shape character parts 1 This information corresponds to the item (e) in the information table shown in FIG.
[0056]
6) The processing from step 6 to step 8 is performed for all the character parts of the selected basic font (step 9). Next, the processing from step 5 to step 9 is performed for all basic font characters (step 10).
[0057]
7) After adding information to the information table for all basic font characters, one character is selected from the set of basic font characters (step 11).
[0058]
8) The selected basic font character is a character part with a specific shape, specifically, the number N of the same shape character parts. 1 The number N of the same shape character parts stored in the information table shown in FIG. 1 (Step 12).
[0059]
9) If it is determined in step 12 that the character part has a unique shape, a character part for character identification (corresponding to the unique character part of the present invention) is set (step 13).
[0060]
Specifically, when the basic font has one character part having a unique shape, the character part is set as a unique character part, and the unique character part determination flag is corrected to “1”. For example, as shown in FIG. 4 (c2), for the basic font character “three”, the number j 20 Set the character part as a unique character part.
[0061]
On the other hand, if the basic font character has a plurality of character parts with unique shapes, one of them is set as the unique character part. In the present embodiment, a character part number having a small character part number is set as a unique character part.
[0062]
In addition to the unique character part determination flag, which is information indicating whether each character part is a unique character part, the unique character part relative to which the character position reference point coordinates can be restored for those that are unique character parts The position data is added to the item (g) in the information table shown in FIG. 5 (step 14). In the present embodiment, the relative position information of the coordinates of the upper left vertex pixel in the circumscribed rectangle b of the unique character part indicated by Δ in the figure with respect to the coordinates of the character position reference point indicated by ● in FIG. Character part relative position data. Here, in the data (x, y) of the item (g) in FIG. 5, x indicates a relative position in the main scanning direction, and y indicates a relative position in the sub-scanning direction.
[0063]
Note that the data described in <> of the item (g) in FIG. 5 is the reference value of the unique character part relative position data of the character part for which the unique character part was not set in step 12. It is. This data is not necessarily determined here.
[0064]
10) On the other hand, for a character that is determined not to have a character part with a unique shape in step 12, any character part is set as a deformation character part (step 16). In this embodiment, the number N of the same shape character parts 1 The character part with the least number is preferentially set as the character part for deformation. However, the number N of the same shape character parts 1 When there are a plurality of character parts with the least number of characters, the character part number with the smallest character part number is set as the character part for deformation.
[0065]
Further, a deformable pixel is extracted from the deformation character part set in step 16 and subjected to predetermined deformation (steps 17 and 18). Here, as deformation methods, black pixels are added to the deformation character parts (Method A), the black pixels constituting the deformation character parts are changed to white pixels (Method B), and the deformation character parts are formed. And a black pixel shift to 8 neighboring pixels (method C) and a combination of at least two of these (method D). Conditions as deformable pixels in each deformation method are as follows. In the present embodiment, the impression of the basic font character is not greatly impaired by preferentially performing the modification in units of one pixel. Further, among the extracted deformable pixels, the pixel whose coordinates are small in raster order is changed to a black pixel, a white pixel, or a shift to 8 neighboring pixels.
[0066]
Referring to FIG. 6, the deformable pixel conditions for methods A-B are shown.
[0067]
<Method A> (See FIG. 6A)
a) White pixels in the area a specific to the character size
b) White pixel adjacent to the deformed character part in 8 neighboring pixels
c) White pixels not adjacent to other character parts in 8 neighboring pixels
[0068]
<Method B> (see FIG. 6B)
Black pixels that make up the deformable character parts that are not separated into multiple parts by changing to white pixels
[0069]
<Method C> (see FIG. 6C)
a) Black pixels constituting the character part for deformation in the area a specific to the character size even when shifted
b) Black pixels constituting the character part for deformation, which is not separated into a plurality of parts even when shifted.
c) Black pixels constituting a deformable character part that is not adjacent to other character parts in 8 neighboring pixels even if shifted.
[0070]
For example, for the basic font character “one”, the number j 00 4 is set as a deformable character part, and the bitmap data is transformed using the method A so that the pixel indicated by Δ in FIG.
[0071]
For the basic font character “one”, the number j 10 4 is set as a deformation character part, and the bitmap data is deformed using the method A so that the pixel indicated by Δ in FIG. 4B2 becomes a black pixel.
[0072]
11) Compare the bitmap data after deformation of the character part for deformation with the bitmap data of all the character parts stored in the information table shown in FIG. Step 19). If it is determined that the shape is a unique shape, the character part for deformation is set as a unique character part. Specifically, the information of the bitmap data of the character parts, the number of the same shape character parts, and the information of the unique character parts determination flag in the information table are respectively modified, that is, the number N of the same shape character parts. 1 Is set to “0”, the unique character part determination flag is corrected from “0” to “1”, and the unique character part relative position data based on the changed bitmap data is set in the item (g) in the same manner as in Step 14. to add.
[0073]
On the other hand, when it is determined that the shape is not a unique shape, the processing from step 17 to step 19 is repeated until the shape after the deformation of the deformation character part is determined to be unique by changing the deformation processing method. . If the deformed character part does not have a unique shape even if it is deformed using the methods A to D, the deformed character part is set to another character part, and from step 17 in the same manner. Processing up to step 19 is performed (step 20).
[0074]
12) The processing after step 11 is performed for all basic font characters (step 15).
[0075]
13) For each font character, a dedicated font character is created using the set unique character parts. Specifically, bitmap data is created by using the set unique character part for the character part number portion set to the unique character part of the basic font character and otherwise using the character part itself of the basic font character.
[0076]
As a result, font data that is a set of dedicated font characters in which the coordinates of the character position reference point are the same as the coordinates of the character position reference point of the basic font character is created. The created font data may be recorded and distributed on a computer-readable medium such as a CD-ROM. FIGS. 4 (a3), (b3), and (c3) show bitmap data of dedicated font characters for Chinese numerals “one”, “two”, and “three”.
[0077]
In this way, if the above method is used, bitmap data of dedicated font characters can be created by a simple method.
[0078]
Next, a document creation device including a document data creation unit according to the present invention, and a document creation device, which creates bitmap data of a document using a bitmap font composed of dedicated font characters created as described above An embodiment of a document restoration apparatus equipped with a character recognition unit according to the present invention for restoring digital data of a document from a printed matter created and output in accordance with the present invention will be described. The document creation device and the document restoration device are collectively referred to as a paper digital interface system (hereinafter referred to as a paper DIF system).
[0079]
FIG. 7 is a block diagram showing a schematic configuration of the document creation device, FIG. 8 is a block diagram showing a schematic configuration of the document restoration device, and FIG. 9 is a diagram showing an example of a document original created by a personal computer or a word processor.
[0080]
As shown in FIG. 7, the document creation apparatus 2 includes a character information extraction unit 20, a document data creation unit 30 including a dedicated font character storage unit 31 and a document bitmap data creation unit 32, and an image output unit 40 such as a printer. In the character information of each character of the document arbitrarily created by the user with a personal computer or a word processor, the printed matter 50 of the document using a dedicated font character according to the coordinates of the character code and the character position reference point. Is created and output.
[0081]
The dedicated font character storage means 31 constituting the document data creation unit 30 stores bitmap data (font data) of the dedicated font characters created by the bitmap font creation device 1 described above. When obtaining this data, for example, a medium such as a CD-ROM in which a set of dedicated font characters is recorded may be read by a reading device (not shown), and the read data may be stored in the dedicated font character storage unit 31.
[0082]
The document bitmap data creating means 32 constituting the document data creating unit 30 is stored in the dedicated font character storage means 31 according to the character code of the character information of each character of the document arbitrarily created by the user with a personal computer or word processor. The bitmap data of a predetermined dedicated font character is read, and the bitmap data of the read dedicated font character is read according to the coordinates of the character position reference point in the character information of each character. Bitmap data of a document using a dedicated font character is created by pasting all pixels corresponding to to a predetermined position of a white digital image.
[0083]
Here, the coordinates of the character position reference point may be predetermined coordinates in a unique area according to the character size. In this example, dotted lines are added around each character indicated by ● in FIG. The coordinates of the upper left vertex pixel in the rectangular area a. The present invention is not limited to this, and other coordinates may be used as the coordinates of the character position reference point as long as the reference position of the character can be determined.
[0084]
As shown in FIG. 8, the document restoration apparatus 3 includes an image input unit 60 such as a scanner, a document bitmap data extraction unit 70, a character part determination unit 81, a character part collation table 82, and a character reading unit 83. The character recognition unit 80 and the rasterizer unit 90 are configured to restore the digital data of the original document on the personal computer or word processor from the printed matter 50 created and output by the document creation device 2.
[0085]
In the character part matching table 82 constituting the character recognition unit 80, the bitmap data of all the character parts included in the dedicated font character set has a unique shape that can identify the character without duplication. It is stored together with a unique character parts determination flag which is information indicating whether or not it has. For a character part having a specific shape that can specify a character (unique character part), a specific character part relative position that is relative position information of the specific character part with respect to the coordinates of a predetermined character code and character position reference point Data is stored. An example of the character parts matching table 82 is shown in FIG.
[0086]
The character parts determination means 81 constituting the character recognition unit 80 extracts character parts from the bitmap data of the document using the dedicated font characters, and stores the extracted character parts bitmap data and the character parts matching table 82. The stored character parts are collated with the bitmap data, and it is determined whether or not the extracted character parts are unique character parts. The bitmap data of the document used here is obtained by reading the printed matter 50 with the image input means 60 and extracting the bitmap data of the document portion with the document bitmap data extraction means 70.
[0087]
When it is determined that the extracted character part is a unique character part, the character reading unit 83 constituting the character recognition unit 80 uses the character code corresponding to the unique character part and the unique character part relative position data for character part collation. The data is read from the table 82.
[0088]
Next, the operation of the paper DIF system including the document creation device 2 and the document restoration device 3 will be described.
[0089]
The document creation apparatus 2 outputs a printed matter 50 of the document using dedicated font characters as follows.
[0090]
1) First, the character information extraction means 20 extracts the character code and the coordinates of the character position reference point from the character information of each character of the document arbitrarily created by the user using a personal computer or word processor (see FIG. 9).
[0091]
2) Next, the document bitmap data creation means 32 sequentially reads bitmap data of predetermined dedicated font characters recorded in the dedicated font character storage means 31 in accordance with the character code of each character. Then, the character position reference point of the dedicated font character corresponding to the character is placed at the position on the paper where the character position reference point of each character of the document is placed. Bitmap data of the read dedicated font characters is sequentially pasted to a predetermined position of the digital image with white pixels. As a result, document bitmap data D1 using the dedicated font characters is created.
[0092]
3) The image output means 40 outputs the printed matter 50 of the document at 100 dpi based on the bitmap data D1 of the document using the dedicated font characters. As a result, a dedicated font character is printed with the same layout (character position) as the original data of a document created on a personal computer or the like.
[0093]
In the present embodiment, a scale corresponding to the image area size and resolution of the document so that the document bitmap data extraction means 70 of the document restoration device 3 described later can accurately extract the document bitmap data. The frame 55 is printed several millimeters from the edge of the paper. FIG. 11 shows an example of a printed matter 50 of a document using a dedicated font character with the scale frame 55. Note that not only the scale frame but also other characters and symbols indicating the reference position may be printed.
[0094]
As can be seen from FIG. 11, some of the dedicated font characters (“1” and “2” in the figure) are slightly deformed compared to the original characters (basic font characters). The user can easily confirm the contents of the original document simply by looking at the printed matter 50. In addition, since each character is printed at the same position as the original data of the document created by a personal computer or the like, the document content can be confirmed with the same layout as the original data.
[0095]
Therefore, if the document information is recorded and stored in the FD or the like, an apparatus for confirming the document contents is required. However, according to the present invention, the document information is stored or being carried. In this case, the user can recognize the contents of the document only by paper output without using a specific device.
[0096]
On the other hand, in the document restoration device 3, the digital data D1 of the original document is restored from the printed matter 50 of the document using the dedicated font characters as follows.
[0097]
1) The image input means 60 reads a printed matter 50 of a document using dedicated font characters as 400 dpi multi-value image data. Further, the document bitmap data extracting means 70 extracts 100 dpi document bitmap data existing in the scale frame 55 of the printed matter 50 from the multi-valued image data.
[0098]
When the printed material 50 is read by the image input means 60, it is read according to the character layout of the printed material 50. Specifically, when the printed material 50 shown in FIG. 11 is read, the upper left of the printed material 50 is read as the scanning origin, the right direction is read as the main scanning direction, and the lower direction is read as the sub-scanning direction. When the reading direction is different from this, each processing described later is performed after appropriate rotation processing is performed on the image data.
[0099]
In the present embodiment, the scale frame 55 is printed on the printed matter 50 as described above. The relative position between the scale frame 55 and the printed characters reproduces the original image faithfully, and even if the printed matter is slightly shifted to the left and right and is read obliquely by the image input means 60, a known positional deviation correction method is used. By correcting the positional deviation on the image data based on the relative position, document bitmap data having no positional deviation can be extracted, and as a result, accurate character recognition is possible. That is, the scale frame 55 functions as positioning data when extracting document bitmap data.
[0100]
2) Character part determination means 81 extracts all the character parts, compares the extracted bitmap data of each character part with the bitmap data of the character parts recorded in the character part verification table 82, and It is determined whether or not each character part is a unique character part from the information of the character part determination flag. In the present embodiment, a generally known hash method is employed for this collation (for example, “Algorithm C” Vol. 2: R. Sedgwick: See Modern Science Co., Ltd.) ). Of course, it may be verified using a method other than the hash method.
[0101]
3) The character reading means 83 ignores those determined not to be unique character parts. Thereby, since the character code is not matched about the character parts which have the same shape, an unnecessary character is not restored.
[0102]
On the other hand, for those determined to be unique character parts, the character code and the unique character part relative position data corresponding to the unique character parts are read from the character part matching table 82. Further, the coordinates of the character position reference point are restored based on the unique character part relative position data. Specifically, as shown in FIG. 12, each position (coordinates) in the main scanning direction and the sub-scanning direction on the image data (on the raster) of the upper left vertex pixel in the circumscribed rectangle b of the unique character part indicated by Δ in the figure. And the main scanning direction on the image data (on the raster) of the character position reference point indicated by ● at the upper left of the rectangular area indicated by a on the basis of the relative position information indicated by the specific character part relative position data. Each position in the sub-scanning direction is obtained. Thereby, the coordinates of the character position reference point are restored.
[0103]
4) The rasterizer 90 arranges the character codes in order from the smallest in the scanning order (raster order) of the scanning positions on the image data (on the raster) of the coordinates of the obtained character position reference point.
[0104]
Thereby, the digital data of the original document consisting of the description of the character code can be accurately restored on the personal computer or word processor. In other words, the restoration of the character (in this example, the character code) is based only on the unique character part in the dedicated font character, and is it not the shape of the dedicated font character itself but the unique character part with the character part as a unit? Since it is decided to collate / determine whether or not and refer to the character code corresponding to the unique character part to identify the character, it is necessary to cut out characters that cause erroneous recognition in conventional character recognition technology Therefore, the character recognition rate can be improved, and as a result, the digital data of the document can be accurately restored. In addition, since the character is identified by referring to the character code, even if the unique character part is a modification of the character part of the basic font, the character must be uniquely identified without being affected by the deformation mode. Can do.
[0105]
In addition, since the information including the reference position information of the character is restored, the position where the character is to be placed can be restored accurately, and the image or printed matter is re-output based on the restored digital data. In the above, the content can be confirmed with the same layout as the original document.
[0106]
As described above, in the paper DIF system according to the above-described embodiment, the user can easily confirm the contents of the document only by looking at the printed matter 50 using the dedicated font characters created by the document creation device 2. In addition, in the document restoration device 3, the original document can be accurately restored on the personal computer or word processor from the printed material 50 of the document using the dedicated font characters.
[0107]
Therefore, by using the present invention as a document management method, document information can be managed only by paper output, so that document contents can be easily confirmed and searched, and digital data in the document is erroneous. It is possible to establish a document management method that can be restored without any problems and that does not cause the problem of double management.
[0108]
In the above embodiment, the character part matching table 82 stores bitmap data and other information of all the character parts included in the dedicated font character set without duplication. In terms of character data restoration, information other than unique character parts is not necessarily required, and information on only unique character parts may be stored.
[0109]
Further, in the above embodiment, a description has been given by taking an example of a document composed only of full-width characters, but all characters are provided with unique character parts even for documents in which full-width characters and half-width characters are mixed. The same effect can be obtained by creating bitmap data of dedicated font characters.
[0110]
In the above embodiment, the character code and character position information corresponding to the unique character part using one basic font character set is restored, but the number of unique character parts is increased. Thus, it is possible to set unique character parts according to the style (typeface) and size. In this way, the bitmap data created by the document creation device more accurately reflects the original document original, including the style (typeface) and size. What is to be obtained from the unique character parts among these character information may be determined by the balance between the degree of fidelity of the generated bitmap data to the original and the capacity of the dedicated font character storage means.
[0111]
Furthermore, in the above-described embodiment, it has been described that one unique character part is set for one character. However, a plurality of unique character parts may be set for one character. In this case, since the character code and position information for the same character are associated with each unique character part, the original character can be reliably restored even if the character is restored based on any unique character part. Note that, since the restoration position is the same position, character overlap (of twice) may occur, but there is no problem because character displacement does not occur.
[Brief description of the drawings]
FIG. 1 is a block diagram showing the configuration of an apparatus for implementing a bitmap font creation method according to an embodiment of the present invention.
FIG. 2 is a flowchart showing a method for creating a dedicated font character.
FIG. 3 is a flowchart showing a method for creating a dedicated font character (continuation of FIG. 2).
FIGS. 4A and 4B are diagrams showing a method of creating a dedicated font character from a basic font character, and FIGS. 4A and 4B are diagrams showing examples of bitmap data of the basic font character. FIG. (A2), (b2), (c2) showing an example of bitmap data of a character part for deformation (after deformation), (a3), (b3) showing an example of bitmap data of a dedicated font character ), (C3)
FIG. 5 is a diagram showing an example of an information table indicating a correspondence relationship between a character code of a basic font character and corresponding various information.
6A is a diagram illustrating an example of a deformable pixel in the deformation method A, FIG. 6B is a diagram illustrating an example of the deformable pixel in the deformation method B, and FIG. 6C is a diagram illustrating an example of the deformable pixel in the deformation method C; )
FIG. 7 is a block diagram showing a schematic configuration of a document creation apparatus according to an embodiment of the present invention.
FIG. 8 is a block diagram showing a schematic configuration of a document restoration apparatus according to an embodiment of the present invention.
FIG. 9 shows an example of a document original.
FIG. 10 is a diagram showing an example of a character parts matching table.
FIG. 11 is a diagram showing an example of a document using dedicated font characters
FIG. 12 is a diagram for explaining a method for extracting a unique character part from a document using a dedicated font character and restoring a character position reference point coordinate;
[Explanation of symbols]
1 Bitmap font creation device
2 Document creation device
3 Document restoration device
10 Basic font character storage means
11 Dedicated font character creation means
20 Character information extraction means
30 Document data creation section
31 Dedicated font character storage means
32 Bitmap data creation means
40 Image output means
50 printed matter
60 Image input means
70 Document bitmap data extraction means
80 character recognition part
81 Character parts judgment means
82 Character parts verification table
83 Character reading means
90 Rasterizer means

Claims (3)

多数の専用フォント文字から構成されたビットマップフォントであって、各専用フォント文字について、該専用フォント文字を構成する文字パーツの少なくとも1つが、該専用フォント文字以外の全専用フォント文字を構成する全文字パーツのいずれとも異なる固有文字パーツであるビットマップフォントを作成する装置であって、
基礎ビットマップフォントを構成する基礎フォント文字のビットマップデータを記憶する基礎フォント文字記憶手段と、前記基礎フォント文字記憶手段から基礎フォント文字のビットマップデータを読み出して、該読み出したビットマップデータが表す基礎フォント文字を構成する文字パーツのビットマップに対して、下記1)〜4)のいずれかの方法による変形を加えることにより前記固有文字パーツを生成して、該固有文字パーツを有する前記専用フォント文字のビットマップを作成する専用フォント文字作成手段とを備えてなることを特徴とするビットマップフォント作成装置。
1)黒画素を付加する方法
2)前記文字パーツを構成する黒画素を白画素に変更する方法
3)前記文字パーツを構成する黒画素を8近傍画素にシフトさせる方法
4)1)〜3)のうち少なくとも2つの組み合わせによる方法
A bitmap font composed of a large number of dedicated font characters, and for each dedicated font character, at least one of the character parts constituting the dedicated font character constitutes all dedicated font characters other than the dedicated font character. A device that creates a bitmap font that is a unique character part different from any of the character parts,
Basic font character storage means for storing bitmap data of basic font characters constituting the basic bitmap font, and bitmap data of basic font characters is read from the basic font character storage means, and the read bitmap data represents The dedicated font having the unique character part by generating the unique character part by modifying the bitmap of the character part constituting the basic font character by any one of the following methods 1) to 4) A bitmap font creation device comprising dedicated font character creation means for creating a character bitmap.
1) Method of adding a black pixel 2) Method of changing a black pixel constituting the character part to a white pixel 3) Method of shifting the black pixel constituting the character part to 8 neighboring pixels 4) 1) to 3) A combination of at least two of
コード化フォントセットに含まれる各フォント文字のビットマップを作成して前記基礎ビットマップフォントを生成する基礎ビットマップフォント生成手段を備えたことを特徴とする請求項1記載のビットマップフォント作成装置。2. The bitmap font creation device according to claim 1, further comprising basic bitmap font generation means for generating a bitmap of each font character included in the coded font set to generate the basic bitmap font. 多数の専用フォント文字から構成されたビットマップフォントであって、各専用フォント文字について、該専用フォント文字を構成する文字パーツの少なくとも1つが、該専用フォント文字以外の全専用フォント文字を構成する全文字パーツのいずれとも異なる固有文字パーツであるビットマップフォントを構成する専用フォント文字のビットマップを用いて作成された文書のビットマップから文字を復元する文書復元装置であって、
前記ビットマップフォントを構成する各専用フォント文字の固有文字パーツと該固有文字パーツに対応する文字とを対応づけてなるとともに、さらに前記固有文字パーツに対応する文字のビットマップの基準点を示す情報を固有文字パーツ相対位置データとして予め格納する文字パーツ照合用テーブルと、
前記文書のビットマップから文字パーツを抽出し、抽出した文字パーツのビットマップと、前記固有文字パーツのビットマップとを照合して、該抽出した文字パーツが固有文字パーツであるか否かを判定する固有文字パーツ判定手段と、
前記抽出した文字パーツが固有文字パーツであると判定されたとき、該固有文字パーツに対応する文字を前記文字パーツ照合用テーブルから読み出すとともに、該当する前記固有文字パーツ相対位置データを前記文字パーツ照合用テーブルから読み出して、該読み出した基準点の前記文書のビットマップ上における位置に応じて、前記文字パーツ照合用テーブルから読み出した前記固有文字パーツに対応する文字を配置する文字読出手段とを備えたことを特徴とする文書復元装置。
A bitmap font composed of a large number of dedicated font characters, and for each dedicated font character, at least one of the character parts constituting the dedicated font character constitutes all dedicated font characters other than the dedicated font character. A document restoration device for restoring characters from a bitmap of a document created using a bitmap of a dedicated font character that constitutes a bitmap font that is a unique character part that is different from any of the character parts ,
Information indicating the reference point of the bitmap of the character corresponding to the unique character part, associating the unique character part of each dedicated font character constituting the bitmap font with the character corresponding to the unique character part A character parts matching table that stores in advance as specific character parts relative position data ;
Extracts character parts from the document bitmap, and compares the extracted character parts bitmap with the unique character parts bitmap to determine whether the extracted character parts are unique character parts. Unique character parts determination means to
When it is determined that the extracted character part is a unique character part, the character corresponding to the unique character part is read from the character part matching table , and the corresponding unique character part relative position data is read with the character part matching. A character reading unit that reads out from the table for use and arranges characters corresponding to the unique character parts read out from the character part collating table according to the position of the read reference point on the bitmap of the document. A document restoration apparatus characterized by that.
JP2000082156A 2000-03-23 2000-03-23 Bitmap font creation device and document restoration device Expired - Fee Related JP3823005B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000082156A JP3823005B2 (en) 2000-03-23 2000-03-23 Bitmap font creation device and document restoration device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000082156A JP3823005B2 (en) 2000-03-23 2000-03-23 Bitmap font creation device and document restoration device

Publications (2)

Publication Number Publication Date
JP2001265317A JP2001265317A (en) 2001-09-28
JP3823005B2 true JP3823005B2 (en) 2006-09-20

Family

ID=18598995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000082156A Expired - Fee Related JP3823005B2 (en) 2000-03-23 2000-03-23 Bitmap font creation device and document restoration device

Country Status (1)

Country Link
JP (1) JP3823005B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4969519B2 (en) * 2008-06-18 2012-07-04 ユニバーサル造船株式会社 Printing data creation method and printing method
JP2015069256A (en) * 2013-09-27 2015-04-13 株式会社日立製作所 Character identification system

Also Published As

Publication number Publication date
JP2001265317A (en) 2001-09-28

Similar Documents

Publication Publication Date Title
JP4854491B2 (en) Image processing apparatus and control method thereof
US7391917B2 (en) Image processing method
US8520006B2 (en) Image processing apparatus and method, and program
US7640269B2 (en) Image processing system and image processing method
US7681121B2 (en) Image processing apparatus, control method therefor, and program
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
US7317833B2 (en) Image processing apparatus and image processing method
US7596271B2 (en) Image processing system and image processing method
JP4904175B2 (en) Method and apparatus for creating high fidelity glyph prototypes from low resolution glyph images
US7421124B2 (en) Image processing system and image processing method
JPH09179924A (en) Method for encoding information to be printed out on printing medium, method for decoding information printed on printing medium and two-dimensional data bar code
US8391607B2 (en) Image processor and computer readable medium
US20060008113A1 (en) Image processing system and image processing method
JP4194462B2 (en) Digital watermark embedding method, digital watermark embedding apparatus, program for realizing them, and computer-readable storage medium
US20020028020A1 (en) Image processing device, image processing method, and image processing program
JP4227432B2 (en) Image processing method
US7453594B2 (en) Document filing apparatus for storing information added to a document file
JP2007005950A (en) Image processing apparatus and network system
JP3823005B2 (en) Bitmap font creation device and document restoration device
JPH07156447A (en) Apparatus for generation of character and its method
JP2008085579A (en) Device for embedding information, information reader, method for embedding information, method for reading information and computer program
JP3731800B2 (en) Document data creation method and apparatus, and character data restoration method and apparatus
JP2005149097A (en) Image processing system and image processing method
JP4310176B2 (en) Image processing apparatus, image processing method, and program
JPH10207981A (en) Document recognition method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060626

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090630

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100630

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100630

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110630

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110630

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120630

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120630

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130630

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees