JP2004341631A - Microfilm ocr system - Google Patents

Microfilm ocr system Download PDF

Info

Publication number
JP2004341631A
JP2004341631A JP2003134835A JP2003134835A JP2004341631A JP 2004341631 A JP2004341631 A JP 2004341631A JP 2003134835 A JP2003134835 A JP 2003134835A JP 2003134835 A JP2003134835 A JP 2003134835A JP 2004341631 A JP2004341631 A JP 2004341631A
Authority
JP
Japan
Prior art keywords
character
microfilm
data
recorded
ocr system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003134835A
Other languages
Japanese (ja)
Inventor
Michihiko Takahashi
通彦 高橋
Tatsumi Inahashi
辰美 稲橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIM KK
Original Assignee
JIM KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIM KK filed Critical JIM KK
Priority to JP2003134835A priority Critical patent/JP2004341631A/en
Publication of JP2004341631A publication Critical patent/JP2004341631A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a microfilm OCR system that is increased in character recognition accuracy when reading in a character string recorded on a microfilm as character data. <P>SOLUTION: The microfilm OCR system, which reads in a microfilm with character strings recorded, as image data 1, at a scanner 10 and recognizes a character area in the image data 1 as character data in a computer 30, holds the font of the character strings recorded on the microfilm as a standard pattern 28, and commands the computer 30 to compare the standard pattern 28 and the character area of the image data 1 and recognize the character area as the character data. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータにより出力した文字列が記録されたマイクロフィルムをスキャナで読み取り、OCRソフトによりコンピュータに文字データとして認識させるマイクロフィルムOCRシステムに関する。
【0002】
【従来の技術】
文字列の印刷された被記録媒体を感光素子でイメージデータとして読み取り、読み取ったイメージデータ内の文字領域を文字データとして認識するOCR(Optical Character Reader)装置や、感光素子を有するスキャナとコンピュータとを用いたOCRソフトが普及している(例えば、非特許文献1参照)。
【0003】
このOCR装置又はOCRソフトが被記録媒体の文字領域を読み取る手順としては、まず、読み取ったイメージデータの文字領域を見つけて読む順序を決定するレイアウト解析を行い、次に、連続した文字領域から1行毎に分解する行の切り出しを行い、次に、切り出した1行を1文字毎に切り出す文字の切り出しを行った後、最後に1文字毎に文字データの認識を行う文字認識を行っている。
【0004】
文字認識では、個々の文字について、文字の大きさ、文字の字体(明朝体、ゴシック体、教科書体)、文字の潰れ及びかすれ等の変動に対して正規化、マッチング、知識処理という順で処理を行っている。
【0005】
正規化では、認識したい1文字を一定の大きさに変換することで、文字の縦長及び横長などの変形を吸収する。
【0006】
また、マッチングでは、従来では、正規化された文字を予め登録されていた標準パターンと単純に重ね合わせることで比較して文字の識別を行っていた。
【0007】
しかしながら、この方法では、文字の傾き、字体、潰れ及びかすれなどの変動により高い認識精度を出すのが困難であったため、文字の形をそのまま比較する方法ではなく、文字の特徴から識別する方法が採用されている。
【0008】
この文字の特徴から識別する方法としては、例えば、正規化された文字を上下、左右、斜め方向の4つの成分に分解し、この成分を文字の特徴として抽出した後、抽出した文字の特徴成分と予め登録してある文字の特徴(標準パターン)とを算出して比較している。
【0009】
さらに、知識処理では、認識された1文字毎の文字データを連続した文字列データとし、この文字列データから漢字列やカタカナ列などを抜き出し、その部分を予め登録している単語辞書と照合して誤読した部分を自動的に訂正している。
【0010】
このように各工程を行うことで、OCR装置又はOCRソフトは、被記録媒体に記録された文字列を文字データとして認識することができる。
【0011】
一方、従来より、コンピュータで処理されたデータをマイクロフィルム上に人間が読み取れる文字列や図形などで出力し、フィルムベースで利用するCOM(Computer Output Microfilm)システムが利用されている(例えば、非特許文献2参照)。
【0012】
このCOMシステムでは、ペーパレス化、保管の省スペース化及び保管による劣化が少なく永年保存に優れるという利点があると共に、デジタルデータの保存でのシステムダウンや、コンピュータウィルスの侵入などの予測不可能なリスクに対応することができる。また、マイクロフィルムに記録された内容は、改ざんすることができず、文書管理の構築においても高い優位性を持っている。
【0013】
このCOMシステムでは、コンピュータからのデータを文字列や図形などでマイクロフィルムに記録する方法として、CRTの管面に文字列及び図形などを投影し、これを光学的にマイクロフィルムに投影するCRT方式が用いられていた。
【0014】
しかしながら、近年では、処理速度の高速化、高解像度及びメンテナンスの容易化などから、He−NeレーザやArレーザを用いたレーザ光を直接マイクロフィルムに投射して記録するレーザ方式が採用されている。
【0015】
このような方式で記録される文字は、漢字英数字カナ文字出力を行う漢字COMや、グラフ、図面出力などを行うグラフィックCOMなどの形式で出力されている。そして、マイクロフィルムに記録される文字は、1文字を16×16ドットから40×40ドットで表示したもの、すなわちビットマップ方式フォント(ドットフォント)が広く用いられている。
【0016】
【非特許文献1】,
メディアドライブ株式会社,[online],[平成15年2月21日検索],インターネット
<URL:http://www.mediadrive.co.jp/technology/whatsocr/overview.html>
【非特許文献2】
板東政夫著,外9名,「COMシステムガイド−コンピュータアウトプットマイクロフィルム」,社団法人日本画像情報マネジメント協会,平成10年11月15日
【0017】
【発明が解決しようとする課題】
しかしながら、上述したCOMシステムなどで記録されたマイクロフィルムをイメージデータとして読み込み、既存のOCR装置又はOCRソフトを用いて電子データからなる文字データとして認識させても、マイクロフィルムに記録された文字列は微少なため、既存のOCR装置又はOCRソフトでは文字認識精度が低いという問題がある。
【0018】
本発明はこのような事情に鑑み、マイクロフィルムに記録された文字列を文字データとして読み込む際の文字認識精度を向上したマイクロフィルムOCRシステムを提供することを課題とする。
【0019】
【課題を解決するための手段】
上記課題を解決する本発明の第1の態様は、文字列が記録されたマイクロフィルムをスキャナによりイメージデータとして読み取ると共に、該イメージデータ内の文字領域をコンピュータに文字データとして認識させるマイクロフィルムOCRシステムであって、前記マイクロフィルムに記録された前記文字列のフォントを標準パターンとして保持すると共に、該標準パターンと前記イメージデータの文字領域とを比較して当該文字領域を前記文字データとしてコンピュータに認識させることを特徴とするマイクロフィルムOCRシステムにある。
【0020】
本発明の第2の態様は、第1の態様において、前記標準パターンが前記マイクロフィルムに記録された前記文字列の前記フォントを変換したアウトラインフォントからなることを特徴とするマイクロフィルムOCRシステムにある。
【0021】
本発明の第3の態様は、第1の態様において、前記文字データの認識が、前記マイクロフィルムに記録された前記文字列のフォントを直接用いて行われることを特徴とするマイクロフィルムOCRシステムにある。
【0022】
本発明の第4の態様は、第1〜3の何れかの態様において、前記マイクロフィルムがCOMシステムにより記録されたCOMフィルムであることを特徴とするマイクロフィルムOCRシステムにある。
【0023】
本発明の第5の態様は、第1〜4の何れかの態様において、前記文字データの認識が、前記イメージデータの前記文字領域を見つけて読む順序を決定するレイアウト解析と、連続した文字領域から1行毎に分解する行の切り出しと、切り出した1行を1文字毎に切り出す文字の切り出しと、1文字毎に前記文字データの認識を行う文字認識とを含むことを特徴とするマイクロフィルムOCRシステムにある。
【0024】
本発明の第6の態様は、第5の態様において、前記1文字毎の前記文字データの認識が、正規化、マッチング、知識処理により構成されていることを特徴とするマイクロフィルムOCRシステムにある。
【0025】
本発明の第7の態様は、第5又は6の態様において、前記マイクロフィルムに記録された文字列が帳票データであると共に、前記知識処理が、認識した文字データの計算を行い正誤の処理を行うことを特徴とするマイクロフィルムOCRシステムにある。
【0026】
本発明の第8の態様は、第7の態様において、前記知識処理が、前記文字列を前記マイクロフィルムに記録した際に用いたプログラムに基づいて検証ルールを確立し、該検証ルールに基づいて前記文字データの計算を行うことで正誤処理を行うことを特徴とするマイクロフィルムOCRシステムにある。
【0027】
本発明の第9の態様は、第7の態様において、前記知識処理は、認識した前記文字データに基づいて検証ルールを確立し、該検証ルールに基づいて前記文字データの計算を行うことで正誤処理を行うことを特徴とするマイクロフィルムOCRシステムにある。
【0028】
かかる本発明では、マイクロフィルムに記録された文字列のフォントを標準パターンとして保持し、この標準パターンと比較することで文字列を文字データとして認識するため、マイクロフィルムに記録された微少な文字列の文字認識精度を向上することができる。
【0029】
【発明の実施の形態】
以下に本発明を実施形態に基づいて詳細に説明する。
【0030】
(実施形態1)
図1は、マイクロフィルムOCRシステムの概略を示すブロック図である。
【0031】
図1に示すように、マイクロフィルムOCRシステムは、文字列の記録されたマイクロフィルムをイメージデータとして読み取るスキャナ10と、スキャナ10から読み取ったイメージデータの文字領域から文字データを認識するためのOCRソフト20を有するコンピュータ30とを具備する。
【0032】
マイクロフィルムは、例えば、16mm又は35mmフィルムを30.5m(100ft)又は65.5m(215ft)の長さでリールに巻き付けたロールフィルムや、105mm×148mmのマイクロフィッシュ(JIS Z6001)などに、ネガ状又はポジ状に文字列を含む情報が記録されたものである。このようなマイクロフィルムに記録された情報としては、例えば、帳票データ等を挙げることができる。なお、マイクロフィッシュは、ロール状、シート状の何れの形式でもよく、その形状は特に限定されない。
【0033】
また、スキャナ10は、マイクロフィルムに記録された文字列、グラフィック等をイメージデータ1として読み取るものであり、例えば、リニアCCDを用いたフラットヘッドスキャナやフィルムスキャナなどを挙げることができる。なお、マイクロフィルムとして連続するロール状のものが用いられた場合には、スキャナにマイクロフィルムを搬送する搬送手段を設け、連続してマイクロフィルムをイメージデータとして読み込めるようにしてもよい。
【0034】
また、コンピュータ30は、図示しないコンピュータ本体、モニタ、操作キーボードなどからなり、このコンピュータ30には、スキャナ10が読み込んだイメージデータ1の文字領域を文字データとして認識するOCRソフト20が内蔵されている。
【0035】
コンピュータ30に内蔵されたOCRソフト20は、スキャナ10から受け取ったイメージデータ1の文字領域を解析するレイアウト解析手段21と、解析した文字領域から行を切り出す行切り出し手段22と、行切り出し手段22が切り出した行から1文字を切り出す文字切り出し手段23と、切り出した文字を認識する文字認識手段24とを具備する。
【0036】
レイアウト解析手段21は、図2(a)に示すように、スキャナ10が読み取ったイメージデータ1の文字領域2を解析する。このようなレイアウト解析手段21は、文字領域2を自動的に解析するようにしてもよく、コンピュータ30のモニタにイメージデータ1を映し出してユーザに選択させるようにしてもよい。
【0037】
また、行切り出し手段22は、図2(b)に示すように、レイアウト解析手段21が解析した文字領域2から1行の文字列3を切り出す。この1行の文字列3は、横書き又は縦書きに自動的に対応して切り出すようになっている。
【0038】
さらに、文字切り出し手段23は、図2(c)に示すように、行切り出し手段22が切り出した1行の文字列3から、1文字4を切り出す。
【0039】
このように、イメージデータ1からレイアウト解析手段21、行切り出し手段22及び文字切り出し手段23により切り出された1文字4は、文字認識手段24によって文字データとして認識される。
【0040】
文字認識手段24は、正規化手段25、マッチング手段26、知識処理手段27及び標準パターン28を具備する。
【0041】
正規化手段25は、図3(a)に示すような文字切り出し手段23が切り出した1文字4の大きさを、図3(b)に示すように所定の大きさに変更した正規化文字5として、縦長又は横長などの変形を吸収する。
【0042】
この正規化手段25が変形する正規化文字5の大きさは、文字認識手段24が保持した標準パターン28と同等となるように変形する。このように1文字4を標準パターン28と同等の大きさとなるように正規化した正規化文字5とすることで、1文字4を標準パターン28と比較する際に、認識精度を向上することができる。
【0043】
また、マッチング手段26は、変形された正規化文字5と標準パターン28とを比較し、最も近い文字候補を挙げる。
【0044】
ここで、文字認識手段24が保持した標準パターン28は、マイクロフィルムに記録された文字列のフォントと同等のものである。なお、マイクロフィルムとしてCOMフィルム(COMシステムにより記録されたマイクロフィルム)が用いられた場合、COMフィルムに通常記録される文字列のフォントは、ビットマップ方式フォント(ドットフォント)であり、1文字が16×16〜40×40ドットで表現されている。
【0045】
そして、正規化文字5と標準パターン28との比較では、例えば、図4に示すように、正規化文字5を上下、左右、斜め方向の4つの成分に分解し、4つの成分を個々の文字の特徴として抽出して4つの成分を7×7の196個の特徴値とする。この正規化文字5の4つの成分毎の特徴値と、標準パターン28の4つの成分毎の特徴値とを、例えば、ユークリッド幾何学により比較し、正規化された文字と最も近い標準パターン28の文字を候補として挙げる。
【0046】
なお、正規化文字5と標準パターン28との比較は、特にこれに限定されず、例えば、ビットマップ方式フォントをアウトラインフォントに変換し、アウトラインフォントのエッジ特徴を抽出したものを標準パターン28として、正規化文字5のエッジ特徴と比較する拡張セル特徴方式で行うようにしてもよい。
【0047】
また、ビットマップ方式フォントをアウトラインフォントに変換し、アウトラインフォントの輪郭特徴を抽出したものを標準パターン28として、正規化文字5の輪郭特徴と比較する加重方向ヒストグラムで行うようにしてもよい。
【0048】
さらに、ビットマップ方式フォントをアウトラインフォントに変換し、アウトラインフォントの文字内の所定の点から8方向に触手を伸ばして求まる所定点の連結長を抽出したものを標準パターン28として、正規化文字5の所定点の連結長と比較する外郭方向寄与度特徴で行うようにしてもよい。
【0049】
また、ビットマップ方式フォントのドット位置を標準パターン28として、正規化文字5のドット位置との比較を行うようにしてもよい。
【0050】
このように正規化文字5をマイクロフィルムに記録された文字列と同一のフォントを基にした標準パターン28を用いて比較することで、マッチング手段26の認識精度を向上することができる。
【0051】
また、知識処理手段27は、マッチング手段26がマッチングさせた標準パターン28の候補から、文字列を作成し、日本語、英語等の単語情報などの言語情報を使用して、より正確な知識処理を行う。
【0052】
また、本実施形態では、マイクロフィルムに記録された文字列が帳票データであるため、知識処理手段27は、帳票データの数値を計算し、小計、合計などの計算結果からも、知識処理を行う。
【0053】
ここで、帳票データの知識処理を行う知識処理手段27は、対象となるマイクロフィルムに文字列を記録した際に用いられたプログラム、例えば、電子帳票ソフト、電子会計ソフトなどがある場合には、そのプログラムに基づいて検証ルールを確定し、検証ルールに基づいて認識した文字列の計算を行うことで、正確な知識処理を行うことができる。
【0054】
また、対象となるマイクロフィルムに文字列を記録した際に用いられたプログラムがない場合には、知識処理手段27は、検証ルールを形成して認識した文字列の知識処理を行う。
【0055】
具体的には、例えば、マイクロフィルムの文字列が図5に示すように、帳票データの細かな数値が書かれた明細行40と、この明細行40の内容が計算されたトータル行41とで分かれていた場合、明細行40をトランザクション行として、トータル行41と区別し、トランザクション行(明細行40)とトータル行41とを比較検討する検証ルールを形成する。この検証ルールは、例えば、OCRソフトが動作しているコンピュータ30を操作するユーザに検証ルールを確認させることで確定する。そして確定した検証ルールに基づいて、トランザクション行内の計算を行い、計算結果とトータル行41との値が異なる場合には、認識した文字データの正確な知識処理を行う。
【0056】
なお、このような一連の知識処理は、例えば、認識した文字列を表計算ソフトに取り込み、検証ルールを表計算ソフトのマクロとして動作させることで行うことができる。
【0057】
このように、マイクロフィルムに記録された文字列の種類に応じて知識処理手段27が知識処理を行うことで、さらなる認識精度を向上することができる。
【0058】
このようにOCRソフトが認識した標準パターン28は、コンピュータ30が文字データとして取得し、例えば、モニタなどへの表示、プリンタへの出力、CD−R(登録商標)、DVD−Rなどの他の記録媒体に出力することができる。
【0059】
また、例えば、スキャナ10で読み込んだイメージデータ1は、OCRソフト20により文字データとして認識した後に、所望のフォント、色、配置などに容易に変更することができる。これにより、プリンタ等で紙などに印刷する際に、読みやすく整理し易い状態での印刷が可能となる。勿論、イメージデータ1をOCRソフト20を介さずに直接プリンタから出力するようにしてもよい。
【0060】
さらに、マイクロフィルムに記録された文字列を高精度に認識して文字データとすることで、マイクロフィルムの全文検索などを行うことができる。これにより、マイクロフィルムに文字列を記録する際に、他の記録媒体に文字データなどの電子データを記録する必要がない。
【0061】
(他の実施形態)
以上、本発明の実施形態1を説明したが、本発明は上述したものに限定されるものではない。
【0062】
例えば、上述した実施形態1では、マイクロフィルムに記録された文字列を文字データとして認識するOCRソフト20をコンピュータ30に搭載したが、特にこれに限定されず、例えば、スキャナ自体にOCRソフトを搭載し、スキャナでイメージデータの取得と、イメージデータから文字データの認識とを行い、コンピュータに文字データを渡すようにしてもよい。
【0063】
また、上述した実施形態1では、マイクロフィルムにCOMシステムにより記録された文字列を文字データとして認識させるようにしたが、特にこれに限定されず、例えば、他のフォントを第2の標準パターンとしてさらに保持させるようにしてもよい。すなわち、COMシステムにより記録されたマイクロフィルムを読み込む際は、COMシステムと同様の標準パターンを用いて認識を行い、他の方法により記録されたものを読み込む際は、第2の標準パターンを用いて認識を行うようにすれば、他の方式での記録でも文字認識精度を低下させることがない。
【0064】
さらに、上述した実施形態1では、マイクロフィルムに記録された文字列のフォントをビットマップ方式フォントとしたが、マイクロフィルムに記録された文字列のフォントはビットマップ方式フォントに限定されるものではなく、文字認識手段24がマイクロフィルムに記録された文字列のフォントを標準パターンとして保持して、標準パターンを用いた文字の認識を行うことで、高精度な文字認識を行うことができる。
【0065】
【発明の効果】
以上説明したように、本発明のマイクロフィルムOCRシステムでは、マイクロフィルムの文字列の比較をする標準パターンとしてマイクロフィルムに記録された文字列と同等のフォントを用いることで、文字認識精度を向上することができる。
【図面の簡単な説明】
【図1】本発明の実施形態1に係るマイクロフィルムOCRシステムの概略を示すブロック図である。
【図2】本発明の実施形態1に係るイメージデータの概略図である。
【図3】本発明の実施形態1に係るイメージデータの概略図である。
【図4】本発明の実施形態1に係る文字認識方法を示す概略図である。
【図5】本発明の実施形態1に係るマイクロフィルムの文字列を示す図である。
【符号の説明】
1 イメージデータ
2 文字領域
3 1行の文字列
4 1文字
10 スキャナ
20 OCRソフト
21 レイアウト解析手段
22 行切り出し手段
23 文字切り出し手段
24 文字認識手段
25 正規化手段
26 マッチング手段
27 知識処理手段
28 標準パターン
30 コンピュータ
40 明細行
41 トータル行
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a microfilm OCR system in which a microfilm on which a character string output by a computer is recorded is read by a scanner, and the computer recognizes the data as character data by OCR software.
[0002]
[Prior art]
An OCR (Optical Character Reader) device that reads a recording medium on which a character string is printed as image data with a photosensitive element and recognizes a character area in the read image data as character data, or a scanner and a computer having a photosensitive element. The used OCR software has become widespread (for example, see Non-Patent Document 1).
[0003]
As a procedure in which the OCR apparatus or the OCR software reads the character area of the recording medium, first, a layout analysis is performed to find the character area of the read image data and determine the reading order. The line to be decomposed is cut out for each line, and then the cut-out line is cut out for each character, and then the character recognition is performed to recognize the character data for each character. .
[0004]
In character recognition, for each character, normalization, matching, and knowledge processing are performed in order of character size, character font (Mincho, Gothic, textbook), character collapse, and blurring. Processing is in progress.
[0005]
In the normalization, one character to be recognized is converted into a certain size, thereby absorbing deformation of the character such as vertical and horizontal length.
[0006]
Conventionally, in matching, characters are identified by simply superimposing normalized characters on a standard pattern registered in advance and comparing them.
[0007]
However, in this method, it was difficult to obtain high recognition accuracy due to variations in character inclination, character style, crushing, and blurring. Has been adopted.
[0008]
As a method of identifying from the characteristics of this character, for example, a normalized character is decomposed into four components, that is, up, down, left, right, and oblique directions, and this component is extracted as a feature of the character. And a character feature (standard pattern) registered in advance are compared.
[0009]
Further, in the knowledge processing, the recognized character data of each character is converted into continuous character string data, and a kanji character string, a katakana character string, and the like are extracted from the character string data, and the part is collated with a word dictionary registered in advance. It automatically corrects misread parts.
[0010]
By performing each process in this manner, the OCR device or the OCR software can recognize the character string recorded on the recording medium as character data.
[0011]
On the other hand, conventionally, a COM (Computer Output Microfilm) system which outputs data processed by a computer as a character string or a figure which can be read by a human on a microfilm and uses it on a film basis has been used (for example, non-patented). Reference 2).
[0012]
This COM system has the advantages of being paperless, saving storage space, and having less deterioration due to storage, and excellent in long-term storage, as well as unpredictable risks such as system down in digital data storage and intrusion of computer viruses. Can be handled. Further, the contents recorded on the microfilm cannot be falsified, and have a high advantage in document management construction.
[0013]
In this COM system, as a method of recording data from a computer as a character string or a figure on a microfilm, a CRT method of projecting a character string and a figure on a CRT tube surface and optically projecting this on a microfilm is used. Was used.
[0014]
However, in recent years, a laser method of directly projecting and recording a laser beam using a He-Ne laser or an Ar laser on a microfilm has been adopted in order to increase processing speed, increase resolution, and facilitate maintenance. .
[0015]
Characters recorded in this manner are output in a format such as kanji COM for outputting kanji alphanumeric / kana characters and graphic COM for outputting graphs and drawings. The characters recorded on the microfilm are each represented by 16 × 16 dots to 40 × 40 dots, that is, a bitmap font (dot font) is widely used.
[0016]
[Non-patent document 1],
Media Drive Co., Ltd., [online], [searched on February 21, 2003], Internet <URL: http: // www. mediadrive. co. jp / technology / whatsocr / overview. html>
[Non-patent document 2]
Masao Bando, 9 others, "COM System Guide-Computer Output Microfilm", Japan Image Information Management Association, November 15, 1998.
[Problems to be solved by the invention]
However, even if the microfilm recorded by the above-mentioned COM system or the like is read as image data and recognized as character data composed of electronic data using an existing OCR device or OCR software, the character string recorded on the microfilm is still Due to the small size, there is a problem that the character recognition accuracy is low with existing OCR devices or OCR software.
[0018]
In view of such circumstances, an object of the present invention is to provide a microfilm OCR system with improved character recognition accuracy when reading a character string recorded on a microfilm as character data.
[0019]
[Means for Solving the Problems]
According to a first aspect of the present invention, there is provided a microfilm OCR system in which a microfilm on which a character string is recorded is read as image data by a scanner, and a computer recognizes a character area in the image data as character data. And holding the font of the character string recorded on the microfilm as a standard pattern, and comparing the standard pattern with the character area of the image data to recognize the character area as the character data by the computer. And a microfilm OCR system.
[0020]
A second aspect of the present invention is the microfilm OCR system according to the first aspect, wherein the standard pattern comprises an outline font obtained by converting the font of the character string recorded on the microfilm. .
[0021]
A third aspect of the present invention is the microfilm OCR system according to the first aspect, wherein the recognition of the character data is performed directly using a font of the character string recorded on the microfilm. is there.
[0022]
A fourth aspect of the present invention is the microfilm OCR system according to any one of the first to third aspects, wherein the microfilm is a COM film recorded by a COM system.
[0023]
According to a fifth aspect of the present invention, in any one of the first to fourth aspects, the recognition of the character data includes a layout analysis for determining an order of finding and reading the character region of the image data; A microfilm, comprising: extracting a line to be decomposed for each line from a line; extracting a character for extracting the extracted line for each character; and character recognition for recognizing the character data for each character. It is in the OCR system.
[0024]
According to a sixth aspect of the present invention, there is provided the microfilm OCR system according to the fifth aspect, wherein the recognition of the character data for each character is performed by normalization, matching, and knowledge processing. .
[0025]
According to a seventh aspect of the present invention, in the fifth or sixth aspect, the character string recorded on the microfilm is form data, and the knowledge processing calculates the recognized character data and performs the correct / incorrect processing. A microfilm OCR system is characterized in that:
[0026]
According to an eighth aspect of the present invention, in the seventh aspect, the knowledge processing establishes a verification rule based on a program used when the character string was recorded on the microfilm, and based on the verification rule. The microfilm OCR system is characterized in that correct / incorrect processing is performed by calculating the character data.
[0027]
In a ninth aspect of the present invention based on the seventh aspect, the knowledge processing establishes a verification rule based on the recognized character data, and calculates the character data based on the verification rule. A microfilm OCR system characterized by performing processing.
[0028]
In the present invention, the font of the character string recorded on the microfilm is held as a standard pattern, and the character string is recognized as character data by comparing with the standard pattern. Can be improved in character recognition accuracy.
[0029]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, the present invention will be described in detail based on embodiments.
[0030]
(Embodiment 1)
FIG. 1 is a block diagram schematically showing a microfilm OCR system.
[0031]
As shown in FIG. 1, a microfilm OCR system includes a scanner 10 for reading a microfilm on which a character string is recorded as image data, and an OCR software for recognizing character data from a character area of the image data read by the scanner 10. And a computer 30 having the same.
[0032]
The microfilm may be, for example, a roll film obtained by winding a 16 mm or 35 mm film on a reel with a length of 30.5 m (100 ft) or 65.5 m (215 ft), or a 105 mm × 148 mm microfish (JIS Z6001). Information including a character string is recorded in a shape or a positive shape. Examples of information recorded on such a microfilm include form data. The microfish may be in any form of a roll or a sheet, and the shape is not particularly limited.
[0033]
The scanner 10 reads a character string, a graphic, and the like recorded on a microfilm as image data 1, and includes, for example, a flat head scanner or a film scanner using a linear CCD. When a continuous roll of microfilm is used, the scanner may be provided with a conveying means for conveying the microfilm so that the microfilm can be read continuously as image data.
[0034]
The computer 30 includes a computer main body (not shown), a monitor, an operation keyboard, and the like. The computer 30 includes OCR software 20 that recognizes a character area of the image data 1 read by the scanner 10 as character data. .
[0035]
The OCR software 20 built in the computer 30 includes a layout analyzing unit 21 for analyzing a character area of the image data 1 received from the scanner 10, a line extracting unit 22 for extracting a line from the analyzed character area, and a line extracting unit 22. A character extracting means 23 for extracting one character from the extracted line and a character recognizing means 24 for recognizing the extracted character are provided.
[0036]
The layout analysis unit 21 analyzes the character area 2 of the image data 1 read by the scanner 10 as shown in FIG. Such a layout analysis unit 21 may automatically analyze the character area 2 or may display the image data 1 on a monitor of the computer 30 and allow the user to select it.
[0037]
The line cutout unit 22 cuts out one line of the character string 3 from the character area 2 analyzed by the layout analysis unit 21, as shown in FIG. 2B. This one-line character string 3 is automatically cut out in correspondence with horizontal writing or vertical writing.
[0038]
Further, as shown in FIG. 2 (c), the character extracting means 23 extracts one character 4 from the character string 3 of one line extracted by the line extracting means 22.
[0039]
As described above, one character 4 cut out from the image data 1 by the layout analysis unit 21, the line cutout unit 22, and the character cutout unit 23 is recognized as character data by the character recognition unit 24.
[0040]
The character recognition unit 24 includes a normalization unit 25, a matching unit 26, a knowledge processing unit 27, and a standard pattern 28.
[0041]
The normalizing means 25 converts the size of one character 4 extracted by the character extracting means 23 as shown in FIG. 3A to a predetermined size as shown in FIG. Absorbs deformation such as portrait or landscape.
[0042]
The size of the normalized character 5 deformed by the normalizing means 25 is changed to be equal to the standard pattern 28 held by the character recognizing means 24. As described above, by making the one character 4 the normalized character 5 which is normalized so as to have the same size as the standard pattern 28, the recognition accuracy can be improved when the one character 4 is compared with the standard pattern 28. it can.
[0043]
Further, the matching means 26 compares the transformed normalized character 5 with the standard pattern 28 and gives the closest character candidate.
[0044]
Here, the standard pattern 28 held by the character recognizing means 24 is equivalent to a character string font recorded on a microfilm. When a COM film (a microfilm recorded by a COM system) is used as the microfilm, the character string font normally recorded on the COM film is a bitmap font (dot font), and one character is It is represented by 16 × 16 to 40 × 40 dots.
[0045]
Then, in the comparison between the normalized character 5 and the standard pattern 28, for example, as shown in FIG. 4, the normalized character 5 is decomposed into four components of up, down, left, right, and oblique directions, and the four components are separated into individual characters. And the four components are set as 196 feature values of 7 × 7. The feature value of each of the four components of the normalized character 5 and the feature value of each of the four components of the standard pattern 28 are compared by, for example, Euclidean geometry, and the standard character 28 closest to the normalized character is compared. List characters as candidates.
[0046]
The comparison between the normalized character 5 and the standard pattern 28 is not particularly limited thereto. For example, a standard pattern 28 is obtained by converting a bitmap font into an outline font and extracting the edge features of the outline font. The extended cell feature method for comparing with the edge feature of the normalized character 5 may be used.
[0047]
Alternatively, a bitmap font may be converted to an outline font, and the outline features of the outline font may be extracted and used as a standard pattern 28 using a weighted direction histogram for comparison with the outline features of the normalized character 5.
[0048]
Further, a bitmap type font is converted to an outline font, and a connection length of a predetermined point obtained by extending a tentacle from a predetermined point in the character of the outline font in eight directions is extracted as a standard pattern 28, and a normalized character 5 May be performed using the contour direction contribution characteristic to be compared with the connection length of the predetermined point.
[0049]
Further, the dot position of the bitmap font may be used as the standard pattern 28 to compare with the dot position of the normalized character 5.
[0050]
By comparing the normalized character 5 with the character string recorded on the microfilm using the standard pattern 28 based on the same font, the recognition accuracy of the matching means 26 can be improved.
[0051]
Further, the knowledge processing means 27 creates a character string from the standard pattern 28 candidates matched by the matching means 26, and uses language information such as word information such as Japanese and English to perform more accurate knowledge processing. I do.
[0052]
Further, in this embodiment, since the character string recorded on the microfilm is the form data, the knowledge processing means 27 calculates the numerical value of the form data and performs the knowledge processing also from the calculation results such as the subtotal and the total. .
[0053]
Here, the knowledge processing unit 27 that performs the knowledge processing of the form data includes a program used when the character string is recorded on the target microfilm, for example, electronic form software, electronic accounting software, and the like. By determining the verification rule based on the program and calculating the recognized character string based on the verification rule, accurate knowledge processing can be performed.
[0054]
If there is no program used when the character string is recorded on the target microfilm, the knowledge processing unit 27 forms a verification rule and performs knowledge processing on the recognized character string.
[0055]
Specifically, for example, as shown in FIG. 5, the character string of the microfilm includes a detailed line 40 in which detailed numerical values of the form data are written, and a total line 41 in which the content of the detailed line 40 is calculated. If they are divided, the detail row 40 is set as a transaction row, distinguished from the total row 41, and a verification rule for comparing and reviewing the transaction row (detail row 40) and the total row 41 is formed. This verification rule is determined, for example, by having the user who operates the computer 30 running the OCR software confirm the verification rule. Then, the calculation in the transaction line is performed based on the determined verification rule, and when the calculation result is different from the value in the total line 41, accurate knowledge processing of the recognized character data is performed.
[0056]
Note that such a series of knowledge processing can be performed, for example, by importing a recognized character string into spreadsheet software and operating the verification rule as a macro of the spreadsheet software.
[0057]
As described above, the knowledge processing unit 27 performs the knowledge processing according to the type of the character string recorded on the microfilm, so that the recognition accuracy can be further improved.
[0058]
The standard pattern 28 recognized by the OCR software is acquired by the computer 30 as character data, and is displayed on a monitor or the like, output to a printer, or other data such as a CD-R (registered trademark) or a DVD-R. It can be output to a recording medium.
[0059]
Further, for example, after the image data 1 read by the scanner 10 is recognized as character data by the OCR software 20, it can be easily changed to a desired font, color, arrangement, and the like. As a result, when printing on paper or the like with a printer or the like, printing can be performed in a state that is easy to read and organize. Of course, the image data 1 may be directly output from the printer without using the OCR software 20.
[0060]
Furthermore, by recognizing a character string recorded on the microfilm with high accuracy and forming it as character data, a full-text search of the microfilm can be performed. This eliminates the need to record electronic data such as character data on another recording medium when recording a character string on the microfilm.
[0061]
(Other embodiments)
As described above, the first embodiment of the present invention has been described, but the present invention is not limited to the above.
[0062]
For example, in the first embodiment described above, the OCR software 20 for recognizing a character string recorded on a microfilm as character data is installed in the computer 30, but the present invention is not limited to this. For example, the OCR software is installed in the scanner itself. Then, the scanner may acquire the image data, recognize the character data from the image data, and pass the character data to the computer.
[0063]
In the first embodiment, the character string recorded on the microfilm by the COM system is recognized as character data. However, the present invention is not particularly limited to this. For example, another font may be used as the second standard pattern. You may make it hold | maintain further. That is, when reading a microfilm recorded by the COM system, recognition is performed using the same standard pattern as that of the COM system, and when reading a microfilm recorded by another method, the second standard pattern is used. If the recognition is performed, the character recognition accuracy does not decrease even when recording is performed by another method.
[0064]
Furthermore, in the first embodiment described above, the font of the character string recorded on the microfilm is a bitmap font, but the font of the character string recorded on the microfilm is not limited to the bitmap font. The character recognition means 24 holds the font of the character string recorded on the microfilm as a standard pattern and performs character recognition using the standard pattern, so that highly accurate character recognition can be performed.
[0065]
【The invention's effect】
As described above, the microfilm OCR system of the present invention improves character recognition accuracy by using a font equivalent to a character string recorded on a microfilm as a standard pattern for comparing the character strings of the microfilm. be able to.
[Brief description of the drawings]
FIG. 1 is a block diagram schematically showing a microfilm OCR system according to a first embodiment of the present invention.
FIG. 2 is a schematic diagram of image data according to the first embodiment of the present invention.
FIG. 3 is a schematic diagram of image data according to the first embodiment of the present invention.
FIG. 4 is a schematic diagram illustrating a character recognition method according to the first embodiment of the present invention.
FIG. 5 is a diagram showing a character string of the microfilm according to the first embodiment of the present invention.
[Explanation of symbols]
1 Image data 2 Character area 3 One line character string 4 One character 10 Scanner 20 OCR software 21 Layout analysis means 22 Line extraction means 23 Character extraction means 24 Character recognition means 25 Normalization means 26 Matching means 27 Knowledge processing means 28 Standard pattern 30 Computer 40 Detail line 41 Total line

Claims (9)

文字列が記録されたマイクロフィルムをスキャナによりイメージデータとして読み取ると共に、該イメージデータ内の文字領域をコンピュータに文字データとして認識させるマイクロフィルムOCRシステムであって、
前記マイクロフィルムに記録された前記文字列のフォントを標準パターンとして保持すると共に、該標準パターンと前記イメージデータの文字領域とを比較して当該文字領域を前記文字データとしてコンピュータに認識させることを特徴とするマイクロフィルムOCRシステム。
A microfilm OCR system in which a microfilm on which a character string is recorded is read as image data by a scanner and a character area in the image data is recognized by a computer as character data,
A font of the character string recorded on the microfilm is held as a standard pattern, and the standard pattern is compared with a character area of the image data to cause a computer to recognize the character area as the character data. Microfilm OCR system.
請求項1において、前記標準パターンが、前記マイクロフィルムに記録された前記文字列のフォントを変換したアウトラインフォントからなることを特徴とするマイクロフィルムOCRシステム。2. The microfilm OCR system according to claim 1, wherein the standard pattern comprises an outline font obtained by converting a font of the character string recorded on the microfilm. 請求項1において、前記文字データの認識が、前記マイクロフィルムに記録された前記文字列のフォントを直接用いて行われることを特徴とするマイクロフィルムOCRシステム。2. The microfilm OCR system according to claim 1, wherein the recognition of the character data is performed directly using a font of the character string recorded on the microfilm. 請求項1〜3の何れかにおいて、前記マイクロフィルムがCOMシステムにより記録されたCOMフィルムであることを特徴とするマイクロフィルムOCRシステム。The microfilm OCR system according to any one of claims 1 to 3, wherein the microfilm is a COM film recorded by a COM system. 請求項1〜4の何れかにおいて、前記文字データの認識が、前記イメージデータの前記文字領域を見つけて読む順序を決定するレイアウト解析と、連続した文字領域から1行毎に分解する行の切り出しと、切り出した1行を1文字毎に切り出す文字の切り出しと、1文字毎に前記文字データの認識を行う文字認識とを含むことを特徴とするマイクロフィルムOCRシステム。The character data recognition according to any one of claims 1 to 4, wherein the character data is recognized by determining a reading order of the character area of the image data and determining a reading order, and extracting a line to be decomposed line by line from a continuous character area. A microfilm OCR system comprising: a character cutout for cutting out a cutout line for each character; and a character recognition for recognizing the character data for each character. 請求項5において、前記1文字毎の前記文字データの認識が、正規化、マッチング、知識処理により構成されていることを特徴とするマイクロフィルムOCRシステム。6. The microfilm OCR system according to claim 5, wherein the recognition of the character data for each character includes normalization, matching, and knowledge processing. 請求項5又は6において、前記マイクロフィルムに記録された文字列が帳票データであると共に、前記知識処理が、認識した文字データの計算を行い正誤の処理を行うことを特徴とするマイクロフィルムOCRシステム。7. The microfilm OCR system according to claim 5, wherein the character string recorded on the microfilm is form data, and the knowledge processing calculates the recognized character data and performs correct / incorrect processing. . 請求項7において、前記知識処理が、前記文字列を前記マイクロフィルムに記録した際に用いたプログラムに基づいて検証ルールを確立し、該検証ルールに基づいて前記文字データの計算を行うことで正誤処理を行うことを特徴とするマイクロフィルムOCRシステム。8. The method according to claim 7, wherein the knowledge processing establishes a verification rule based on a program used when the character string is recorded on the microfilm, and calculates the character data based on the verification rule. A microfilm OCR system characterized by performing processing. 請求項7において、前記知識処理は、認識した前記文字データに基づいて検証ルールを確立し、該検証ルールに基づいて前記文字データの計算を行うことで正誤処理を行うことを特徴とするマイクロフィルムOCRシステム。8. The microfilm according to claim 7, wherein the knowledge processing establishes a verification rule based on the recognized character data, and performs correctness processing by calculating the character data based on the verification rule. OCR system.
JP2003134835A 2003-05-13 2003-05-13 Microfilm ocr system Pending JP2004341631A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003134835A JP2004341631A (en) 2003-05-13 2003-05-13 Microfilm ocr system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003134835A JP2004341631A (en) 2003-05-13 2003-05-13 Microfilm ocr system

Publications (1)

Publication Number Publication Date
JP2004341631A true JP2004341631A (en) 2004-12-02

Family

ID=33525281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003134835A Pending JP2004341631A (en) 2003-05-13 2003-05-13 Microfilm ocr system

Country Status (1)

Country Link
JP (1) JP2004341631A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152885B2 (en) 2012-04-12 2015-10-06 Kyocera Document Solutions Inc. Image processing apparatus that groups objects within image
JP2015225624A (en) * 2014-05-30 2015-12-14 株式会社ミツバ Autonomous travelling vehicle, autonomous traveling system, and automated factory

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9152885B2 (en) 2012-04-12 2015-10-06 Kyocera Document Solutions Inc. Image processing apparatus that groups objects within image
JP2015225624A (en) * 2014-05-30 2015-12-14 株式会社ミツバ Autonomous travelling vehicle, autonomous traveling system, and automated factory

Similar Documents

Publication Publication Date Title
KR100412317B1 (en) Character recognizing/correcting system
JP3292388B2 (en) Method and apparatus for summarizing a document without decoding the document image
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
EP2166488B1 (en) Handwritten word spotter using synthesized typed queries
CN109919147A (en) The method of text identification in drop for clothing image
JP3294995B2 (en) Form reader
JPH05282488A (en) Method for automatically changing semantically important part of document without decoding document picture
Fischer Handwriting recognition in historical documents
JP2008204226A (en) Form recognition device and its program
JP4280355B2 (en) Character recognition device
JP2008059527A (en) Image processor and program
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
CN115311666A (en) Image-text recognition method and device, computer equipment and storage medium
JP2019036146A (en) Image analysis device and image analysis program
CN116822634A (en) Document visual language reasoning method based on layout perception prompt
JPH1125209A (en) Information input device, its method, recording medium, and two-dimensional bar code printer
JP2004341631A (en) Microfilm ocr system
Kumar et al. Line based robust script identification for indianlanguages
JP2008257543A (en) Image processing system and program
JP4810853B2 (en) Character image cutting device, character image cutting method and program
Al-Barhamtoshy et al. Arabic OCR segmented-based system
JP4117648B2 (en) Form, form processing method, form processing program, recording medium recording form processing program, and form processing apparatus
Sturgeon Unsupervised extraction of training data for pre-modern Chinese OCR
JP2004046723A (en) Method for recognizing character, program and apparatus used for implementing the method
CN113052179B (en) Multi-tone word processing method and device, electronic equipment and storage medium