JPH09237320A - 文書フォーマットの復元方法 - Google Patents

文書フォーマットの復元方法

Info

Publication number
JPH09237320A
JPH09237320A JP8045695A JP4569596A JPH09237320A JP H09237320 A JPH09237320 A JP H09237320A JP 8045695 A JP8045695 A JP 8045695A JP 4569596 A JP4569596 A JP 4569596A JP H09237320 A JPH09237320 A JP H09237320A
Authority
JP
Japan
Prior art keywords
character
character string
characters
blank
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8045695A
Other languages
English (en)
Inventor
Ichiro Ogura
一郎 小倉
Yoshikazu Shigeoka
美和 重岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP8045695A priority Critical patent/JPH09237320A/ja
Publication of JPH09237320A publication Critical patent/JPH09237320A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】文字読取装置における読み取り認識結果が読み
取り対象の文書のフォーマットを文字コードで表示され
るキャラクタの範囲で近似的に復元されるようにする。 【解決手段】読み取り対象の文書を一旦読み取り認識し
て一次テキストファイルファイルを得たのち、この一次
テキストファイルファイル上で空白文字によって区切ら
れる文字列を検出し、検出した各文字列の原画像上での
配置位置を文字パターン切り出し時の枠位置の座標から
抽出して一次テキストファイルファイル上での空白文字
を含む文字配列と照合することによって不適正に配置さ
れた空白文字を検出し、この空白文字の削除挿入を行っ
て読み取り対象文書のフォーマットを近似して復元す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は光学的文字読取装
置が印刷文書を読み取って認識する際の文書フォーマッ
トを認識して復元する方法に関する。
【0002】
【従来の技術】文字読取装置(以下OCRと略記する)
1は、図13に例示のようにイメージスキャナ21と文字認
識プロセッサ22からなる文字読取認識部2およびホスト
コンピュータ3によって構成されており、イメージスキ
ャナ21は読取対象の文書を1インチ(25.4mm)当り例え
ば 400ドットほどの区画に分けて各区画の明暗の程度を
光学センサで読み取り、読み取った明暗階調の数値デー
タを、区画の位置座標のイメージでアドレスを配列して
文字認識プロセッサ22のメモリに確保した画像メモリ領
域に文字画像データとして書き込み格納する。したがっ
て、文書をイメージスキャナにかけたき、該文書を構成
する各文字の文字画像データの配置位置は約0.06mm(=
25.4mm/400)の分解能で把握されてメモリに格納されて
いることとなる。
【0003】文字認識プロセッサ22は図14に示す処理の
フローに従い、まず入力された文字画像データの集合で
なる原画像を観測して1文字として処理すべき文字パタ
ーン領域の切出しを行い、つづいて切り出した文字パタ
ーンを解析して特徴パラメータを抽出し、この特徴パラ
メータを読み取り対象範囲の各文字に対応して予め用意
した各文字に属する特徴パラメータの辞書と照合して特
徴パラメータが整合する文字を抽出することによって読
取った文字を認識し、該文字に割当た文字コードを得て
文字情報としてのテキストファイルを作成している。
【0004】OCRにおける上記の認識対象の文字の切
り出しは、入力された原画像について先ず文字行の切り
出しを行い、次に、切り出した文字行の文字画像データ
から、一文字単位として認識すべき文字パターンの切り
出しが行われるが、このとき、空白を含む文字行につい
ては空白区間の距離を検出し、該文字行を構成する空白
でない文字に対して検出した文字サイズをもとにこの空
白区間距離を埋める文字数を計算し、計算された文字数
分の空白文字コードを割り当てて空白区間を空白文字数
として認識するようにしている。
【0005】ところで、同等の寸法の印刷文字であって
も漢字,仮名,英字,数字などの文字種の差異と、ゴシ
ック体,イタリック体などの書体の差によって文字サイ
ズは微妙に異なっているので、異なる文字種と書体の文
字が混在し空白区間が多い文書をOCRで読み取る場
合、空白文字数の認識に混乱を生じてしまう。さらに、
OCRが生成するテキストファイルには、読み取って認
識した文字の書体と寸法に係わる情報は加えられず、英
字と数字およびカナ文字についてのみ文字コードによっ
て全角と半角を区別して出力しているので、図書の目次
や見出し及び罫線なしの表形式の文書などのように異な
る文字種と書体でかつ寸法も異なる文字が混在し、か
つ、空白区間が多い文書をOCRで読み取て得たテキス
トファイルによって表示した文書のフォーマットが読み
取り対象の原文書のフォーマットから大きく崩れてしま
うことがある。
【0006】図15に雑誌の目次に相当する印刷原文書
を、そして、該文書の従来技術にもとづくOCRによる
読み取り認識結果を図16に例示する。この例の原文書で
は、表題の「特集」は他の文字より大きめの斜体文字
で、かな文字と漢字および型式符号としての英字「S」
とは同等の大きさのゴシック体で、一方、頁数字と連結
して語を成すPFUなどの英文字はかな漢字文字より幾
分文字幅が狭いゴシック体で且つ文字間を詰めて記載さ
れており、また、行によって字下げ量と空白区間が異な
っている。このため、文字列の先頭文字種が隣接あるい
は相対する行と異なっている箇所などで空白文字数が不
適正に選定されて、図15の(b)に例示のようにOCR
の読み取り結果の文書フォーマットが原文書(a)のそ
れと異なる結果を与えている。
【0007】また、図17に例示した罫線なしの表形式の
印刷原文書(a)とOCRによる読み取り認識結果
(b)においても、原文書には異なる文字サイズと書体
の文字が混在しているため、空白文字数が不適正に選定
されてOCRの読み取り認識結果は原文書における表項
目の配列を適正に復元していない。図18には、英文印刷
文書の原文(a)と、そのOCRによる読み取り認識結
果(b)を例示する。
【0008】英文の場合、各単語は半角文字相当で記載
され、単語間は半角空白文字で区切られ、文頭や略称な
どは全角相当の大文字で強調されることがあり、さら
に、単語間の空白や単語内文字間の距離を目立たない程
度に調整して文章途中の行末尾が揃うようにするプロポ
ーショナルピッチと呼ばれる処理が行われていることが
ある。このため、英文文書における文字種構成とその配
列は詳細に見るとかなり複雑になっており、従来技術に
もとづくOCRでは上記のような英文書の形態を正確に
認識できず、図18の(b)に例示のような余計な空白を
所々に挿入した結果を出力してしまうことがある。
【0009】さらに、図19に読取対象の文書がイメージ
スキャナーのスキャニングベッド上に僅かに傾斜してセ
ットされ、スキャナの走査で得られた明暗階調データが
画像メモリー領域の列の行とアドレス配列に対して傾斜
して書込まれたときの原画像(a)とOCRの読み取り
認識結果(b)を例示する。この例では、横書きの文書
の原画像が僅かに傾斜して入力されたため、下位の行頭
位置に空隙を生じることとなり、OCRは、この空隙を
空白文字として認識してしまい原文書のフォーマットを
正しく復元していない。
【0010】
【発明が解決しようとする課題】本発明は、OCRにお
ける上記従来の行を単位に行毎に文字を切り出して認識
する処理で発生しがちな文書フォーマットの崩れの発生
を防止し、読み取り対象の文書のフォーマットが文字コ
ードで表示されるキャラクタの範囲で復元されて違和感
なく視認できる読み取り文書の表示が可能なテキストフ
ァイルを生成するOCRの文字認識処理における文書フ
ォーマットの復元方法を提供することを目的とする。
【0011】
【課題を解決するための手段】上記の目的達成のため、
本発明ではOCRの文字認識処理における文書フォーマ
ットの復元工程を以下のように構成する。すなわち、読
み取り対象の文書を光学走査して得た原画像から文字行
を順次抽出し、抽出した各文字行について1文字を構成
する文字パターンの切り出しを行って文字を認識し、該
文字行が空白区間を含むときには、空白区間の距離を検
出し、該文字行の非空白区間を構成する文字に対して検
出した文字サイズをもとにこの空白区間距離を埋める文
字数を計算し、計算された文字数分の空白文字コードを
割り当て、文字パターンの切り出しを行ったときの文字
間距離に乱れを生じている部分はプロポーショナルピッ
チの適用箇所と判定し、単語としての文字列間の空白に
は空白区間距離によらず半角の空白文字コードを割り当
てて空白文字を含む文字認識を行い、全文字行の空白文
字を含む文字認識を終了してこの結果を一次テキストフ
ァイルファイルとして得る。
【0012】つづいて、この一次テキストファイルファ
イル上で各行毎に空白文字によって区切られる文字列を
検出し、検出した各文字列の原画像上での配置位置の認
識を該文字列の先端位置を検出することによって行うこ
ととし、該文字列の先頭文字を原画像上で文字パターン
としてを切り出したときの枠位置の座標を抽出すること
によって認識し、原画像上での文字列の配置位置の分布
を前記によって認識した文字列先端位置の分布データと
して求める。
【0013】そして、得られた文字列先端位置の分布デ
ータ上で空白1文字相当未満の空白区間を置いて近接す
る文字列を同群の文字列と解釈して全行の文字列を群別
し、群別の結果同一群内に複数文字列の帰属が認められ
るとき、前記一次テキストファイルファイル上でこの群
に属する各文字列に先行する空文字を含む行内文字の数
を調べ、先行行内文字数が異なる文字列が検出された場
合、該文字列に前置されている空白文字列に空白文字を
挿入または削除して各文字列に先行する行内文字の数が
同一群内で一致すように前記一次テキストファイルファ
イルを修正することによって、読み取り対象の文書のフ
ォーマットを近似したテキストファイルが得られるよう
する。
【0014】また、読み取り対象文書が欧文文書の場
合、一次テキストファイル上での文字列の検出にもとづ
いて行う原画像上での各文字列の配置位置の認識を、該
文字列の先頭文字とともに末尾文字についても該文字の
文字パターンを切り出したときの枠位置の座標を抽出す
ることによって行い、原画像上での文字列の配置位置の
分布を求める処理を各文字列に前置されている空間距離
の分布を求める処理とする。そして、得られた文字列の
配置位置の分布データをもとに行う文字列を群別する処
理を、各文字列に前置されている空間距離が半角文字1
文字相当以下のとき、または、1次テキストファイルに
おいて半角空白が割り当てられている場合これを無視
し、当該行の文字サイズを超えるか全角文字1文字以上
に相当する場合には空間の存在を認識する処理とし、上
記の規則もとづいて文字列を群別したとき同一群内に複
数文字列の帰属が認められる場合、一次テキストファイ
ル上において各文字列に前置された空白文字数がこの文
字列の群別の区分に整合するように空白文字を挿入また
は削除して読み取り対象文書フォーマットを近似的に復
元する。
【0015】
【発明の実施の形態】本発明の方法にもとづいて文書フ
ォーマットを復元するOCRにおける処理の基本を図1
のフロー図に示す。なお、以下の説明においても従来技
術の説明の項で用いた図13ないし図19は必要に応じて随
時引用することとし、その説明の繰り返しは省略する。
【0016】図1のフロー図において、読み取り認識対
象の文書をイメージスキャナで走査して得た明暗階調デ
ータを、文字認識プロセッサのメモリに確保した画像メ
モリ領域に原画像として書き込み入力する文字画像入力
工程(S1)から、続いて行う入力された文字画像デー
タから文字行を抽出する工程(S2)、抽出した文字行
について1文字を構成する文字パターンを切り出しを行
い、文字間距離に乱れを生じている部分はプロポーショ
ナルピッチの適用箇所と判定する処理を含む工程(S
3)、切り出した文字パターンについて特徴パラメータ
を抽出して特徴辞書と照合して空白文字コードを含む文
字コードを得る文字認識の工程(S5)までの処理は、
図14によって説明の従来技術にもとづく文字読み取り認
識処理における工程Eの文字認識までの工程と同等の処
理である。
【0017】空白文字も含め各文字を認識する工程(S
5)までの処理を原画像を構成する全文字行について終
了して一次テキストファイルファイルが得られたら、続
いて文書フォーマットを正しく認識するために、テキス
トファイル上で空白文字で区分された文字列を抽出する
工程(S6)と、抽出した各文字列の先頭文字について
原画像上における該先頭文字に対応の位置を抽出する工
程(S7)とを実行し、この文字列情報とその位置情報
の両データをもとに文書フォーマットを復元する工程
(S8)を実行する。
【0018】以下に、上記の工程(S6)ないし工程
(S8)の詳細を、図1とともに処理過程の状態を説明
する図2ないし図6も用いて説明する。図15の(a)に
例示のような目次文書を本発明の方法にもとづいて文書
フォーマットを復元するOCRによって読み取ると、工
程(S5)までの処理によって、一旦図15の(b)に例
示の一部に文書フォーマットの崩れを含む内容の一次テ
キストファイルファイルが得られる。
【0019】そこで、この一次テキストファイルファイ
ルを観測して空白文字で区切られた文字の範囲を文字列
として検出する工程(S6-1)を実行し、検出した文字列
にはこの文字列が属する行の番号と行内配列順位番号を
付して識別可能にしておく。図2に文字列検出結果の概
念を示す。文字列の検出に続いて、各文字列の先端位置
を原画像上でこの文字列の先頭文字の文字パターンを切
り出したときの枠位置の座標を検索することによって抽
出し(S7-1)、得られた文字列先端位置データをもとに
文字列の先端位置の分布を求める(S7-2)。このとき、
文字列先端を直接座標値によって認識するのではなく、
予め選択した定点たとえば原画像上で最左端にある文字
列の先端を基準に各文字列先端までの距離を求めてこれ
を文字列先端の位置データとすると、位置データをもと
に行う判断処理の内容が簡素化されて処理の能率を上げ
ることができる。
【0020】上記によって文字列の先端位置の分布が求
められたら、文字列先端位置の偏差が空白1文字相当以
内の空白区間を置いて近接する文字列を同群の文字列と
解釈し、全行の文字列を文字列先端位置によって群別す
る(S8-1)。図3の(a)は一次テキストファイルファ
イルによって認識した各文字列先端の原画像上での位置
を抽出するときの概念を示しており、この例では文書中
で最左端にある表題文字列の先端を基準とする各文字列
先端までの距離を該文字列の先端位置として認識するこ
ととしている。
【0021】ところで、従来技術の項で説明のように、
同等の寸法の印刷文字であっても文字種の差異と書体の
差によって文字サイズは微妙に異なっているので、異な
る行で同等の位置にある文字であっても文字が異なると
原画像上で文字パターンを切り出すときの枠位置に微少
な偏差を生じているが、原画像上での各文字列先端位置
の抽出は、一次テキストファイルファイル上で不適正に
配置された空白文字を検出することを目的としているの
で、位置検出の分解能は読み取り対象文書を構成する最
小文字1文字の有無を検出できれば十分であり、約0.06
mmにも達するイメージスキャナの分解能をそのまま適用
する必要はなく、最小文字有無の区別が可能な予め定め
た分解能たとえば1mmピッチで検査するようにすると位
置検出の能率を上げることができる。
【0022】図4は最小文字有無の区別が可能な程度の
分解能で検索して得た文書中で最左端にある表題文字列
の先端を基準とする文字列先端位置のデータををもとに
生成した文字列の先端位置分布の状況を示す図であり、
各文字列の先頭文字を切り出すときの高分解能の位置検
出における位置認識のばらつきは吸収されて同群に属す
る各文字列の先端位置が明瞭に群別される様子が示され
ている。
【0023】上記の文字列の群別を行った結果、同一の
群内に複数文字列の帰属が認められるとき、一次テキス
トファイルファイルを参照してこの文字列群に属する各
文字列に先行する行内文字の数を調べ、先行行内文字数
が異なる文字列が検出された場合、この文字列に前置さ
れている空白文字列に空白文字を挿入または削除して各
文字列に先行する行内文字の数が同一群内で一致すよう
に一次テキストファイルファイルを修正する(S8-2)。
【0024】図5は各文字列の先行行内文字の数を調べ
て不適正な空白文字の挿入または削除を行う処理過程の
説明図であり、この文書を構成する文字列の先端が図4
のように分布しているので文字列集合は図5の(a)の
ように群別され、複数の文字列でなる群2と群3および
群10に先行文字数の不一致が検出されて空白文字の挿入
削除の補正処理が実行されたときの状態が図5の(b)
に示されており、補正した内容による文字読み取り認識
結果を図6に示す。
【0025】図5によれば、一次テキストファイルファ
イル生成の段階で空白文字の認識を誤って文字列位置に
1文字相当の誤差を発生したグループ2の文字列 2-1と
グループ3の文字列 6-1およびグループ10の文字列 7-3
については、原画像上での文字列先端位置確認によって
位置の偏差は1文字の幅に比べ十分に小さく、それぞれ
群3と群10の同一群に帰属すると判定された結果これら
の文字列に先行する空白文字数が適正に修正され、最終
の文字読み取り認識結果は図6に例示のように原文書の
フォーマットをかなりの程度忠実に近似して復元される
こととなる。
【0026】以上に、空白部分が多い目次文書を例に本
発明の方法を説明したが、従来技術の説明の項で図17に
よって例示の表形式の文書や図19によって例示のイメー
ジスキャナのスキャニングベットに斜めにセットされた
ために起こる読み取り認識不具合も全く同等の処理によ
って修復近似可能である。すなわち、イメージスキャナ
から入力された読み取り対象文書の原画像データを解析
して得た一次テキストファイルファイル上で空白文字に
よって区切られた文字列を検出し、検出した文字列に対
応させて原画像上における文字列先端の位置を抽出して
文字列先端位置の分布を求めて同等の位置を先端とする
文字列同志を同群に群別し、この群別結果を一次テキス
トファイルファイル上における文字列検出結果と照合し
て不適正に配置された空白文字を修正すればよいのでそ
の詳細説明は省略する。
【0027】ところで、英文書などの欧文の文書は従来
技術の説明の項で説明のように単語間の間隔にばらつき
を含む性格を内包しており、これをOCRによって読み
取ると、空白文字の設定にしばしば不適正を発生するこ
ととなるが、欧文文書を構成する単語の語長は様々であ
り各行にわたる単語の配置位置の調整も行われないない
ので、行間を横断する文字列としての単語配列の規則性
は通常見いだされず、このような欧文文書の読み取り認
識を上記に説明の本発明第一の方法にもとづくOCRに
よって読み取って処理しようとすると、単語配列の行間
を横断する規則性の欠落に起因して、文字列先頭の分布
をもとに文字列配置の群別を行う段階で意味のある群別
処理が不可能になって処理の遂行が行き詰まってしまう
こととなる。
【0028】図7と図8とは、図18の(a)に例示のよ
うな英文文書を第一の方法にもとづくOCRによって読
み取り処理を実行しようとした場合の、文字列先端分布
を求めた段階の状況を示しており、この文字列先端分布
の状況からは文字列の意味のある群別処理が不可能であ
ることが判読される。そこで、欧文文書を対象とする本
発明第二の方法では、一次テキストファイルファイル上
で文字列を検出した後に行う画像データ上での文字列の
座標検出を各文字列の先端と末端について行うことと
し、文字列の位置は先行する文字列の末端からの空間距
離で表すこととする。なお、行の先頭の文字列について
は画像データ上で最も端たとえば最左端に位置する文字
列先端を先行文字列の末端とするように処理すればよ
い。そうして、文字列の先端の分布は先行文字列の末端
からの空間距離を変数として求めることとし、このと
き、空間距離が予め定めた所定値たとえば全角文字幅相
当を超えない場合同属に帰属と判定するようにし、空間
距離が所定値を超える場合でも一次テキストファイルフ
ァイル上で半角空白1文字のみが配置されている箇所は
同属に帰属と判定するようにすると、単語先頭の全角相
当文字や単語間距離の偏差分は吸収されて図9に例示の
ような明瞭な群別が可能となる。すなわち、この図9に
おいては、図18の(a)に例示の英文文書が文字画像上
では文字列が最左端に位置する前置空白を持たない第1
のグループと、比較的大きな前置空白を持つ第2のグル
ープ、および先行文字列の末尾から僅かな間隔を置いて
配置された残りの文字列グループの3群に群別されるこ
とが示されている。
【0029】上記の画像データ上での文字列の群別を行
った結果同一の群内に複数文字列の帰属が認められると
き、第1の発明におけると同様、一次テキストファイル
ファイルを参照してそれぞれの文字列群に属する各文字
列に前置された空白文字の数を調べ、その結果、前置空
白文字数が異なる文字列が検出された場合、空白文字の
挿入または削除を行って各文字列の前置空白文字の数が
同一群内で一致すように一次テキストファイルを修正す
る。
【0030】図10は、図9に例示のような文字列の前置
空間の分布を得た後に行う各文字列に前置された空白文
字数を補正する処理過程の概念を示す図であり、図10の
(a)は画像データ上での文字列前置空間による文字列
群別結果に対し一次テキストファイルファイル上で検出
した各文字列を割りつけた文字列群別結果を示してお
り、同図の(b)は、群別した文字列群に属する各文字
列の前置空白文字数を調べて当該の文字列群に定まる前
置空白文字数に合わない文字列を検出したとき前置空白
文字の削除挿入を行った段階の状況を示している。
【0031】この図10の(b)によれば、一次テキスト
ファイルファイル生成の段階でグループ1と2に属する
文字列については前置空白文字は誤りなく認識されてい
るが、グループ3に属する文字列については番号2-1 文
字列をはじめとして幾つかの文字列において空白文字の
認識配置に誤りを生じていることが示されており、空白
文字数をグループ3に定まる文字数すなわち半角文字数
で1に合うように削除して補正を行った状況が示されて
いる。
【0032】以上の補正処理を行った結果、不適正な前
置空白文字を置いて一旦1次テキストファイルとして図
7に例示のように認識された英文文書は、誤認識箇所が
適正に補正されて原文書のフォーマットをかなりの程度
忠実に近似して図11に例示のように復元されることとな
る。上記の本発明第2の方法における処理のフローは図
12に例示のようになる。
【0033】
【発明の効果】本発明にもとづくOCRにおける文書フ
ォーマットの復元方法においては、読み取り対象の文書
を一旦読み取り認識して一次テキストファイルファイル
を得たのち、この一次テキストファイルファイル上で空
白文字によって区切られる文字列を検出し、検出した各
文字列の原画像上での配置位置を文字パターン切り出し
時の枠位置の座標から抽出して一次テキストファイルフ
ァイル上での空白文字を含む文字配列と照合することに
よって不適正に配置された空白文字を検出し、この空白
文字の削除挿入を行って読み取り対象文書のフォーマッ
トを近似するようにしているので、異なる文字種と書体
の文字が混じり、しかも文字寸法が異なる文字が存在
し、さらに、空白区間が多い文書であっても、適正に空
白文字を配置して読み取り対象文書のフォーマットを文
字コードで表示されるキャラクタの範囲で近似して復元
されて違和感なく視認できるテキストファイルが生成さ
れるという効果が得られる。
【0034】そして、検出した各文字列の原画像上での
配置位置を予め原画像上に選定した基準線からの距離と
して認識する方法によれば、共通の基準線に対する文字
列の位置を確認して処理が行われるので、行内に文字と
空白区間が混在するような文書であっても行間にわたり
文字位置が正しく認識されて読取対象文書のフォーマッ
トが的確に復元されるという効果とともに、位置データ
をもとに行う判断処理を基準線からの距離としての1変
数について行えばよいので処理の内容が簡素化されて処
理の能率を上げることができるという効果も得られる。
【0035】また、文字列間の空間距離を求めて文字列
間距離をもとに文字列を群別し、文字列に前置された空
白文字数を同一群内で一致させるように補正処理する方
法によれば、文字列間の空白文字数が適正に復元される
ので、単語間の間隔にばらつきを含むことがある英文書
などの欧文文書であってもその文書フォーマットが適正
に復元されるという効果が得られる。
【図面の簡単な説明】
【図1】第1の発明にもとづく文書のフォーマット復元
方法の処理フロー図
【図2】一次テキストファイルファイル上で抽出した文
字列の例を示す図
【図3】文字画像データ上での文字列先端位置検出説明
【図4】文字列先端分布図
【図5】文字列群別と空白文字配置適正化処理の説明図
【図6】フォーマットの近似復元結果の出力図
【図7】英文文書一次テキストファイルファイル上で抽
出した文字列の例を示す図
【図8】英文文書の文字列先端分布図
【図9】文字列間空間距離による英文文書の文字列分布
【図10】文字列間空間距離による文字列群別と空白文字
配置適正化処理の説明図
【図11】英文文書フォーマットの近似復元結果の出力図
【図12】第2の発明にもとづく文書のフォーマット復元
方法の処理フロー図
【図13】文字読取装置の基本構成図
【図14】文字読取装置の基本処理フロー図
【図15】目次文書の例を示す図
【図16】従来技術による目次文書の読み取り認識結果の
例を示す図
【図17】表形式文書とその読み取り認識結果の例を示す
【図18】英文文書とその読み取り認識結果の例を示す図
【図19】イメージスキャナの斜設定されて読み取られた
文書の認識結果の例を示す図
【符号の説明】
1 文字読取装置 2 文字読取認識部 21 イメージスキャナ 22 文字認識プロセッ
サ 3 ホストコンピュータ 31 表示装置 32 プロセッサ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】光学的文字読取装置において読み取り対象
    の文書を光学走査して得た明暗階調データの集合でなる
    原画像をもとに文字を認識してテキストファイルを生成
    するときの文書フォーマットの復元方法であって、 入力された原画像から文字行を順次抽出し、抽出した各
    文字行について1文字を構成する文字パターンの切り出
    しを行って文字を認識し、該文字行が空白区間を含むと
    きには、空白区間の距離を検出し、該文字行の非空白区
    間を構成する文字に対して検出した文字サイズをもとに
    この空白区間距離を埋める文字数を計算し、計算された
    文字数分の空白文字コードを割り当て、文字パターンの
    切り出しを行ったときの文字間距離に乱れを生じている
    部分はプロポーショナルピッチの適用箇所と判定し、単
    語としての文字列間の空白には空白区間距離によらず半
    角の空白文字コードを割り当てて空白文字を含む文字認
    識を行い、 全文字行の空白文字を含む文字認識を終了してこの結果
    を一次テキストファイルとして得たのち、この一次テキ
    ストファイル上で各行毎に空白文字によって区切られる
    文字列を検出し、 検出した各文字列の原画像上での配置位置を、該文字列
    の先頭文字を原画像上で文字パターンとして切り出した
    ときの枠位置の座標を抽出することによって認識し、 原画像上での文字列の配置位置の分布を前記によって認
    識した文字列先端位置の分布として求め、 前記文字列先端位置の分布データ上で空白1文字相当未
    満の空白区間を置いて近接する文字列を同群の文字列と
    解釈して全行の文字列を群別し、 群別した文字列の同一群内に複数の文字列の帰属が認め
    られるとき、前記一次テキストファイル上でこの群に属
    する各文字列に先行する空文字を含む行内文字の数を調
    べ、 先行行内文字数が異なる文字列が検出された場合、該文
    字列に前置されている空白文字列に空白文字を挿入また
    は削除して各文字列に先行する行内文字の数が同一群内
    で一致するように前記一次テキストファイルを修正する
    ことによって、読み取り対象の文書のフォーマットを近
    似したテキストファイルが得られるようにしたことを特
    徴とする文書フォーマットの復元方法。
  2. 【請求項2】一次テキストファイル上での文字列の検出
    にもとづいて行う原画像上での各文字列の配置位置の認
    識を、該文字列の先頭文字とともに末尾文字についても
    該文字の文字パターンを切り出したときの枠位置の座標
    を抽出することによって行い、 原画像上での文字列の配置位置の分布を求める処理が、
    各文字列に前置されている空間距離の分布を求める処理
    であり、 得られた文字列の配置位置の分布データをもとに行う文
    字列を群別する処理が、各文字列に前置されている空間
    距離が半角文字1文字相当以下の距離であるとき、また
    は、1次テキストファイルにおいて半角空白が割り当て
    られている場合これを無視し、当該行の文字サイズを超
    えるか全角文字1文字以上に相当する場合には空間の存
    在を認識する処理であり、 文字列の群別の結果、同一群内に複数文字列の帰属が認
    められるときに行う一次テキストファイルファイル修正
    の処理が、各文字列に前置された空白文字数がこの文字
    列の群別の区分に整合するように空白文字を挿入または
    削除する処理であることを特徴とする請求項1に記載の
    文書フォーマットの復元方法。
JP8045695A 1996-03-04 1996-03-04 文書フォーマットの復元方法 Pending JPH09237320A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8045695A JPH09237320A (ja) 1996-03-04 1996-03-04 文書フォーマットの復元方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8045695A JPH09237320A (ja) 1996-03-04 1996-03-04 文書フォーマットの復元方法

Publications (1)

Publication Number Publication Date
JPH09237320A true JPH09237320A (ja) 1997-09-09

Family

ID=12726528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8045695A Pending JPH09237320A (ja) 1996-03-04 1996-03-04 文書フォーマットの復元方法

Country Status (1)

Country Link
JP (1) JPH09237320A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002357A1 (ja) * 2010-06-28 2012-01-05 株式会社日立ソリューションズ 文書処理装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002357A1 (ja) * 2010-06-28 2012-01-05 株式会社日立ソリューションズ 文書処理装置及びプログラム
JP2012008965A (ja) * 2010-06-28 2012-01-12 Hitachi Solutions Ltd 文書処理装置及びプログラム
US8959049B2 (en) 2010-06-28 2015-02-17 Hitachi Solutions, Ltd. Document processing device and program

Similar Documents

Publication Publication Date Title
US10606933B2 (en) Method and system for document image layout deconstruction and redisplay
US5278918A (en) Optical character recognition method and apparatus using context analysis and a parsing algorithm which constructs a text data tree
EP1312038B1 (en) Orthogonal technology for multi-line character recognition
EP0439951B1 (en) Data processing
US7705848B2 (en) Method of identifying semantic units in an electronic document
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
US5509092A (en) Method and apparatus for generating information on recognized characters
JPS63155386A (ja) 帳票デ−タ読取装置
US20130114914A1 (en) Signature mark detection
US5832531A (en) Method and apparatus for identifying words described in a page description language file
JPH04195692A (ja) 文書読取装置
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
US6958755B1 (en) Personalized computer fonts
US20020181779A1 (en) Character and style recognition of scanned text
JPH09237320A (ja) 文書フォーマットの復元方法
JPH0991371A (ja) 文字表示装置
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JP3823005B2 (ja) ビットマップフォント作成装置および文書復元装置
US8634094B2 (en) Image processing apparatus, image processing method and non-transitory computer readable medium storing program
JPH07262317A (ja) 文書処理装置
JP2544589B2 (ja) 文書処理方法及び装置
JPH01292586A (ja) 文字認識支援装置
JPH0883285A (ja) 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置
JPS6327990A (ja) 文字認識方法
JPH0652156A (ja) 文書処理方法及び装置