JPH09223240A - 文書電子化装置 - Google Patents

文書電子化装置

Info

Publication number
JPH09223240A
JPH09223240A JP8050961A JP5096196A JPH09223240A JP H09223240 A JPH09223240 A JP H09223240A JP 8050961 A JP8050961 A JP 8050961A JP 5096196 A JP5096196 A JP 5096196A JP H09223240 A JPH09223240 A JP H09223240A
Authority
JP
Japan
Prior art keywords
character
area
image
characters
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8050961A
Other languages
English (en)
Inventor
Tetsuo Yoshida
哲雄 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8050961A priority Critical patent/JPH09223240A/ja
Publication of JPH09223240A publication Critical patent/JPH09223240A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文章だけでなく、図・表、写真、グラフィッ
クスを含む既存の印刷文書からWWWサービスに利用す
ることができるHTML形式のハイパーテキストを自動
的に作成する。 【解決手段】 領域識別部2が、文字の領域と写真・図
表の領域とを識別し、文字認識部3が、文字の領域にあ
る文字を認識し、認識し難い文字についてはイメージと
して処理し、文字コード化部5が、それらの文字を文字
コードへ変換する一方で、画像番号付与部7が、写真・
図表の画像データに対し画像番号を付与し、最後に、ハ
イパーテキスト化部6が、文字コードと画像番号とによ
り、ハイパーテキスト形式のファイルを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字、写真、図表
等から構成される文書を電子化する技術に関するもので
あり、特に、ネットワークを介して統合的にマルチメデ
ィア情報を提供するのに適したハイパーテキスト形式の
ファイルを作成する技術に関するものである。
【0002】
【従来の技術】一般に、文字、図表、写真等からなる文
書を多数集めてデータベースを構築する際には、後に各
文書をコンピュータで検索したり、参照したり、表示し
たりできるように、各文書を電子化する必要がある。そ
のような文書を電子化する装置においては、まず、文書
を光学処理に基づき画像データとして読取り、次に、そ
の読み取った画像データの中から文字が書かれている領
域と写真・図表が掲載されている領域とを区別し、それ
ぞれの領域を抽出する。そして、文字の領域に関して
は、文字認識の技術により各文字を文字コードへ変換す
ることにより文字列データを得る一方、写真・図表の領
域に関しては、それぞれの特性に適した画像圧縮処理を
施すことにより写真・図表データを得ている。さらに、
それらの文字列データと写真・図表データとから1つの
ファイルを作成し、そのファイルをデータベース用の記
憶媒体に保存している。後にファイルを検索する場合に
は、各ファイルに付与されたファイル名をコンピュータ
へ入力する。
【0003】
【発明が解決しようとする課題】ところで、従来の文書
電子化装置では、そのようなファイルを構成する文字列
データと写真・図表データとを、CRT等のディスプレ
イに表示したり、プリンタで印刷したりすることはでき
る。しかし、文字列データと写真・図表データとを関連
付けることができないので、コンピュータやコンピュー
タネットワーク上で、ある単語や文章に関連する写真・
図表を検索したり、逆に、ある写真・図表に関連する単
語や文章を検索したり等をすることが容易ではない。従
って、文章、写真、図表にいずれであるかを問わず、自
由に検索・参照・表示することができる装置やアルゴリ
ズムが望まれている。
【0004】特に、文書、写真・図表、音声、ビデオ等
の情報を統合的に扱うマルチメディアコンピュータ環境
においては、伝送・検索等を通信回線を用いて行なうこ
とが多く、例えばインターネット等のネットワークを介
して、テキスト・音声・静止画像・動画を含む情報の検
索や表示の可能なWWW(World Wide Web)と呼ばれる
サービスにおいては、ブラウザと呼ぶ検索表示ツールに
よりテキスト、イメージあるいは音声を関連付けて検索
・表示・再生することができる。このような環境におい
て用いるマルチメディアの電子化データはメディア毎
に、そのメディアのための符号化アルゴリズムとそのメ
ディアのために標準化されたファイルフォーマットを用
いるハイパーテキスト形式をとる必要がある。従って、
画像スキャナで光学的に読みとったイメージデータから
ハイパーテキスト形式のマルチメディアデータを容易に
自動作成するシステムの開発が望まれている。
【0005】
【課題を解決するための手段】本発明は、以上の点を解
決するために、次の構成を採用する。 〈構成〉本発明の文書電子化装置は、文書を光学的に読
み取って得られる画像データから、文書を認識して電子
化された情報を得る文書電子化装置であって、画像デー
タから、文書中の文字領域と文字として認識しない画像
領域とを認識する領域識別部と、文字領域中の文字を認
識する文字認識部と、認識された文字を文字コードに変
換する文字コード化部と、画像領域を画像として切り出
して画像データファイルを作成する画像処理部と、文字
コードと画像データファイルとによりハイパーテキスト
形式の複合データファイルを作成するハイパーテキスト
化部とから構成されることを特徴とする。
【0006】〈構成の内容〉以下、各構成の内容につい
て説明する。画像データとは、イメージスキャナ等の画
像読取装置によって読み取られた、文字、写真、図表等
を含む多階調のカラーイメージデータをいう。文字を認
識するとは、パターン認識等の技術に基づき、画像デー
タ内の文字のパターンと予め用意されている辞書内の文
字のパターンとを比較することにより、その文字が何で
あるかを認識することをいう。文字をコード化すると
は、認識された文字をJISコードやASCIIコード
等の文字コードへ変換することをいう。画像番号を付与
するとは、画像データを管理するために各画像データに
番号等の識別用符号を付与することをいう。従って、数
字に限らず、文字や記号でも構わない。ハイパーテキス
ト形式のファイルを作成するとは、イメージファイル等
のマルチメディアファイルおよび関連する他の文書ファ
イルの位置の関連付けをハイパーテキスト記述言語文法
に従って記述することをいう。
【0007】〈作用、効果〉本発明の文書電子化装置で
は、画像データを文字の領域とそれ以外の領域とに識別
し、文字の領域については、その文字の領域に存在する
文字を文字コードへ変換する一方で、それ以外の領域に
ついては、各領域毎に画像番号を付与する。そして、そ
れらの文字コードと画像番号とを使って、ハイパーテキ
スト形式のファイルを作成する。従って、本発明によれ
ば、文書が文字、写真、図表の全てを含むような複雑な
構成であっても、文字の情報、写真の情報、図表の情報
を、各情報の性質に適した形でハイパーテキストのファ
イルとしてまとめることができる。特に、文字の情報を
最大限に引き出すことができる、即ち、文字の情報が写
真や図表の情報として漏れてしまうことを最小限にくい
止めることができるので、ある単語や文章に関連する写
真・図表を検索したり、あるいは、ある写真・図表に関
連する単語や文章を検索したりする際に、必要な情報が
確実に得られるという確率が、従来の技術に比べて一段
と向上する。なお、万一、文書中の文字が、文字認識の
処理において文字であると認識されず、文字データとし
て取り扱われない場合でも、自動的に画像番号を付与し
て画像データとして取扱うことができるので、従来と比
べてデータベースを容易に作成することが可能となる。
本発明によれば、文書だけでなく、図・表、写真、グラ
フィックスを含む既存の印刷文書から自動的にHTML
形式のハイパーテキストを作成することができ、図・
表、写真、グラフィックスを含む情報を電子的に保存し
たり検索したりすることを容易に行なうことができるだ
けでなく、HTML形式のファイルはインターネット利
用のWWWサービスに利用することができ、WWWサー
ビスにおけるマルチメディア情報ページ作成の効率を飛
躍的に向上させることが可能となる。
【0008】
【発明の実施の形態】以下、本発明の文書電子化装置に
ついて、実施の形態に沿って詳しく説明する。実施の形
態としては、具体例1、具体例2、具体例3の3通りを
示す。 〈具体例1の構成〉図1は、具体例1の文書電子化装置
のブロック図である。文書電子化装置Dは、画像スキャ
ナ部1、領域識別部2、文字認識部3、画像処理部4、
文字コード化部5、ハイパーテキスト化部6、画像番号
付与部7、記憶部8から構成される。
【0009】画像スキャナ部1は、文字や写真・図表が
混在する文書を光学的に読取り、多値の文書データとし
て出力する。領域識別部2は、その多値の画像データを
2値の画像データに変換した後、その2値の画像データ
において、文字が書かれている領域であるか、また、写
真・図表が掲載されている領域であるかを識別する。画
像番号付与部7は、写真・図表の領域に対し、画像番号
を付与する。文字認識部3は、文字が書かれている領域
中の各文字がどのような文字であるかを、予め用意され
ている辞書の文字パターンを照合することにより識別す
る。
【0010】画像処理部4は、ビットマップデータファ
イル作成部4a、GIFデータファイル作成部4b、J
PEGデータファイル作成部4cから構成されており、
ビットマップデータファイル作成部4aは、2値画像に
ついてビットマップデータファイルを作成し、GIFデ
ータファイル作成部4bは、比較的小さい面積の多値画
像について画像圧縮を実行し、JPEGデータファイル
作成部4cは、比較的大きな面積の多値画像について画
像圧縮を実行する。そして、画像番号付与部7は、作成
されたビットマップデータファイル、GIFデータファ
イル、JPEGデータファイルに対し、写真・図表の領
域に対して先に付与した画像番号に基づいて、ファイル
名を付与する。
【0011】文字コード化部5は、識別された文字を文
字コードへ変換する。ハイパーテキスト化部6は、変換
された文字コードとファイル名とに基づいてハイパーテ
キスト形式のファイルを作成する。記憶部8は、ハイパ
ーテキスト形式のファイルを保存する一方、ビットマッ
プデータファイル、GIFデータファイル、JPEGデ
ータファイルも保存する。
【0012】〈動作〉次に、具体例1の文書電子化装置
の動作について説明する。図2は、具体例1の文書電子
化装置の動作フローチャートである。以下に、具体例1
の文書電子化装置の動作をそのフローチャートに沿って
説明する。
【0013】ステップS10: 画像スキャナ部1は、
文字や写真・図表が混在した文書を光学的に読み取り、
多値のカラー画像データに変換する。そして、画像スキ
ャナ部1は、その画像データを領域識別部2へ送出す
る。
【0014】ステップS11: 領域識別部2は、その
多値の画像データを2値の画像データへ変換し、文字が
書かれている領域はどの箇所であるか、写真・図表が掲
載されている領域はどの箇所であるかを識別する。そし
て、領域識別部2は、文字の領域に存在する文字列を切
り出して、認識されるべき文字列データとして出力す
る。一方、領域識別部2は、写真・図表の領域に存在す
る写真・図表を写真・図表データとして切り出した後、
それらの写真・図表データが、どの文字列とどの文字列
との間に位置するかを判別する。そして、画像番号付与
部7が、写真・図表データに対し行間画像番号を付与す
る(以下、「行間画像番号を付与された写真・図表デー
タ」を「行間画像データ」という)。最後に、領域識別
部2は、これらの文字列データと行間画像番号とを、識
別した順番通りに文字認識部3へ送出する一方、行間画
像データと行間画像番号とを画像処理部4へ送出する。
【0015】ステップS12: 文字認識部3は、認識
されるべき文字列データ中の各文字のパターンと、予め
用意された認識用辞書の中にある辞書文字のパターンと
をパターンマッチング等により認識する。また、文字認
識部3は、文字の大きさやフォントの種類等の文字属性
をも検出する。なお、認識すべき文字列中に、認識でき
ない文字が存在した場合には、その認識できなかった文
字を、文字間に存在する画像データ(以下、「文字間画
像データ」という。)として切り出す。画像番号付与部
7は、この切り出された文字間画像データに対し、文字
間画像番号を付与する。認識できなかった文字とは、文
字認識部3において認識できなかった場合だけではな
く、誤認識の可能性の高い文字を含むようにすることに
より、誤認識文字の人手による修正を不要とすることが
可能である。誤認識の可能性の高い文字は、文字認識部
3においてマッチング度等の認識確度あるいは認識の信
頼性を評価する情報をある閾値と比較する方法により可
能である。最後に、文字認識部3は、認識された文字
(文字属性を含む)、行間画像番号、文字間画像番号を
文字コード化部5へ送出する。一方、文字認識部3は、
文字間画像データ、文字間画像番号を画像処理部4へ送
出する。
【0016】ステップS13: 文字コード化部5は、
その認識された文字をJISコードやASCIIコード
等の文字コード(以下、「テキストデータ」という。)
へ変換する。文字コード化部5は、そのテキストデー
タ、行間画像番号、文字間画像番号をハイパーテキスト
化部6へ送出する。
【0017】ステップS14: 画像処理部4は、多値
の画像データが2値の画像であるか、あるいは、カラー
画像または階調のある画像であるかを、その多値の画像
を構成する画素の内容から判別する。そして、その多値
の画像データが、2値の画像データである場合には、ビ
ットマップデータファイル作成部4aが、ビットマップ
を作成し、カラー画像または階調のある画像である場合
には、GIFデータファイル作成部4bが、または、J
PEGデータファイル作成部4cがGIFデータファイ
ル、または、JPEGデータファイルを作成する。ここ
で、GIFデータファイルを作成される対象となる画像
データは、予め定めた閾値よりも小さな面積を有する画
像データであり、一方、JPEGデータファイルを作成
される対象となる画像データは、その予め定めれた閾値
よりも大きな面積を有する画像データである。
【0018】ステップS15: ハイパーテキスト化部
6は、テキストデータ、行間画像番号、文字間画像番号
を、ハイパーテキスト化文法に基づき翻訳合成する。 ステップS16: 記憶部8は、ハイパーテキスト化さ
れたファイルを記憶する。また、ビットマップデータフ
ァイル、GIFデータファイル、JPEGデータファイ
ル、並びに、それらのファイル名を保存する。
【0019】〈ハイパーテキスト化された文書〉次に、
読み取られるべき文書とハイパーテキスト化されたファ
イルとの対応関係について説明する。図3は、読み取ら
れるべき文書と、ブラウザに適した汎用言語であるHT
ML(HyperText Markup Language )によってハイパー
テキスト化されたファイルとの対応関係を示す図であ
る。以下、その対応関係を図3に沿って説明する。
【0020】読み取られるべき文書100は、上述の方
法によりファイル101へハイパーテキスト化されてい
る。文書100中の大きな文字である「大きな文字AB
CDEFGHIJ」は、ファイル101において、テキ
ストデータ「大きな文字ABCDEFGHIJ」が、大
きな文字であることを示す制御コード〈H1〉、〈/H
1〉で挟まれるような形式101aによって表現され
る。文書100中の画像である『地図』は、ファイル1
01において、『地図』の行間画像番号「m」に対応す
るファイル名「image−m.gif」を含む制御コ
ード〈IMG SRC=“image−m.gif”〉
という形式101bによって表現される。文書100中
の普通サイズの文字である「ヘブライ語表記の」と「は
右から左に読みます。」、並びに、画像である『ロIフ
ω(に似た画像)と波線』は、ファイル101におい
て、テキストデータ「ヘブライ語表記の」並びに「は右
から左に読みます。」が、普通サイズの文字であること
を示す制御コード〈H2〉、〈/H2〉で挟まれると共
に、『ロIフω(に似た画像)と波線』の文字間画像番
号「nn」に対応するファイル名「image−nn.
xbm」を含む制御コード〈IMG SRC=“ima
ge−nn.xbm”align=“middle”〉
という形式101cで表現される。文書100中のテキ
ストデータ「abcdefg12345」は、ファイル
101において、テキストデータ「abcdefg12
345」が、小さな文字であることを示す制御コード
〈H3〉、〈/H3〉で挟まれるような形式101dに
よって表現される。文書100中のイタリック文字であ
るテキストデータ「Italic」は、ファイル101
において、テキストデータ「Italic」が、イタリ
ック文字であることを示す制御コード〈I〉、〈/I〉
で挟まれるような形式101eで表現される。文書10
0中のボールド文字のテキストデータ「BOLD」は、
ファイル101において、テキストデータ「BOLD」
が、ボールドであることを示す制御コード〈B〉、〈/
B〉で挟まれる形式101fで表現される。このよう
に、ファイル101においては、文字列に関しては、テ
キストデータで表現される一方で、画像データに関して
は、画像データを示す行間画像番号、あるいは、文字間
画像番号に対応するファイル名からなる制御コードによ
って表現されている。
【0021】以上の説明においては、処理を判り易くす
るため「領域識別部」、「文字認識部」、「文字コード
化部」を独立した処理として説明したが、一般的な認識
手法同様、相互に関連して動作する。例えば、一方的に
文字領域として識別した領域から、文字を切り出して、
各文字を認識するだけでなく、逆に、文字認識部が認識
できる文字が集中するところを文字領域とし、文字とし
て認識できない領域を画像領域と判断するように、「文
字認識部」側から「領域認識部」側への作用により、総
合的に領域識別及び文字認識が可能となるのである。ま
た、「文字コード化部」についても独立して処理がなさ
れるわけではなく、文字認識と同時にコードが対応付け
られるように構成することもできる。
【0022】次に、具体例2の文書電子化装置について
説明する。具体例2の文書電子化装置の特徴は、具体例
1では、画像データとして電子化する、罫線や文字を含
む表領域を、テキストデータまたは表書式のテキストデ
ータとして電子化することがある。 〈具体例2の構成、動作〉具体例2の構成は、具体例1
の構成と同様である。よって、具体例2の特徴点であ
る、罫線や文字からなる表をテキストデータとして取扱
うための処理について、以下に説明する。
【0023】ステップS21: 領域識別部2は、
(1)文字が書かれている領域、または、罫線や文字か
らなる表が掲載されている領域であるか、あるいは、
(2)写真等が掲載されている領域であるかを識別す
る。写真等の領域に対しては、具体例1のステップS1
4と同様な処理を実行する。
【0024】ステップS22: 文字が書かれている領
域、または、罫線や文字からなる表が掲載されている領
域であると識別された領域について、文字認識部3は、
文字のみが書かれている領域であるか、あるいは、罫線
や文字からなる表が掲載されている領域であるかを識別
する。文字のみが領域については、具体例1のステップ
S12、S13と同様な処理を実行する。
【0025】ステップS23: 文字認識部3は、罫線
や文字からなる表が掲載されている領域に関し、文字、
罫線、スペース等を識別する。また、文字属性も検出す
る。なお、識別できなかった文字、罫線、スペース等に
ついては、文字、罫線、スペース等のデータを切り出
し、その切り出したデータを行間画像データ、あるい
は、文字間画像データとして画像処理部4へ送出する。
【0026】ステップS24: 文字コード化部5は、
認識された文字、罫線、スペース等をJISコードやA
SCIIコード等の文字コード、即ち、テキストデータ
へ変換する。 ステップS25: ハイパーテキスト化部6は、それら
のテキストデータ、具体例1の方法で作成される画像デ
ータの行間画像番号、文字間画像番号等を、ハイパーテ
キスト化文法に基づき翻訳し、ファイルを作成する。 ステップS26: 記憶部8は、ハイパーテキスト化さ
れたファイル、具体例1の方法で作成されたビットマッ
プデータファイル、GIFデータファイル、JPEGデ
ータファイル、それらのファイル名を保存する。
【0027】〈ハイパーテキスト化された文書〉次に、
読み取られるべき文書とハイパーテキスト化されたファ
イルとの対応関係について説明する。図5は、読み取ら
れるべき文書と、HTMLによってハイパーテキスト化
されたファイルとの対応関係を示す図である。以下、そ
の対応関係について図5に沿って説明する。
【0028】文書200中の大きな文字である「新幹
線」は、ファイル201において、テキストデータ「新
幹線」が、大きな文字を意味する制御コード〈H1〉、
〈/H1〉」で挟まれる形式201aで表現される。文
書200中の表『列車の時刻』は、ファイル201にお
いて、その表を構成する全ての罫線、文字、スペース
が、保存形式と表示形式とを同一にするように指示する
制御コード〈PRE〉、〈/PRE〉で挟まれる形式2
01bで表現される。
【0029】以上の説明においては、表形式を表示する
ために、ハイパーテキストにおいて〈PRE〉と〈/P
RE〉で囲んだ領域の文字は、スペースや罫線構成要素
を含めて配置関係が表示においても保存されるというH
TML文法を用いたが、表形式を含む拡張されたHTM
L文法の適用可能なシステムでは、拡張されたHTML
文法にしたがって表形式のための制御コード(制御タ
グ)を付加したハイパーテキストへ翻訳することも可能
である。
【0030】〈具体例3の説明〉次に、具体例3の文書
電子化装置について説明する。具体例3の文書電子化装
置の特徴は、文字として認識しない領域中に文字列が含
まれている場合、具体例1、2と同様に、画像データと
して電子化すると同時に、文字列を認識してテキストデ
ータとしてハイパーテキストに付加することである。具
体例1、2においては画像データの一部として扱われた
図中の文字列であっても、具体例3では、図中の文字列
がテキストデータ化されたおかげで、その文字を画像近
傍に表示したり、翻訳や検索の対象としての利用が可能
である。
【0031】〈具体例3の構成、動作〉具体例3の構成
は、画像情報処理部に画像領域中の文字を抽出する手段
を設けたことと、抽出した文字または文字列(文字パタ
ーン)を認識してテキストデータを作成し、ハイパーテ
キスト化部において、上記文字列を含む画像データファ
イルと対応付けで記述するようにした点を除いては、具
体例1及び具体例2の構成と同様である。以下に、画像
領域中の文字抽出及び図中認識文字のハイパーテキスト
化について説明する。
【0032】ステップS31: 領域識別部2は、文字
領域であるか、罫線や文字を含む表領域あるいは写真等
の画像領域であるかを識別する。文字領域及び表領域の
データについては、具体例1のステップS12、S1
3、あるいは具体例2のステップS23と同様な処理を
実行し、文字領域データ、表領域データを文字認識部へ
出力する。
【0033】ステップS32: 画像領域のデータにつ
いては、画像処理部において、具体例1のステップS1
1、S14と同様な処理を実行して画像ファイルを作成
すると同時に、図中に埋もれた文字の抽出を行なう。単
一背景色以外に描かれた文字を抽出する方法の一例を以
下に説明する。0から255のレベルで表現されるモノ
クロ画像データ系において、レベル42から157まで
緩やかに変化する背景に、白抜きで「図中の文字列」と
描いた例で実験すると、この実験例では、全画素数96
76中、発生頻度第1位はレベル255すなわち文字部
の白で801画素、頻度第2位はレベル79の735画
素、第3はレベル152の680画素となり、白抜き文
字が正確に分離された。
【0034】このように、抽出された領域画素の濃度レ
ベルまたはカラーをレベル値またはカラー番号に量子化
し、レベル値またはカラー番号と発生画素数のヒストグ
ラムより、図中文字のレベルまたはカラーの頻度が高い
ことに着目し、頻度の高い方から試行的に、そのレベル
またはカラーのみで描かれる文字パターンの認識を試み
るなどの方法で、図中に埋もれた文字を抽出する。この
例では説明を簡単にするため単一レベルの頻度で説明し
たが、ノイズや画像レベルの安定性の問題を解決するた
め、連続する複数のレベルの帯または頻度の組合せを利
用して文字抽出の確度を向上させる。以上の例で説明し
たように、画像処理部において、図領域中の文字列と推
定されるパターンの抽出を行なうのである。
【0035】抽出した文字パターンデータは、文字領域
の文字データ同様に文字認識部に与えられる。尚、単一
背景色に描かれた文字については、容易に文字パターン
を抽出できるので図中文字として扱わず、文字領域の文
字として扱う。この場合、ブラウザでの表示において背
景色の設定が可能な場合は、原稿の背景色を代表する背
景色指定をHTML文法に従って記述することも可能で
ある。
【0036】ステップS33: 文字認識部3は、具体
例1のステップS12と同様の、あるいは具体例2のス
テップS23と同様の、また、文字コード化部5は具体
例1のステップS13と同様の、あるいは具体例2のス
テップS24と同様の動作をする。更に、ステップS3
2で抽出された文字列と推定されるパターンに対しても
文字認識を行ない、認識された場合には文字コード化を
行なう。この図中文字認識においては、文字属性の検出
は重要ではないので省略し、逆に、予め想定した前記文
字属性の範疇を越えた場合でも、例えば文字の大きさが
大きすぎた場合でも、縮小処理をして認識することを可
能にする方が好ましい。
【0037】ステップS34: ハイパーテキスト化部
6は、それらのテキストデータ、行間画像番号、文字間
画像番号を、ハイパーテキスト化文法に基づき翻訳す
る。上記画像領域中より抽出された文字列の文字コード
については、上記文字列を含む画像データファイルと対
応付けてテキスト化する。画像データファイルと対応付
けてテキスト化するとは、ブラウザで表示した場合に、
その文字列を含んだ画像の近傍に、『図中文字:○○
○』等と表示を付加したり、ブラウザ表示には現れない
が自動翻訳や検索に利用可能なコメント文として挿入す
ることをいう。
【0038】ステップS35: 記憶部8は、ハイパー
テキスト化されたファイルを保存し、具体例1で説明し
た方法で作成されたビットマップデータファイル、GI
Fデータファイル、JPEGデータファイル等を、上記
ハイパーテキスト化されたファイルで指定したファイル
名を付けて保存する。
【0039】この説明例ではHTML記述の様々な機能
のほんの僅かな機能を適用したに過ぎず、本明細書で説
明しない多様な機能を用いることにより、元の原稿の構
成になるべく近い表示を再現させることができることは
具体例1、2の場合と同様である。具体例3において
も、各処理ブロック部に分けて説明したが、具体例1、
2の場合と同様ハードウェアの構成やソフトウェアの構
成に対応しているわけではない。
【0040】次に、読み取られるべき文書とハイパーテ
キスト化されたデータとの対応関係について説明する。
図7は、読み取られるべき文書と、HTMLによってハ
イパーテキスト化されたデータとの対応関係を示す図で
ある。以下、その対応関係について図7に沿って説明す
る。
【0041】文書300中の大きな文字である「コンピ
ュータ」は、ファイル301において、テキストデータ
「コンピュータ」が、大きな文字であることを示す制御
コード〈H1〉、〈/H1〉で挟まれる形式301aで
表現される。文書300中の図『モニター画面』は、フ
ァイル301において、行間画像番号「mm」に対応す
るファイル名「image−mm.gif」を含む制御
コード〈IMG SRC=“image−mm.gi
f”〉の形式301bで表現される。文書300中の図
『モニター画面』中の文字「高精細カラーモニター」
は、ファイル301において、『図中の文字:高精細の
カラーモニター』という形式301cで表現される。文
書300中の普通サイズの文字である「プリンタ」は、
ファイル301において、テキストデータ「プリンタ」
が、普通サイズの文字であることを示す制御コード〈H
2〉、〈/H2〉で挟まれる形式301dで表現され
る。
【図面の簡単な説明】
【図1】本発明の文書電子化装置のブロック図である。
【図2】具体例1の文書電子化装置の動作フローチャー
トである。
【図3】具体例1の文書とファイルとの関係を示す図で
ある。
【図4】具体例2の文書電子化装置の動作フローチャー
トである。
【図5】具体例2の文書とファイルとの関係を示す図で
ある。
【図6】具体例3の文書電子化装置の動作フローチャー
トである。
【図7】具体例3の文書とファイルとの関係を示す図で
ある。
【符号の説明】
D 文書電子化装置 2 領域識別部 3 文字認識部 4 画像処理部 5 文字コード化部 6 ハイパーテキスト化部 7 画像番号付与部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文書を光学的に読み取って得られる画像
    データについて、文字が書かれている文字領域である
    か、文字として認識しない画像領域であるかを識別する
    領域識別部と、 前記文字領域中に存在する文字を認識する文字認識部
    と、 前記認識した文字領域中の文字を文字コードに変換する
    文字コード化部と、 前記画像領域を画像として切り出して画像データファイ
    ルを作成する画像処理部と、 前記文字コードと前記画像データファイルとによりハイ
    パーテキスト形式の複合データファイルを作成するハイ
    パーテキスト化部とを有することを特徴とする文書電子
    化装置。
  2. 【請求項2】 前記領域識別部が、前記画像領域におい
    て表が掲載されている領域を表領域として識別し、 前記文字認識部が、前記表領域に存在する文字、罫線構
    成要素及びスペースを認識し、 前記文字コード化部が、前記認識した表領域の文字、罫
    線構成要素及びスペースを文字コードに変換し、 前記ハイパーテキスト化部が、前記認識した表領域の文
    字、罫線構成要素及びスペースに基づいて前記複合デー
    タファイル上に表領域を作成することを特徴とする請求
    項1記載の文書電子化装置。
  3. 【請求項3】 前記画像処理部が、前記画像領域中の文
    字パターンを抽出し、 前記文字認識部が、前記文字パターンより前記画像領域
    中に存在する文字を認識し、 前記文字コード化部が、前記画像領域中の文字を文字コ
    ードに変換し、 前記ハイパーテキスト化部が、前記画像領域中の文字に
    対する文字コードを用いて前記複合データファイル上に
    文字表示を付加することを特徴とする請求項1記載の文
    書電子化装置。
  4. 【請求項4】 前記画像処理部が、前記画像領域の各画
    素の濃度またはカラーを量子化し、 濃度レベルまたはカラー番号に対応する画素数のヒスト
    グラムの複数のピークのいずれかに基づいて、 前記画像領域の文字画素のレベルまたはカラー番号を推
    定し、 前記画像領域の文字パターンを抽出することを特徴とす
    る請求項3記載の文書電子化装置。
  5. 【請求項5】 前記文字認識部が、前記文字領域におい
    て認識できない文字及び認識確度の低い文字を識別し、 前記画像処理部が、前記認識できない文字及び前記認識
    確度の低い文字を切り出して画像データファイルを作成
    することを特徴とする請求項1記載の文書電子化装置。
JP8050961A 1996-02-14 1996-02-14 文書電子化装置 Pending JPH09223240A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8050961A JPH09223240A (ja) 1996-02-14 1996-02-14 文書電子化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8050961A JPH09223240A (ja) 1996-02-14 1996-02-14 文書電子化装置

Publications (1)

Publication Number Publication Date
JPH09223240A true JPH09223240A (ja) 1997-08-26

Family

ID=12873422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8050961A Pending JPH09223240A (ja) 1996-02-14 1996-02-14 文書電子化装置

Country Status (1)

Country Link
JP (1) JPH09223240A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111871A (ja) * 1996-10-07 1998-04-28 Ricoh Co Ltd 文書情報管理システム
JPH10240763A (ja) * 1997-02-28 1998-09-11 Ricoh Co Ltd 文書情報管理システム
JPH10254895A (ja) * 1997-03-11 1998-09-25 Ricoh Co Ltd 文書情報管理システムおよび媒体用紙の作成方法
JPH10260989A (ja) * 1997-03-21 1998-09-29 Ricoh Co Ltd 文書情報管理システムおよび媒体用紙の識別方法
JPH10269230A (ja) * 1997-03-24 1998-10-09 Ricoh Co Ltd 文書情報管理システム
JPH10275222A (ja) * 1997-03-31 1998-10-13 Ricoh Co Ltd 文書情報管理システム
JPH10289239A (ja) * 1997-04-11 1998-10-27 Ricoh Co Ltd 文書情報管理システム
JPH1196166A (ja) * 1997-07-25 1999-04-09 Ricoh Co Ltd 文書情報管理システム
JPH11195128A (ja) * 1997-12-27 1999-07-21 Canon Inc 画像形成装置および電子文書作成装置
JPH11219442A (ja) * 1997-11-25 1999-08-10 Mitsubishi Electric Corp 文書編集出力装置
JPH11312231A (ja) * 1998-04-28 1999-11-09 Omron Corp データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2005067077A (ja) * 2003-08-26 2005-03-17 Kyocera Mita Corp 印刷装置及びそのドライバソフト
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US7684620B2 (en) 2005-03-22 2010-03-23 Kabushiki Kaisha Toshiba Image processing apparatus and method for dividing an image into component images
JP2011204189A (ja) * 2010-03-26 2011-10-13 Nippon Telegr & Teleph Corp <Ntt> 文書処理方法および文書処理システム
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
JP2013080349A (ja) * 2011-10-03 2013-05-02 Canon Inc 画像処理装置、画像処理方法、およびプログラム
JP2013095064A (ja) * 2011-11-01 2013-05-20 Ricoh Co Ltd 画像形成装置、画像形成システム、出力用画像データ処理方法、プログラム及び記録媒体
JP2013257659A (ja) * 2012-06-11 2013-12-26 Nikkei Business Publications Inc 情報処理装置、情報処理方法、及びプログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111871A (ja) * 1996-10-07 1998-04-28 Ricoh Co Ltd 文書情報管理システム
JPH10240763A (ja) * 1997-02-28 1998-09-11 Ricoh Co Ltd 文書情報管理システム
JPH10254895A (ja) * 1997-03-11 1998-09-25 Ricoh Co Ltd 文書情報管理システムおよび媒体用紙の作成方法
JPH10260989A (ja) * 1997-03-21 1998-09-29 Ricoh Co Ltd 文書情報管理システムおよび媒体用紙の識別方法
JPH10269230A (ja) * 1997-03-24 1998-10-09 Ricoh Co Ltd 文書情報管理システム
JPH10275222A (ja) * 1997-03-31 1998-10-13 Ricoh Co Ltd 文書情報管理システム
JPH10289239A (ja) * 1997-04-11 1998-10-27 Ricoh Co Ltd 文書情報管理システム
JPH1196166A (ja) * 1997-07-25 1999-04-09 Ricoh Co Ltd 文書情報管理システム
JPH11219442A (ja) * 1997-11-25 1999-08-10 Mitsubishi Electric Corp 文書編集出力装置
JPH11195128A (ja) * 1997-12-27 1999-07-21 Canon Inc 画像形成装置および電子文書作成装置
JPH11312231A (ja) * 1998-04-28 1999-11-09 Omron Corp データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法
JP2000181931A (ja) * 1998-12-18 2000-06-30 Sharp Corp 自動オーサリング装置および記録媒体
JP2005067077A (ja) * 2003-08-26 2005-03-17 Kyocera Mita Corp 印刷装置及びそのドライバソフト
US7684620B2 (en) 2005-03-22 2010-03-23 Kabushiki Kaisha Toshiba Image processing apparatus and method for dividing an image into component images
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
US8024364B2 (en) 2006-03-17 2011-09-20 Proquest Llc Method and system to search objects in published literature for information discovery tasks
JP2011227932A (ja) * 2006-03-17 2011-11-10 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
JP2011204189A (ja) * 2010-03-26 2011-10-13 Nippon Telegr & Teleph Corp <Ntt> 文書処理方法および文書処理システム
JP2013080349A (ja) * 2011-10-03 2013-05-02 Canon Inc 画像処理装置、画像処理方法、およびプログラム
JP2013095064A (ja) * 2011-11-01 2013-05-20 Ricoh Co Ltd 画像形成装置、画像形成システム、出力用画像データ処理方法、プログラム及び記録媒体
JP2013257659A (ja) * 2012-06-11 2013-12-26 Nikkei Business Publications Inc 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
JPH09223240A (ja) 文書電子化装置
US5963966A (en) Automated capture of technical documents for electronic review and distribution
KR101332912B1 (ko) 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독가능 저장 매체
US7860266B2 (en) Image processing system and image processing method
US7681121B2 (en) Image processing apparatus, control method therefor, and program
US6353840B2 (en) User-defined search template for extracting information from documents
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
US8503773B2 (en) Glyph selection and electronic document generation
US9286392B2 (en) Enhanced search engine
US8396294B2 (en) Image processing device, image processing method, and program and recording medium thereof
US8355578B2 (en) Image processing apparatus, image processing method, and storage medium
US7548916B2 (en) Calculating image similarity using extracted data
US7639388B2 (en) Image processing apparatus, image reproduction apparatus, system, method and storage medium for image processing and image reproduction
US20020118379A1 (en) System and user interface supporting user navigation of multimedia data file content
Antonacopoulos et al. Document image analysis for World War II personal records
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
JPH01279368A (ja) キャラクタデータの転送方式
US6327382B1 (en) Image processing method and apparatus and storage medium therefor
JPH08147446A (ja) 電子ファイリング装置
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JPH08180068A (ja) 電子ファイリング装置
JP4101712B2 (ja) 図面の電子化保管方法と図面の電子化保管システム及び図面データ提供システム
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
Breuel et al. Reflowable document images
JPH0743718B2 (ja) マルチメディア文書構造化方式