JP2002358481A - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JP2002358481A
JP2002358481A JP2001167014A JP2001167014A JP2002358481A JP 2002358481 A JP2002358481 A JP 2002358481A JP 2001167014 A JP2001167014 A JP 2001167014A JP 2001167014 A JP2001167014 A JP 2001167014A JP 2002358481 A JP2002358481 A JP 2002358481A
Authority
JP
Japan
Prior art keywords
image data
character
data
divided
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001167014A
Other languages
English (en)
Inventor
Yotaro Mizuno
陽太朗 水野
Hiroyuki Kuno
裕之 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Elemex Corp
Original Assignee
Ricoh Elemex Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Elemex Corp filed Critical Ricoh Elemex Corp
Priority to JP2001167014A priority Critical patent/JP2002358481A/ja
Publication of JP2002358481A publication Critical patent/JP2002358481A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 画像データと、画像データに含まれる文字列
を認識した文字データと、を切り離してデータ量を削減
し、かつ、画像データと、画像データに含まれる文字列
を認識した文字データと、を双方読み出し可能とした運
用性の高い出力ファイルを生成すること。 【解決手段】 領域分割部102で分割した分割画像デ
ータを記憶するデータ記憶部104と、データ記憶部1
04で記憶した各分割画像データの記憶アドレスおよび
文字認識部103で生成した各分割画像データに対応す
る文字データを併記し、かつ、XML(eXtensi
ble Markup Language)またはSG
ML(Standard Generalized M
arkupLanguage)を用いた構造化文書を生
成する構造化文書生成部105と、を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像処理装置に関
し、より詳細には、画像データを入力し、画像データに
含まれている文字列を認識して、テキストデータ(文字
データ)を取得し、構造化文書として出力する画像処理
装置に関する。
【0002】
【従来の技術】従来から、文書画像データを読み込み、
レイアウト解析やOCR(Optical Character Reade
r)を用いて記述されている文書内容をテキストデータ
へ変換することが行われている。これらは、画像データ
をテキストデータへ変換するので、データ量を削減でき
るばかりか、その後において文書データの一部を抽出し
たり、更新したりすることが容易となる利点がある。ま
た、最近では、文字認識を用いて文書を意味解析し、H
TML(Hyper Text Markup Language)上へ文書間
リンクを生成したりするものがある。
【0003】特開平10−228473号公報「文書画
像処理方法、文書画像処理装置および記憶媒体」によれ
ば、文書画像に含まれる図、表に関連するキャプション
がある場合には、キャプション内の文字列と本文中の関
連箇所との間に自動的にリンクを生成することができ、
また、キャプションがない場合には、図、表とその図、
表に関連する本文中の箇所との間に自動的にリンクを生
成することができる方法が開示されている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、入力された画像データを解析して、
テキストデータを生成したり、画像データに含まれる
図、表にリンク付けしてハイパーテキストとして生成す
ることはできるものの、生成されたテキストデータで
は、解析した情報に誤りがあった場合、元の画像データ
を参照できなかったり、或いは、ハイパーテキストに画
像データをまとめてしまった場合、データ量の削減につ
ながらなかったため、その後の運用性について乏しいと
いう問題点があった。
【0005】この発明は上記に鑑みてなされたものであ
って、画像データと、画像データに含まれる文字列を認
識した文字データと、を切り離してデータ量を削減し、
かつ、画像データと、画像データに含まれる文字列を認
識した文字データと、を双方読み出し可能とした運用性
の高い出力ファイルを生成することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の発明に係る画像処理装置は、外部装置か
ら画像データを入力する入力手段と、入力手段で入力し
た画像データからまとまりのある領域を分割して分割画
像データを生成する領域分割手段と、分割画像データに
含まれる文字列を認識して文字データを生成する文字認
識手段と、を有する画像処理装置において、領域分割手
段で分割した分割画像データを記憶する記憶手段と、記
憶手段で記憶した各分割画像データの記憶アドレスおよ
び文字認識手段で生成した各分割画像データに対応する
文字データを併記し、かつ、XML(eXtensib
le Markup Language)またはSGM
L(Standard Generalized Ma
rkup Language)を用いた構造化文書を生
成する構造化文書生成手段と、を備えたことを特徴とす
る。
【0007】この発明によれば、画像データを領域分割
して分割画像データを生成し、記憶手段に分割画像デー
タを記憶して、分割画像データの文字列を文字認識した
結果をXMLまたはSGMLを用いて構造化することに
より、画像データと、画像データに含まれる文字列を認
識した文字データと、を切り離してデータ量を削減し、
かつ、画像データと、画像データに含まれる文字列を認
識した文字データと、を双方読み出し可能とした運用性
の高い出力ファイルを生成することができる。
【0008】また、請求項2の発明に係る画像処理装置
は、請求項1に記載の画像処理装置において、さらに、
文字認識手段において文字データを認識した際の信頼性
を算出する信頼性算出手段を備え、構造化文書生成手段
は、各分割画像データの記憶アドレスおよび記憶アドレ
スに対応する文字データと共に、信頼性算出手段で算出
した各文字データの信頼性を該当する文字データに対応
させて出力することを特徴とする。
【0009】この発明によれば、信頼性算出手段が、分
割画像データから文字列を文字データとして認識した際
の信頼性を算出することにより、入力された画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を使用する上での選択の判断基準とすることができ
る。
【0010】
【発明の実施の形態】以下に添付図面を参照して、本発
明に係る画像処理装置の好適な実施の形態を詳細に説明
する。なお、以下に述べるのは一例であり、特に限定す
るものではない。
【0011】(本実施の形態)図1は、本実施の形態の
画像処理装置の概略ブロック図である。画像処理装置
は、外部装置から画像データを入力する画像入力部10
1と、入力された画像データからまとまりのある領域を
分割して分割画像データを生成する領域分割部102
と、分割画像データに含まれる文字列を認識してテキス
トデータ(文字データ)を生成する文字認識部103
と、分割画像データを外部装置から入力された画像デー
タとは別のアドレスへ記憶するデータ記憶部104と、
分割画像データの記憶アドレスおよび文字認識部103
で生成した各分割画像データに対応する文字データを併
記し、かつ、XMLまたはSGMLを用いて表現する構
造化文書生成部105と、装置全体を制御する制御部1
06と、外部装置へ構造化文書生成部105で生成した
XMLファイルまたはSGMLファイル等を出力する外
部I/F部107と、から構成される。
【0012】ここで、画像入力部101が入力手段に相
当し、領域分割部102が領域分割手段に相当し、文字
認識部103が文字認識手段に相当し、文字認識部10
3および制御部106が信頼性算出手段に相当する。ま
た、データ記憶部104が記憶手段に相当し、構造化文
書生成部105および外部I/F部107が構造化文書
生成手段に相当する。
【0013】以上の構成において、その動作を説明す
る。画像処理装置は、スキャナー、デジタルカメラまた
はDVD等のディジタル画像データを出力する外部装置
から画像入力部101を介して文章が盛り込まれた文書
画像データを入力する。領域分割部102は、入力した
文書画像データからまとまりのある領域を分割して分割
画像データを生成する。図2は、入力された文書画像デ
ータの図であり、図3は、領域分割部102によってま
とまりのある領域に領域分割された図である。
【0014】図2では、A4用紙に題、作者、本文、目
次等の文章が記載されており、領域分割部102によっ
てまとまりのある領域に領域分割された結果、図3の様
に各領域に分割されて分割画像データが生成される。例
えば、題「文書管理システムにおけるXMLソリューシ
ョンと関連技術の将来展望について」の部分がひとまと
まりの領域として、領域分割された結果、図3に示す分
割画像データ301として生成される。以下、同様にし
て、「概要」、「目次」その他本文等が領域分割され、
図3に示す302〜304dの分割画像データが生成さ
れる。303、304の分割画像データの場合、内部に
も分割領域があり、それぞれ包含関係を有している。内
部の分割画像データは、包含している外部の分割画像デ
ータの要素として扱われる。分割された分割画像データ
は、それぞれデータ記憶部104に格納される。
【0015】続いて、文字認識部103は、領域分割部
102によってまとまりのある領域に分割された領域か
ら文字列を抽出し、文字列の中でも、さらに個々の文字
へ分割し、一文字単位に文字認識して、文字データへ変
換していく。例えば、抽出された文字列が分割画像デー
タ303aの「概要」であった場合、文字列を個々の文
字へ分割し、「概」、「要」とし、それぞれの文字を文
字認識する。文字認識では、認識する際、いくつかの候
補が存在し、その中で最も可能性の高いものが認識結果
とされる。文字列中の「概」について認識した場合、
「概」、「権」、「槽」および「操」等の候補が挙がる
ことが考えられ、それぞれの候補について、その可能性
である認識率(類似度)が同時に算出される。認識率の
算出については、文字列の原画像への一致度に基づいて
算出される。
【0016】「概」、「権」、「槽」および「操」につ
いて、認識率がそれぞれ90%、85%、70%、55
%であった場合、最高認識率の「概」90%が認識結果
となる。文字認識部103が個々の文字について認識し
た後、制御部106は、各認識結果を連結して文字デー
タを生成する。このとき、認識率の平均値を算出し、文
字列を認識した際の信頼性とする。例えば、分割画像デ
ータ303aの文字列「概要」について、「概」の認識
率が90%、「要」の認識率が70%であった場合、分
割画像データ303aの文字列「概要」から文字データ
「概要」として認識した際の信頼性は、(90%+70
%)/2=80%となる。なお、認識率の平均値を算出
して信頼性とするのは、一例であり、他の方法でも良
い。
【0017】図4は、文書画像データを文字認識した結
果を表した図である。文書画像データを分割した領域順
に、文字認識の信頼性を表した確度と、文字列を認識し
て生成された文字データと、分割された分割画像データ
が記憶されているアドレスと、が記述されている。図4
の「<領域3>」に、先述の例で示した分割画像データ
303aの認識結果が記述されている。文字認識の信頼
性が80%と算出されたので、「確度 0.80」と記
述され、認識した結果である文字データは、{認識文字
列 「概要」}として記述されている。また、分割画像
データ303aは、「画像データ “images/0003.jp
g”」として、その記憶アドレスが記述されている。
【0018】次に、構造化文書生成部105は、先述の
文字認識の信頼性を表した確度と、文字列を認識して生
成された文字データと、分割された分割画像データが記
憶されているアドレスと、を併記し、XMLファイルま
たはSGMLファイルを生成する。
【0019】図5は、構造化文書生成部105が生成し
たXMLファイルを表した図である。第1行に、XML
ファイルのバージョンが出力され、第2行には、(図示
しない)文書の文書型が定義されている。第3行は、X
MLファイルの内容の開始を示すルート要素である。第
4行の“Resolution”には、入力された文書画像データ
の読取解像度が出力され、第5行の“Scanning mode”
には、バイナリデータであることの表示およびサイズが
出力され、第6行には、“Organization”として、画像
処理装置を使用している組織名が出力されている。
【0020】“Sect1”〜“/Sect1”には、分割された
各分割画像データの記憶アドレス、認識結果の文字デー
タおよびその確度が出力されている。“Title”〜“/Ti
tle”には、認識された文字データが出力され、“Graph
ic FileRef”には、分割画像データが記憶されている記
憶アドレスおよびサイズが出力されている。“OCRrelia
bility”には、文字認識に関する信頼性である確度が出
力されている。また、分割した領域に包含関係がある場
合、同じ“Sect1”内に、内部の分割画像データの内容
が出力される。この場合、認識された文字データは、
“Para”〜“/Para”へ出力され、“Graphic FileRef”
および“OCR reliability”が続いて出力される。以
下、各分割画像データについても同様に出力していく。
【0021】生成されたXMLファイルまたはSGML
ファイルは、外部I/F部107を介して、PC、プリ
ンタ、ファクシミリ等の画像表示を行う外部装置へ出力
される。画像表示を行う外部装置では、画像表示に際し
て、文字データのみを信頼して表示する方法と、文字デ
ータと分割画像データを混載し、信頼性に応じて使い分
ける方法がある。文字データのみを信頼して表示する方
法の場合、文書画像データを表示する際、各分割画像デ
ータに対応する文字データを全てテキスト形式で表示す
る。ユーザがテキストの表示内容がおかしいと感じた場
合、画像表示を行う外部装置を操作して、表示内容がお
かしいと感じられる文字データに対応する分割画像デー
タをXMLファイルまたはSGMLファイルに記載され
ている記憶アドレスから読み出してテキストデータの代
わりに表示する。
【0022】文字データと分割画像データを混載し、信
頼性に応じて使い分ける方法の場合、XMLファイルま
たはSGMLファイルを表示する際には、“OCR reliab
ility”を参照して表示を行う。信頼性の判断基準であ
る閾値を0.70とした場合、OCR reliability=0.
80のときは、文字データを信頼して、文書画像の表示
に際しては、認識した文字データを用いるものとし、OC
R reliability=0.60のときは、文字データを信頼
するには不十分として、分割画像データをXMLファイ
ルまたはSGMLファイルに記載されている記憶アドレ
スから読み出して、表示する。判断基準に用いる閾値を
変更することにより、柔軟な表示における判断が可能で
ある。
【0023】前述したように本実施の形態によれば、文
書画像データを領域分割して分割画像データを生成し、
データ記憶部104に分割画像データを記憶して、分割
画像データの記憶アドレス、分割画像データに含まれる
文字列を文字認識した文字データおよび文字認識に対す
る信頼性をXMLファイルへ併記するため、XMLファ
イル上では、分割画像データと、画像データに含まれる
文字列を認識した文字データと、が切り離され、データ
量を削減でき、かつ、分割画像データと、画像データに
含まれる文字列を認識した文字データと、を双方読み出
し可能とした運用性の高い出力ファイルを生成すること
ができる。
【0024】
【発明の効果】以上説明したように、請求項1の発明に
よれば、画像データを領域分割して分割画像データを生
成し、記憶手段に分割画像データを記憶して、分割画像
データの文字列を文字認識した結果をXMLまたはSG
MLを用いて構造化するため、画像データと、画像デー
タに含まれる文字列を認識した文字データと、を切り離
してデータ量を削減し、かつ、画像データと、画像デー
タに含まれる文字列を認識した文字データと、を双方読
み出し可能とした運用性の高い出力ファイルを生成する
ことができる。
【0025】また、請求項2の発明によれば、信頼性算
出手段が、画像データから文字列を文字データとして認
識した際の信頼性を算出するため、入力された画像デー
タと、画像データに含まれる文字列を認識した文字デー
タと、を使用する上での選択の判断基準とすることがで
き、請求項1における発明よりも、さらに画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を切り離してデータ量を削減し、かつ、画像データ
と、画像データに含まれる文字列を認識した文字データ
と、を双方読み出し可能とした運用性の高い出力ファイ
ルを生成することができる。
【図面の簡単な説明】
【図1】本実施の形態の画像処理装置の概略ブロック図
である。
【図2】入力された文書画像データの図である。
【図3】領域分割部によってまとまりのある領域に領域
分割された図である。
【図4】文書画像データを文字認識した結果を表した図
である。
【図5】構造化文書生成部が生成したXMLファイルを
表した図である。
【符号の説明】
102 領域分割部 103 文字認識部 104 データ記憶部 105 構造化文書生成部 106 制御部 107 外部I/F部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 NG04 QB01 5B050 AA08 BA10 BA16 CA05 EA01 FA19 5B064 AA07 5C076 AA16 AA36 CA10

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 外部装置から画像データを入力する入力
    手段と、前記入力手段で入力した前記画像データからま
    とまりのある領域を分割して分割画像データを生成する
    領域分割手段と、前記分割画像データに含まれる文字列
    を認識して文字データを生成する文字認識手段と、を有
    する画像処理装置において、 前記領域分割手段で分割した分割画像データを記憶する
    記憶手段と、 前記記憶手段で記憶した各分割画像データの記憶アドレ
    スおよび前記文字認識手段で生成した各分割画像データ
    に対応する文字データを併記し、かつ、XML(eXt
    ensible Markup Language)ま
    たはSGML(Standard Generaliz
    ed Markup Language)を用いた構造
    化文書を生成する構造化文書生成手段と、 を備えたことを特徴とする画像処理装置。
  2. 【請求項2】 さらに、前記文字認識手段において前記
    文字データを認識した際の信頼性を算出する信頼性算出
    手段を備え、 前記構造化文書生成手段は、前記各分割画像データの前
    記記憶アドレスおよび前記記憶アドレスに対応する前記
    文字データと共に、前記信頼性算出手段で算出した各文
    字データの信頼性を該当する文字データに対応させて出
    力することを特徴とする請求項1に記載の画像処理装
    置。
JP2001167014A 2001-06-01 2001-06-01 画像処理装置 Pending JP2002358481A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001167014A JP2002358481A (ja) 2001-06-01 2001-06-01 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001167014A JP2002358481A (ja) 2001-06-01 2001-06-01 画像処理装置

Publications (1)

Publication Number Publication Date
JP2002358481A true JP2002358481A (ja) 2002-12-13

Family

ID=19009461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001167014A Pending JP2002358481A (ja) 2001-06-01 2001-06-01 画像処理装置

Country Status (1)

Country Link
JP (1) JP2002358481A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058624A (ja) * 2005-08-25 2007-03-08 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2008186451A (ja) * 2007-01-29 2008-08-14 Toshiba Corp 文書データ管理装置
JP2008234148A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 文書表示装置、文書表示方法及び文書表示プログラム
JP2014032665A (ja) * 2009-01-28 2014-02-20 Google Inc 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること
JP2020204905A (ja) * 2019-06-17 2020-12-24 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007058624A (ja) * 2005-08-25 2007-03-08 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2008186451A (ja) * 2007-01-29 2008-08-14 Toshiba Corp 文書データ管理装置
JP2010160811A (ja) * 2007-01-29 2010-07-22 Toshiba Corp 文書データ管理装置
US8228522B2 (en) 2007-01-29 2012-07-24 Kabushiki Kaisha Toshiba Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data
JP2008234148A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 文書表示装置、文書表示方法及び文書表示プログラム
JP2014032665A (ja) * 2009-01-28 2014-02-20 Google Inc 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択に表示すること
US9280952B2 (en) 2009-01-28 2016-03-08 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
JP2020204905A (ja) * 2019-06-17 2020-12-24 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP7379876B2 (ja) 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム

Similar Documents

Publication Publication Date Title
US8588528B2 (en) Systems and methods for displaying scanned images with overlaid text
JP4948586B2 (ja) 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
US6119077A (en) Translation machine with format control
Piotrowski Natural language processing for historical texts
US6173264B1 (en) Reading system displaying scanned images with dual highlighting
JP4626356B2 (ja) 付加情報を含む電子文書を編集する方法、装置およびプログラム
JP3220560B2 (ja) 機械翻訳装置
US7783472B2 (en) Document translation method and document translation device
US5526259A (en) Method and apparatus for inputting text
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US20150138220A1 (en) Systems and methods for displaying scanned images with overlaid text
JP4999938B2 (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
JP5528420B2 (ja) 翻訳装置、翻訳方法及びコンピュータプログラム
JP5482223B2 (ja) 情報処理装置、情報処理方法
JP2002358481A (ja) 画像処理装置
JPH103483A (ja) 情報検索装置
JP3122417B2 (ja) 情報表示方法及び情報処理装置
JP2006270589A (ja) 情報処理装置、情報処理方法、プログラムおよび記録媒体
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
JP5011511B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP2007087056A (ja) 翻訳装置及びプログラム
JPH06290209A (ja) 文切り装置
JP2564828B2 (ja) Ocr文字印刷システム
JP3164086B2 (ja) 手書き文字フォント作成方法及びそれを適用した手書き文字情報処理装置
JP2606560B2 (ja) 文書画像記憶装置