JP4811133B2

JP4811133B2 - 画像形成装置及び画像処理装置

Info

Publication number: JP4811133B2
Application number: JP2006153102A
Authority: JP
Inventors: 譲鈴木; 裕之河野
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2005-07-01
Filing date: 2006-06-01
Publication date: 2011-11-09
Anticipated expiration: 2026-06-01
Also published as: JP2007043662A

Description

本発明は、画像形成装置又は画像処理装置に関し、特に読み取られた原稿の画像から構造化文書のデータを生成するための技術に関する。

スキャナで読み取った原稿画像からＳＧＭＬ(Standard Generalized Markup Language )やＨＴＭＬ(Hypertext Markup Language)、ＸＭＬ(eXtensible Markup Language)等の構造化記述言語で記述された構造化文書を生成する技術として、特許文献１〜３に示されるものがある。

特許文献１の装置は、光学的に読み取った文書画像から文字領域及び画像領域をそれぞれ区別して抽出し、各領域のレイアウトを求め、文字領域には文字認識を行い、レイアウトと文字認識結果を用いて構造化文書を作成する。この装置では、この一連の処理を自動処理で行っている。

特許文献２の装置は、読み取った文書の画像を文字領域、表領域、イメージ領域に分離し、各領域の矩形を表示する。その矩形をユーザが移動させることによって、レイアウト編集が行われ、編集されたレイアウトにしたがったハイパーテキストが作成される。

特許文献３の装置は、読み取った文書に対してユーザから領域の指定及び各領域の属性（該領域が文字列か又は図表か、文字認識のための辞書の種類など）の入力を受け、例えば領域の文字認識を行う場合、その領域の属性に基づき選択した辞書を使用する。そして、属性に基づいて、文字領域、図表領域の双方に対してマークアップ処理を行って構造化文書を生成している。

特開平１１−０６６１９６号公報特開平１１−３１２２３１号公報特開平１０−１６２０９８号公報

特許文献１及び２の技術は、文書画像の自動的な領域分離の結果を構造化文書に反映してはいるものの、自動的な領域分離で分離可能なのは文字領域と画像領域、或いは表領域といった比較的大まかな分類までである。例えば表題も本文も同じ文字領域としか分類されないので、表題要素と本文要素とを分けた構造化文書を作成したくても、自動的にはそれを実現することができない。

特許文献３の技術は、ユーザが領域指定を行う必要があるため、細かな領域分類が可能かも知れないが、一つ一つの文書に対して全てユーザが領域指定を行うのでは、ユーザ負担が大きすぎる。

本発明は、光学的に読み取った原稿の画像から構造化文書を生成する処理を、ユーザの作業負担が少ない形で、高精度に、かつデジタル複合機の高生産性を維持しつつ実現できるようにする。

本発明は、原稿を読み取る読取部と、前記読取部が読み取った原稿の画像を像域分離する像域分離部と、前記像域分離部が分離した各像域に対しそれぞれその像域の画像種別に応じた画像処理を施す画像処理部と、前記画像処理部で画像処理された原稿の画像を出力する出力部と、を備える画像形成装置であって、前記像域分離部が分離した各像域についてそれぞれ画像特徴を求める特徴演算部と、構造化文書の各要素の位置及び画像特徴とが該構造化文書の構造情報として登録される構造情報登録部と、前記像域分離部が求めた各像域の位置及び前記特徴演算部が求めた各像域の画像特徴と、前記構造情報登録部に登録された情報とに基づき、それら各像域を構造化文書の各要素を対応づけ、この対応付け結果に基づき前記原稿画像に対応する構造化文書を生成する構造化部と、前記像域分離部による像域分離の精度を評価する評価部と、前記評価部により評価された精度が所定の閾値より高い場合に、前記像域分離部による像域分離の結果である各像域を要素とする構造情報を作成し、前記構造情報登録部に登録する登録部と、を備える。

本発明の好適な態様では、前記像域分離部は、該画像の各部の画像特徴を求め、求めた画像特徴を用いて前記原稿の画像の像域分離を実行するものであり、前記特徴演算部は、前記各像域についての画像特徴を求めるに当たり、前記像域分離部が像域分離のための画像特徴を求めるために行った演算結果を利用する。

別の好適な態様では、前記構造化部は、前記像域分離部の処理により得られた前記各像域のレイアウトをユーザに提示するレイアウト提示部と、該レイアウト中の各像域に対応する新規な構造化文書の要素の指定をユーザから受け付け、各像域の位置及び画像特徴を当該像域に対してユーザが指定した要素と対応づけて、前記新規な構造化文書の構造情報として前記構造情報登録部に登録する登録処理部と、を備える。

以下、図面を参照して、本発明を実施するための最良の形態（以下「実施形態」と呼ぶ）について説明する。

図１は、本実施形態のシステム構成例を示す図である。図１に示すように、このシステムは、ＬＡＮ（ローカル・エリア・ネットワーク）等のネットワーク４を介して相互に接続されたデジタル複合機１、クライアントマシン２及び文書ＤＢ（データベース）サーバ３から構成されている。

デジタル複合機１は、ネットワークプリンタ、ネットワークスキャナ、複写機、ファクシミリ装置等の機能を兼ね備えた多機能装置である。本実施形態では、デジタル複合機１に対し、スキャナ機能で読み取った原稿画像をＸＭＬ等の構造化記述言語の構造化文書データに変換する機能を持たせる。そして、この変換機能により紙原稿から構造化文書データを生成し、これを文書ＤＢサーバ３に登録するといった定型的な業務の自動化を目指す。

原稿画像を構造化文書に変換する機能には、デジタル複合機１が備える像域分離機能を利用する。すなわち、複写機や複合機等の画像形成装置は、印刷画質向上のために、読み取った画像中の文字領域と画像領域とを分離する像域分離の機能を備えるものが一般的になっている。また、高速な印刷処理のため、この像域分離の機能の多くの部分はＡＳＩＣ(Application Specific Integrated Circuit) やＤＳＰ(Digital Signal Processor)等のハードウエア回路として実装されている。本実施形態では、このような像域分離回路に必要に応じて拡張を施したものを利用することで、構造化文書への変換の効率化を図る。

ただし、像域分離処理では画像中の文字領域や画像領域などの領域分けは分かるものの、各領域がどの種類の構造化文書のどの要素に該当するかなどの構造情報は像域分離だけでは得られない。そこで、本実施形態では、デジタル複合機１の暫定的な自動変換結果に対し、ユーザが修正・編集を加えることで、構造化文書の構造情報を定め、この構造情報をデジタル複合機１にフィードバックすることで、自動変換の精度を向上させていくというアプローチをとる。図１の例では、デジタル複合機１の暫定的な変換結果をクライアントマシン２にインストールされた構造化文書エディタ２ａに渡し、このエディタ２ａ上でユーザが構造情報の編集作業を行う。

デジタル複合機１の制御機構の主要部を図２に示す。図２においてＲＯＭ（リード・オンリ・メモリ）１２には、デジタル複合機１の動作制御のための制御プログラムなどのデジタル情報が格納されている。ＣＰＵ（中央処理装置）１０がこのＲＯＭ１２内の制御プログラムを実行することにより、デジタル複合機１の各部の制御が実現される。

ＲＡＭ（ランダム・アクセス・メモリ）１４は、デジタル複合機１の主記憶装置であり、制御プログラムの実行の際にワークメモリとしても用いられる。ＲＡＭ１４は、例えば、プリントエンジン２４に供給する１ページ分の画像データを蓄えるページバッファとして用いることもできる。

大容量記憶装置１６は、各種のデータを保存するための補助記憶装置であり、例えばハードディスクやＥＥＰＲＯＭ(Electrically Erasable Programmable Read-Only Memory)などの不揮発性の記憶装置である。

操作パネル１８は、この画像形成装置のユーザインタフェースのための表示や、ユーザからの各種指示の入力受付などのためのユーザインタフェース手段である。操作パネル１８は、例えば、スタートボタンなどの機械的な操作ボタンと、ＧＵＩ（グラフィカル・ユーザ・インタフェース）のための液晶タッチパネルと、を備える。液晶タッチパネルは、ＣＰＵ１０で実行される制御プログラムが生成したＧＵＩ画面を表示し、そのディスプレイに対するユーザのタッチ位置を検出して制御プログラムに渡す。制御プログラムは、そのタッチ位置の情報からユーザの入力内容を解釈する。

通信インタフェース２０は、ネットワーク４上の他の装置とのデータ通信のための制御を行う装置である。リモートホストからのプリント指示等は、この通信インタフェース２０を介して画像形成装置内に入力される。

スキャンエンジン２２は、原稿を光学的に読み取って電子的な画像データを生成するスキャナ機能を提供する装置である。自動原稿送り装置（ＡＤＦ）（図示省略）にセットされた原稿は、ＡＤＦの機能により１枚ずつスキャンエンジンに送られ、光学的に読み取られる。

プリントエンジン２４は、ＣＰＵ１０の制御により供給される画像データを用紙に画像形成（印刷）するプリンタ機能を提供する装置である。

ファクシミリモジュール２６は、ファクシミリデータの送受信を行うモジュールである。

像域分離回路２８は、スキャンエンジン２２が読み取った原稿画像の像域分離を行う回路である。よく知られるように、像域分離では、画像のエッジ強度や空間周波数などの各種の画像特徴を用いて文字や画像などの像域を判別する。従来の像域分離回路はそのような像域分離の結果を出力するものであるが、本実施形態の像域分離回路２８はその像域分離結果に加え、各像域の画像特徴のデータも併せて出力する（詳細は後述）。また、従来は、像域分離回路は、もっぱら印刷などといった画像出力のためのみに用いられていたが、本実施形態の像域分離回路２８は、画像出力だけでなく、原稿画像から構造化文書を生成する際の前処理にも利用する。

画像処理回路３０は、原稿画像に対し、印刷やファクシミリ送信等の用途に応じた画像処理を施す回路である。例えば、印刷を行う場合、像域分離回路２８で分離された文字と画像の像域に対し、それぞれ文字用の画像処理（エッジ強調など）と画像用の画像処理（階調補正など）を施す。

このようなデジタル複合機１において、原稿画像を構造化文書へ変換する機能を実現する仕組みについて、図３を参照して説明する。

図３に示す機能モジュールのうち、像域分離回路２８はＡＳＩＣやＤＳＰなどのハードウエア回路であり、構造化部４０と文字認識部４４はＣＰＵ１０でプログラムを実行することによりソフトウエア的に実現する。また、スキーマＤＢ４２は、例えば大容量記憶装置１６を用いて構築される。ただし、これはあくまで一例に過ぎず、構造化部４０や文字認識部４４の一部又は全部をハードウエア回路として実現することも考えられるし、像域分離処理の一部をソフトウエア的に実現することも考えられる。このように本実施形態では複合機の内部処理機構として従来からある像域分離回路を利用して、構造化文書生成の前処理を行っている。

原稿画像を構造化文書へ変換する処理では、まずスキャンエンジン２２で読み取られた原稿画像が、像域分離回路２８に供給される。像域分離回路２８は、その原稿画像に対し像域分離を実行するとともに、分離された各像域の画像特徴データを計算する。この像域分離の処理では、原稿画像各部のエッジ強度や空間周波数（例えばＤＣＴ（離散コサイン変換）の周波数成分）などといった１乃至複数の画像特徴を求め、これら画像特徴を総合評価することで画像を１乃至複数の像域に分離し、各像域の種別（文字か写真かグラフィクスか、など）を判別する。従来の画像形成装置でも、その画像特徴の計算とそれに基づく像域分離はその全部又は大部分がハードウエア回路で実現されていたが、本実施形態の像域分離回路２８も、それら従来と同様の画像特徴計算及び像域分離のためのハードウエア回路を備える。

そして、本実施形態の像域分離回路２８は、更に、分離された各像域について、１乃至複数の画像特徴を求める機能を備える。ここで求める各像域の画像特徴には、例えば、当該像域内の画像の空間周波数情報、当該像域内の画素値のヒストグラム、当該像域内の画像を二値化した二値画像における画素のオン・オフ比（例えばオン画素の割合）、その二値画像におけるランレングスのヒストグラムなどを例示できる。空間周波数情報は、例えば像域の空間周波数分布の特徴を示す平均周波数やピーク周波数などの指標値やその組合せなどである。画素値のヒストグラムは、図４に示すように、画素値ごとに、その画素値を持つ画素が像域内に幾つあるか、その頻度を集計したヒストグラムである。図４は、文字像域の画素値ヒストグラムを模式的に示したものであり、文字像域では文字部分と非文字部分とでコントラストが非常に大きいので、画素値の大きい部分と小さい部分とにピークが現れている。画像像域の場合、ヒストグラムは文字像域のような顕著なピークパターンは示さないため、文字・画像の像域を判別するのにこのヒストグラムを利用できる。そして、同じ文字像域でも文字数や文字サイズ、フォント、字詰め、行詰めなどが異なれば、ヒストグラムのピークの高さや位置が変わってくるため、このヒストグラムは個々の文字像域の識別のための１つの手がかりとなる。画像（写真）像域の場合も同様であり、画像の内容によってヒストグラムの形状は様々に変わるので、このヒストグラムを画像像域自体の識別のための判断材料として使うこともできる。画像特徴としては、このヒストグラムそのものを用いてもよい。また、そのヒストグラムの特徴を示す指標値、例えば各ピークごとの位置（画素値）と高さ（頻度）のペア、を画像特徴としてもよい。カラー画像の場合、Ｒ，Ｇ，Ｂなどといった各原色のそれぞれについてのヒストグラム（又はその指標値）の組合せを画像特徴として用いることができる。

像域の二値化結果のランレングスのヒストグラムも、同様に、ランレングス値ごとに、当該像域の二値化結果においてそのランレングス値が現れる頻度を求めてグラフ化したものである。ランレングスは、例えばオン画素について求めればよい。ランレングスのヒストグラムの場合も、そのヒストグラム自身を画像特徴として用いてもよいし、そのヒストグラムの特徴を示す指標値を画像特徴として用いてもよい。

これら像域ごとの画像特徴の算出には、像域分離のための基礎データとして求めた原稿画像各部の画像特徴のデータやその基礎データを求める過程で求めた各種演算結果を流用することができる。例えば、像域分離の基礎に用いる画像特徴には画像の二値化結果を用いるものがあるので、像域分離のために求めた二値化画像は、分離した各像域の画像特徴の算出に利用できる。また、像域分離の方式によっては、像域分離のために原稿画像各部における空間周波数を求めるものもあるので、そのような方式の場合、求めた空間周波数の情報を、各像域の空間周波数分布の特徴を求める際に利用できる。このように、本実施形態の各像域の画像特徴の算出は、既存の像域分離回路の処理結果を利用できるので、像域分離及び画像特徴算出の処理全体としての回路規模の増大を抑えることができる。

以上に例示した像域の画像特徴の演算は、ワイヤードロジック又はＤＳＰ或いはそれらの組合せのハードウエア回路として実現できるものである。したがって、従来の像域分離回路にその像域の画像特徴を演算するための回路を追加することで、本実施形態の像域分離回路２８を実現することができる。

以上、像域分離回路２８が求める各像域の画像特徴をいくつか示したが、これらはあくまで例示的なものに過ぎない。目的・用途に応じて適切な画像特徴を選択し利用すればよい。例示した全てを用いる必要はないし、例示したもの以外を用いてももちろんよい。また、以上に例示した像域の画像特徴は、ハードウエア回路で演算できるものであったが、これに限らず像域の画像特徴のうちのいくつかをソフトウエア処理で求めてももちろんよい。ソフトウエア処理で求められる画像特徴の一例としては、例えば像域の文字数、行数などを例示することができる。

以上のようにして、像域分離回路２８は、例えば図３に示すように像域属性１００と像域画像１１０とを出力する。像域属性１００は、当該像域の位置及び形状を示す位置・形状情報１０２と、当該像域の種別を示す像域種別１０４と、当該像域の各画像特徴（空間周波数、二値化画像のオン・オフ比など）を示す画像特徴情報１０６とを含む。位置・形状情報１０２は、像域の形状を矩形とするならば、その対角線上の２頂点の座標情報でよい。この他にも、像域の位置や形状は従来の像域分離で用いられる方式で表現できる。像域画像１１０は、当該像域の画像データである。これら像域属性１００及び像域画像１１０は、構造化部４０に渡される。なお、像域分離回路２８が像域属性１００と像域画像１１０の両方を構造化部４０に渡す代わりに像域属性１００のみを渡し、構造化部４０が、その像域属性１００の位置・形状情報１０２を用いて、スキャンエンジン２２が読み取った原稿画像の中から像域画像１１０を取り出して利用してもよい。

構造化部４０は、像域属性１００及び像域画像１１０の情報を用いて、原稿画像に対応する構造化文書のデータを作成する。この処理において、構造化部４０は、必要に応じ、スキーマＤＢ４２に登録されたスキーマ情報を参照する。

スキーマＤＢ４２には、図５に示すように、文書種別ごとに、文書種別名２００，構造データ２０２，及び要素データ２０４を含んだスキーマ情報が登録される。文書種別は、ユーザが適宜定めるものである。例えば、週報、連絡書、依頼書、技術解説、論文など、ユーザが文書ＤＢサーバ３に登録して管理しようとする様々な文書に対し、ユーザは適宜その種別を設定することができる。文書種別名２００は文書種別に対しユーザが設定した識別名である。

構造データ２０２は、当該文書種別に該当する構造化文書の文書構造を示すデータである。周知のように、ＳＧＭＬ、ＸＭＬ等を代表とする構造化文書は、図６に示すように、文書要素（以下、単に「要素」という）が構成するツリー（木）構造として規定される。図６に例示する構造化文書は、要素Ａの子に要素Ｂ及びＦが存在し、要素Ｂの子に要素Ｃ，Ｄ，Ｅが存在するというツリー構造を持った文書である。構造データ２０２は、このように、当該文書種別の構造化文書の要素群がなすツリー構造を示すデータである。

要素データ２０４は、ツリー構造を構成する各要素の個別の情報であり、図７に示すように、要素名２１０，位置・形状２１２，像域種別２１４，画像特徴２１６，及びスタイル属性２２２を含む。要素名２１０は当該要素の識別名である。位置・形状２１２は、原稿画像中で当該要素の占める領域（像域）の位置・形状を示し、像域種別２１４は、当該要素の像域の種別（文字、写真などの区別）を示す。画像特徴２１６は、当該要素の像域の画像が持つ１乃至複数の画像特徴の情報である。画像特徴２１６には、ＤＣＴ周波数２１８（あるいは空間周波数）、二値化画像のオン・オフ比率２２０、画素値のヒストグラム情報など、所定の各特徴項目のデータが含まれる。スタイル属性２２２は、当該要素の像域内の文字・画像に対するスタイル情報である。例えば、像域内の文字のサイズやフォント、字詰めなどの情報がスタイル属性２２２の一例である。スタイル属性２２２は、原稿画像中の各像域の内部の解析の際の補助情報として利用したり（例えば文字認識の際の各文字の切り出しに文字サイズや字詰めの情報を活用するなど）、構造化文書を作成する際にその中の要素の属性として記述したりするなどの用途で利用できる。

以上では、様々な画像特徴を例示したが、１つの要素の要素データ２０４に、それら全ての種類の画像特徴が登録される必要はない。例えば、画像特徴の中には、文字像域同士を区別する際の指標として適切なものもあれば、画像（写真）像域同士の区別のための指標として適切なものもある（種類の異なる像域の識別は像域種別の情報でできる）。したがって、要素データ２０４には、当該要素の像域種別に対応して選ばれた画像特徴が登録されるようにしてもよい。

なお、同種の文書でも細部が微妙に異なる場合が多いため、同種の文書でも各像域の画像特徴が文書間でぴったり一致することは極めて稀である。このため、同じ文書種別の構造化文書として構造化部４０に認識されるようにするために、位置・形状２１２や画像特徴２１６の各項目の値は、１つの「点」ではなく、適切な幅を持った「範囲」として設定しておくことが好ましい。

以上に説明したスキーマＤＢ４２の登録データ構造はあくまで概念的なものであり、実際の登録データは上述の構造を表現できるものであればどのような表現形式（例えばＤＴＤ（文書型定義）、ＸＭＬスキーマ）のものでもよい。

構造化部４０は、原稿画像中の各像域の像域属性１００と像域画像１１０が与えられた場合、スキーマＤＢ４２中の各文書種別のスキーマ情報を参照し、当該原稿画像に適合する文書種別を探す。すなわち、１つの文書種別を取り出して、その文書種別のスキーマ情報の各要素の位置・形状２１２，像域種別２１４，画像特徴２１６が、当該原稿画像の各像域の位置・形状情報１０２，像域種別１０４，画像特徴情報１０６と整合するか否かを判定し、整合すれば当該原稿画像はその文書種別に属すると判定する。この場合、例えば、１つの像域の位置・形状情報１０２が、ある要素の位置・形状２１２と一致し（或いはその位置・形状２１２の値からあらかじめ設定された許容範囲内であり）、且つその像域の像域種別１０４がその要素の像域種別２１４と一致し、且つその像域の画像特徴情報１０６の各項目の値がその要素の画像特徴２１６の対応項目の値と一致する（或いは許容範囲内である）場合に、その像域がその要素に整合したと判定する。原稿画像中の全ての像域とスキーマ情報の全ての要素とが一対一で余りなく対応し、整合した場合、その原稿画像がそのスキーマ情報の文書種別であると判定される。この判定に伴い、原稿画像の各像域に対応する要素も特定される。また、文書種別の各要素の位置・形状２１２や画像特徴２１６の各項目に理想値を定め、原稿画像の各像域の位置・形状や画像特徴の各項目の値を当該原稿画像の特徴を示す座標と見て、その座標と上記理想値の組が示す座標との距離などを原稿画像と文書種別との類似度の指標値として求め、その類似度の指標値が最も良好（距離の場合、最小）なものを当該原稿画像の文書種別と判定してもよい。ただしこの場合、最良の類似度指標値でも、あらかじめ設定したしきい値より低い場合は、その原稿画像に該当する文書種別がないと判定する。該当する文書種別がない場合は、新規の文書種別として処理する（詳細は後述）。

原稿画像が属する文書種別が判別できると、構造化部４０は、その文書種別の構造データ２０２及び要素データ２０４を用いて、その原稿画像を構造化文書に変換する。すなわち、原稿画像の各像域ごとに、当該像域が文字像域であれば、公知の文字認識処理を行う文字認識部４４にその像域の画像を渡して文字認識処理を行わせ、その像域内の文章のテキストデータを得る。この文字認識の際に、スタイル属性２２２を文字認識部４４に渡せば、認識精度の向上が見込める。そして、そのテキストデータを当該像域に対応する要素の要素名２１０のタグで修飾することにより、当該像域に対応する要素の記述を構成する。また、画像（写真）像域の場合、例えば、その像域の画像のファイルを作成し、その像域に対応する要素の要素名２１０のタグにその画像ファイルへの参照を記述することで、その像域に対応する要素の記述を構成する。そして、構造データ２０２が示す要素間のツリー構造に従ってそれら各要素の記述を配列し、必要に応じて像域に対応しない要素の記述を追加することで、構造化文書を生成する。

次に、図８を参照して、デジタル複合機１の処理手順を説明する。例えば、ユーザが、デジタル複合機１の操作パネル１８に表示される操作メニューから構造化文書作成を選び、原稿をプラテン又はＡＤＦにセットして処理の実行を指示すると、図８の処理手順が開始される。

この手順では、まずスキャンエンジン２２がその原稿を読み取り（Ｓ１）、読み取った原稿画像を像域分離回路２８に渡す。像域分離回路２８は、その原稿画像に対して公知の像域分離処理を施し、その結果分離された各像域につき上述の画像特徴を算出し、それらの処理結果（すなわち像域属性１００）を構造化部４０に渡す。構造化部４０は、各像域の像域属性１００と、スキーマＤＢ４２に登録された各文書種別の情報とを照合することで（Ｓ３）、原稿画像が属する文書種別を探す。そのような文書種別が見つかれば（Ｓ４の判定結果が肯定（Ｙ））、構造化部４０は、その原稿画像に最も適合する文書種別の構造データ２０２及び要素データ２０４に従って、上述のようにしてその原稿画像を構造化文書のデータに変換し（Ｓ５）、得られた構造化文書データを文書ＤＢサーバ３に登録する（Ｓ６）。

スキーマＤＢ４２から原稿画像が属する文書種別が見つからなかった場合（Ｓ４の判定結果が否定（Ｎ））、構造化部４０は、各像域の像域属性１００及び像域画像１１０から、暫定的な構造化文書を作成し（Ｓ７）、これをクライアントマシン２の構造化文書エディタ２ａに提供して（Ｓ８）、ユーザの修正・編集を受ける（Ｓ９）。

デジタル複合機１が読み込んだ文書が今までに全く入力されたことのない種別の文書である場合、このステップＳ７以降の処理が行われる。例えば、図９に示す原稿画像３００が今までにない種別の文書であった場合、像域分離回路２８によりその原稿画像３００を像域Ｒ１〜Ｒ５に分けた像域分離結果３１０が求められ、ステップＳ３，４でその原稿画像３００が既存のどの文書種別にも該当しないことが分かると、ステップＳ７で構造化部４０は、それら各像域に対して仮の要素名（ここでは便宜上像域の名前に合わせてＲ１，Ｒ２，・・・，Ｒ５とする）を付与し、例えば、それら各要素Ｒ１〜Ｒ５が同列にルート要素の子となる、図１０のような仮の文書構造を構築する。また、構造化部４０は、図１１に示すように、各像域Ｒ１〜Ｒ５の位置・形状や像域種別、画像特徴（これらは像域分離回路２８により既に求められている）を、それら各像域に対応する要素Ｒ１〜Ｒ２の属性情報として作成する。そして、構造化部４０は、前述のスキーマＤＢ４２のスキーマ情報を用いた構造化文書の作成方法と同様の方法で、それら文書構造、各要素の属性情報及び各像域の画像から暫定的な構造化文書を作成する。そして、構造化部４０は、ステップＳ８にて、その暫定的な構造化文書とそのスキーマ（図１０の文書構造及び図１１の各要素の属性情報の情報内容を記述したデータ）のデータをクライアントマシン２の構造化文書エディタ２ａに提供する。この提供は、例えばデジタル複写機１にあらかじめクライアントマシン２のアドレス（ユーザのメールアドレスなど）を登録しておき、そのアドレス宛にそのデータを送信することで実現してもよいし、あるいはそのデータを、あらかじめ指定されたユーザの親展ボックスに保存し、そのユーザがクライアントマシン２からその親展ボックスにアクセスしてそのデータをダウンロードすることにより実現してもよい。また、ユーザがデジタル複合機１に対してパスワード入力等によるユーザ認証を済ませた上で構造化文書作成を指示していたならば、構造化文書やスキーマ情報は、そのユーザがあらかじめデジタル複合機１（或いは該複合機１がユーザ認証を依頼するユーザ管理サーバ）に登録した電子メールアドレスに送ったり、そのユーザの親展ボックスに保存したりすることもできる。

このようにして暫定的な構造化文書とそのスキーマの情報を受け取ったクライアントマシン２で、ユーザが構造化文書エディタ２ａを起動してその暫定的な構造化文書（及びスキーマ）のデータを編集対象として指定すると、構造化文書エディタ２ａは、クライアントマシン２のディスプレイの画面に、図１２に示すように、暫定的な構造化文書の画像３２０を表示する。図１２では、煩雑さを避けるため、暫定的な構造化文書の画像３２０として各要素Ｒ１〜Ｒ５に対応する像域の輪郭を示したが、実際には図９の原稿画像３００のように各像域の内容（テキストや画像など）を表示する。また、その表示に、それら各像域の範囲を示す画像（例えば像域の輪郭線）を重畳してもよい。このように表示された暫定的な構造化文書に対し、構造化文書エディタ２ａは、ユーザから文書種別名の入力や、各要素（像域）の要素名の入力を受け付ける。要素名の入力は、例えば表示された構造化文書の要素をマウスのクリック操作等で選択すると、要素名入力用のダイアログボックスが表示され、それに対しユーザが要素名を入力するなどといったユーザインタフェースを用いればよい。同様に、選択した要素に対し、スタイル属性をユーザが入力できるようにすることもできる。スタイル属性、例えば文字サイズやフォントなどは、例えばプルダウンメニュー等の形で、あらかじめ用意された選択肢から選択するようにすればよい。このようなユーザの編集作業により、文書種別名や各要素の要素名等が確定した構造化文書３３０ができる。この例では、各要素の要素名を指定しただけでツリー構造は変わらないため、図１０に示した仮の要素名のツリーが、図１３に示すように、同じツリー構造で要素名のみが仮のものから真のものに変わるだけである。ここで、ルート要素の要素名には、例えば、入力された文書種別名がセットされる。

このように入力された文書種別名や各要素名、スタイル属性などの情報が、当該構造化文書のスキーマ（例えば図１１）に登録されることで、当該構造化文書のスキーマの編集が完了する。スキーマの他の情報、すなわち位置・形状や像域種別、画像特徴などは、デジタル複合機１から提供されたときからの情報内容が維持される。

なお、以上のように単に要素名を入力するだけでなく、既存要素を束ねる要素を挿入するなどの、構造レベルでの編集も可能である。これは、例えば、暫定的な構造化文書を表示した画面上で、束ねたい要素たちを内包する範囲の範囲指定を受け付け、その範囲に対して要素名の入力を受け付けるなどのユーザインタフェース機構により実現できる。これにより、例えば図１４に例示するように、「表題」、「著者名」、「要約」の各要素を束ねる要素「代表項目」を、ルート要素「報告書」の子として挿入できる。このようなツリー構造上の編集結果もスキーマ情報（の構造情報部分）に反映される。

ユーザは、このようにして編集された構造化文書のスキーマ情報をデジタル複合機１に送り、スキーマＤＢ４２に登録する。

このようにしてある文書種別のスキーマ情報がデジタル複合機１のスキーマＤＢ４２に一旦登録されると、その後同じ文書種別の原稿がデジタル複合機１に入力されれば、その原稿画像の各像域はそのスキーマ情報が示す各要素の位置・形状及び画像特徴と整合するため、そのスキーマ情報を用いて構造化文書へと変換される。これにより、例えば図１５に示すように、「○○○○の調査」という表題の報告書がデジタル複合機１に入力され、構造化文書への変換が指示されると、「報告書」のスキーマ情報に従って処理されることで、その文書「○○○○の調査」の各像域のテキストや画像は「報告書」の各要素に対応づけられ、これに基づき構造化文書が作成される。

このように、本実施形態によれば、ユーザが作成したスキーマ情報がデジタル複合機１のスキーマＤＢ４２に一旦登録されれば、その後同じ文書種別の原稿がデジタル複合機１に入力されれば、原稿の画像からそのスキーマ情報に従って自動的に構造化文書データが生成される。この自動処理では、原稿画像の各像域の画像特徴を構造化文書の各要素の画像特徴（これはスキーマ情報に含まれる）と比較することで、各像域がどの要素に該当するかを判定するので、単に像域と要素の位置・形状の比較だけで判定する方式よりも高精度の判定が可能である。また、このとき用いる画像特徴は、像域分離回路２８のハードウエア処理により求めるので、高速処理、リアルタイム処理が実現可能である。

また、本実施形態では、新規な文書種別の原稿が入力された場合、デジタル複合機１が、像域分離回路２８及び構造化部４０により暫定的な構造化文書とそのスキーマ情報を生成し、これをユーザに提供するので、ユーザは比較的簡単な編集作業でスキーマ情報を完成させることができる。

次に、上記実施形態の変形例を、図１６を参照して説明する。図１６において、図８に示したステップと同一のステップには同一符号を付して説明を省略する。

上記実施形態では、スキーマＤＢ４２に登録されるスキーマ情報には、そのスキーマ情報の元になった原稿の各像域の位置・形状や各種画像特徴の値が登録されており、これらの値を基準に同一文書種別の原稿の解析が行われる。ところが、同一の文書種別の文書であっても、その中の各要素の位置・形状及び各画像特徴の値はある程度ばらつくので、原稿画像の文書種別を判定する際、原稿の各像域の値とスキーマ情報の各要素の値との一致を厳格に要求しすぎると、文書種別の判定が成り立たなくなる。かといって、一致と判定する際の許容範囲を広くとりすぎると誤判定が増える。適切な許容範囲は、文書種別ごと、像域・要素ごとに異なると考えられる。そこで、この変形例では、同じ文書種別に属する多くの原稿の読み取り結果を用いてスキーマ情報内の位置・形状２１２や画像特徴２１６の各項目の値の許容範囲を適切に決める処理を説明する。

この処理では、ユーザは、構造化文書作成の対象として入力する原稿の文書種別を知っている場合、その種別をデジタル複合機１に入力する。すなわち、例えば、メニュー上で構造化文書作成が指示された場合、スキーマＤＢ４２に登録された文書種別の種別名のリストを操作パネル１８のディスプレイに表示し、その中から入力する原稿の文書種別をユーザに選択させればよい。ユーザは、文書種別を知っていれば、その種別を選択してから処理開始を指示し、知らなければ選択せずに処理開始を指示すればよい。

そして、処理開始が指示されると、デジタル複合機１は、原稿を読み取って（Ｓ１）、像域分離及び画像特徴の計算（Ｓ２）を行う。そして、文書種別の選択がなされていなければ、前述の図８のステップＳ３以降の処理に進む。一方、文書種別の選択がなされている場合は、構造化部４０は、その選択された文書種別のスキーマ情報をスキーマＤＢ４２から求め、そのスキーマ情報に示される各要素の位置・形状２１２、像域種別２１４及び画像特徴２１６と、原稿画像の各像域の位置・形状情報、像域種別、及び画像特徴情報とを照合し（Ｓ１２）、各要素と各像域とが一対一で対応し整合するかどうかを判定する（Ｓ１３）。この照合・判定は、ユーザの文書種別選択の誤りを検出する目的なので、図８のステップＳ３，Ｓ４での判定の際よりも甘い判定基準（例えば許容範囲がＳ３，Ｓ４の場合よりも大きい、など）で判定する。そして、整合しないと判定した場合は、構造化部４０は、文書種別選択の誤りの可能性を示唆するメッセージを操作パネル１８に表示するなどのエラー処理を行う（Ｓ１４）。一方、整合すると判定した場合は、構造化部４０は、選択された文書種別のスキーマ情報に従って、原稿画像を構造化文書へと変換し（Ｓ１５）、その変換結果を文書ＤＢサーバ１６に登録する（Ｓ１６）。そして更に構造化部４０は、その原稿画像の各像域の位置・形状情報１０２及び画像特徴情報１０６の各項目の値を、スキーマＤＢ４２内の当該スキーマ情報の位置・形状２１２及び画像特徴２１６の各項目の情報に反映させる（Ｓ１７）。ここでは、例えば、原稿画像の像域の位置・形状が、スキーマ情報に登録された対応要素の位置・形状の許容範囲から外れている場合、その像域の位置・形状の値を含むようその許容範囲を修正する。また、スキーマ情報における位置・形状等が、平均値や分散などの統計データで規定されている場合、その統計データをいま処理した原稿画像の各像域の情報を用いて修正する。なお、スキーマ情報の各項目を統計データで表す場合、原稿の各像域が各要素に対応するかどうかは、各像域の位置・形状等が文書のある要素であることについての統計的な確からしさをその要素の統計データから求め、その確からしさに基づき判定を行えばよい。

以上、本発明の好適な実施形態と変形例を説明したが、以上に説明したものはあくまで一例に過ぎず、本発明の範囲内で様々な変形が可能である。例えば、以上の例では、デジタル複合機１が作成した暫定的な構造化文書のスキーマ情報を、クライアントマシン２の構造化文書エディタ２ａで修正したが、これに限らず、例えばデジタル複合機１に上述したスキーマ情報の編集機能を持たせてもよい。

また、以上の例では、デジタル複合機１が読み取った原稿画像について、そのデジタル複合機１が像域分離を行い、構造化文書に変換したが、上述の像域分離及び構造化文書への変換のための上述の各機能は、原稿画像を読み取った装置とは別の装置で実行されてもよい。このことは、以下に示す各変形例についても言えることである。すなわち、以下では、更なる変形例を、上述のデジタル複合機１で実現した場合を例にとって説明するが、以下に示す変形例の機能は、原稿画像を読み取った装置とは別の装置で実行されてもよい。

この場合、別の装置は、例えば、汎用のコンピュータにて上述の各部の機能又は処理内容を記述したプログラムを実行することにより実現してもよい。コンピュータは、例えば、ハードウエアとして、ＣＰＵ（中央演算装置）、メモリ（一次記憶）、各種Ｉ／Ｏ（入出力）インタフェース等がバスを介して接続された回路構成を有する。また、そのバスに対し、例えばＩ／Ｏインタフェース経由で、ＨＤＤ（ハードディスクドライブ）やＣＤやＤＶＤ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体を読み取るためのディスクドライブが接続される。このようなドライブは、メモリに対する外部記憶装置として機能する。実施形態の処理内容が記述されたプログラムがＣＤやＤＶＤ等の記録媒体を経由して、又はネットワーク経由で、ＨＤＤ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがメモリに読み出されＣＰＵにより実行されることにより、実施形態の処理が実現される。

別の変形例の処理手順を、図１７を参照して説明する。図１７の手順では、デジタル複合機１の像域分離回路２８が構造化の対象となる原稿画像を像域分離し、構造化部４０がその像域分離の結果を用いて、暫定的な構造化文書及びスキーマ情報（例えば、図１０に例示したようなフラットな構造のもの）を作成する（Ｓ２１）。また、この像域分離の結果における分離精度（像域分離精度と呼ぶ）を計算する（Ｓ２２）（便宜上ステップＳ２１の後にＳ２２を示したが、像域分離精度の計算は、像域分離処理と平行して実行してもよい）。像域分離精度は、像域分離処理により求められる個々の像域ごとに計算することができる。

すなわち、像域分離では、画素、或いは複数の画素からなるブロック、等といった画像単位について画像特徴を求め、画像単位ごとに、その周波数特性等の画像特徴から、その画像単位が文字、連続調（写真）画像、誤差拡散画像、などといった像域種別のいずれに属するかを判定する。この判定のために、例えば、像域種別ごとに画像特徴の値（或いは複数の画像特徴の値の組。以下、簡単のため「画像特徴値」と総称する）の範囲が定められており、画像単位の画像特徴値が、ある像域種別に対応する範囲に含まれれば、その画像単位はその像域種別に該当すると判定される。しかし、そのように範囲に含まれるか否かに従って自動判定した場合、画像単位の画像特徴値がある像域種別に対応する範囲に含まれてさえいれば、その画像特徴値がその範囲と別の像域種別の範囲との境界部に位置しようと、そのような別の像域種別の範囲と紛れない、当該像域種別の可能性が高い位置に位置しようと、その画像単位は等しくその像域種別と判定されてしまう。しかし、本来ならば、前者（境界部に位置する場合）は、後者よりも、当該画像単位が判定結果の像域種別である可能性は低いのである。このように、画像単位が同じようにある像域種別と判定された場合でも、前者よりも後者の方が、その判定結果の確からしさが高い。この確からしさが、前述の像域分離精度である。例えば、画像単位の画像特徴値と、像域種別に対応する画像特徴値の範囲とを用いて、その画像単位がその像域種別に属する確からしさ、すなわち像域分離精度を求めるための評価式、或いは評価ルールなどを定義することができる。例えば、単純な例では、画像特徴値がａからｂの範囲に含まれれば、当該画像単位は像域分離精度０．１で像域種別Ａに属し、ｂからｃの範囲に含まれれば、像域分離精度０．９で像域種別Ａに属する、等といったルールを定義することができる。

以上一例を示したが、上述の方式に限らず、像域種別の判定にどのような方法を用いるにしても、画像単位の画像特徴値が各像域種別における画像特徴の典型的な値にどれだけ近いか又は遠いかに応じて、その画像単位が各像域種別に属する確からしさを数値化する
ことができる。像域分離精度を求める機能は、像域分離回路２８に設けることができる。

このような評価式や評価ルールなどにより求められた各画像単位の像域分離精度を総合することで、原稿画像の像域分離結果全体についての像域分離精度を求めることができる。各画像単位の像域分離精度を総合してを求めるための演算には、様々なものが考えられる。例えば、各画像単位の像域分離精度の中で最も低い値を、像域分離結果全体の像域分離精度とする方式がその一つである。また、各画像単位の像域分離精度から所定の計算式（例えば平均を求めるための式や、二乗平均を求めるための式など）を用いて全体の像域分離精度を求めてもよい。どのような計算式が適切かは、用いる画像特徴の種類にもよるし、像域分離処理の内容にもよるが、いずれにしても、各画像単位の像域分離精度から像域分離結果全体の像域分離精度を定義することは可能である。

このようにして、像域分離結果全体の像域分離精度が求められると、その精度が予め定めた閾値以上であるか否かが判定される（Ｓ２３）。閾値以上であれば、像域分離精度が十分に高いということであり、その場合、デジタル複合機１は、ステップＳ２１で求めた暫定的な構造化文書及びスキーマ情報を、正式の構造化文書及びスキーマ情報として文書ＤＢサーバ３及びスキーマＤＢ４２に登録する（Ｓ２４）。

一方、像域分離精度が閾値未満であれば、暫定的な構造化文書及びスキーマ情報をクライアントに提供し（Ｓ２５）、構造化文書及びスキーマ情報に対する編集作業をユーザから受けて（Ｓ２６）、その編集結果を反映した構造化文書及びスキーマ情報を文書ＤＢサーバ３及びスキーマＤＢ４２に登録する（Ｓ２７）。ステップＳ２６での編集は、大略的には図８の手順におけるステップＳ９での編集と同様である。ただし、ステップＳ２６の場合、像域分離精度が低いので、誤った像域分離がなされている可能性が高い。したがって、ステップＳ２６の編集では、暫定的なスキーマ情報に示される像域そのものの位置、形状、サイズなどがユーザにより変更される場合もある。そのような像域についての変更は、スキーマ情報や、このスキーマ情報に準拠する構造化文書へと反映される。このように、像域分離精度が閾値より低い場合は、像域分離結果そのものの信頼性が低いため、ユーザの介入を求めるのである。

なお、ステップＳ２３で用いる閾値は、実験などにより妥当な値を予め定めておき、それをデジタル複合機に登録しておけばよい。

このように、図１７の手順では、像域分離精度が閾値以上の場合には、ユーザの手を煩わせることなく、自動的に構造化文書及びスキーマ情報の登録を行う。このように自動的に登録される構造化文書及びスキーマ情報には、論理構造がある限定されたものになる（例えばフラット構造）、或いは図１２に例示したような要素の意味づけができない（あるいは言語解析その他の高度な分析処理によりある程度の意味づけをすることも不可能ではないが、そのような自動処理では高精度の意味づけは期待できない）、などといった点はある。しかし、このような点を考慮しても、ユーザの省力化の方が重要であれば、図１７のような手順を用いる意義がある。

次に、図１７の手順の変形を、図１８を用いて説明する。図１８の処理のために、スキーマＤＢ４２における各文書種別のスキーマ情報に対応づけて、その文書種別に該当する文書の画像を仮に像域分離したとした場合に得られると想定される像域分離の結果（言い換えれば、各画像単位の像域種別の判定結果）とそれら各画像単位の像域分離精度とが参照値として登録されているものとする。そのような参照値は、例えばその文書種別に該当する文書の画像に対し、実際に像域分離を施すことで求めることができる。新規の文書種別に属する原稿を本システムに読み込んだときに求められる像域分離結果や像域分離精度を、その文書種別の参照値とすることもできる。また、文書種別に属する複数の原稿の平均的な像域分離結果や像域分離精度を参照値としてもよい。

図１８の手順では、デジタル複合機１は、原稿画像に対して像域分離を行い（Ｓ３１）、その像域分離の結果と、各画像単位の像域分離精度とを求める（Ｓ３２）。そして、それら各画像単位の像域種別の判定結果と各画像単位の像域分離精度と、スキーマＤＢ４２中の各文書種別のスキーマ情報に対応づけられた像域分離結果及び像域分離精度の参照値との比較から、原稿画像に適合する文書種別を検索する（Ｓ３３）。ステップＳ３３では、例えば、原稿画像の像域分離結果及び像域分離精度と、文書種別に対応する参照値との距離を求め、その距離が所定の閾値以下であれば、その文書種別は原稿画像に適合する（すなわち、その原稿画像がその文書種別に属する可能性が所定の閾値以上の確からしさで言える）と判定し、抽出することができる。そして、検索された文書種別の中の、原稿画像に対して最も適合する文書種別（例えば、前述の距離が最も小さいもの）に対応するスキーマ情報に従って、原稿画像を構造化文書に変換する（Ｓ３５）。このステップＳ３５での変換処理は、図８の手順のステップＳ５と同様の処理でよい。そして、その結果生成された構造化文書を、文書ＤＢサーバ３に登録する。

また、ステップＳ３４で原稿画像に適合する文書種別がないと判定された場合は、例えば、図１７の手順のステップＳ２２に進めばよい。この場合、デジタル複合機１は、原稿画像全体の像域分離精度を求め、これが所定の閾値以上であれば、その原稿画像が新規の文書種別（すなわちスキーマＤＢ４２に今まで登録されていなかった文書種別）であると判断して、その原稿画像の像域分離結果から生成した暫定的な構造化文書及びスキーマ情報を、文書ＤＢサーバ３及びスキーマＤＢ４２に登録する（Ｓ２４）。また、原稿画像全体の像域分離精度が閾値未満の場合は、ユーザに暫定的な構造化文書及びスキーマ情報を提供して、これに対する確認又は編集を受け、その結果得られる構造化文書及びスキーマ情報を文書ＤＢサーバ３及びスキーマＤＢ４２に登録する（Ｓ２５〜Ｓ２７）。

なお、ステップＳ３４で原稿画像に適合する文書種別がないと判定された場合に、以上のような処理の代わりに、図８の手順のステップＳ３以降の処理を行うようにしてもよい。

次に、更なる変形例を、図１９を参照して説明する。図１９の処理のために、スキーマＤＢ４２における各文書種別のスキーマ情報に対応づけて、その文書種別に該当する文書の代表画像がシステムに登録されている。代表画像は、例えば、その文書種別に該当する具体的な文書画像の１つであってもよいし、その文書画像に該当する複数の文書の画像の平均画像であってもよい。各文書種別の代表画像は、デジタル複合機１からアクセスできるところであればどこに格納されていてもよい。例えば、代表画像は、スキーマＤＢ４２に格納されていてもよいし、文書ＤＢサーバ３に格納されていてもよい。

図１９の手順では、デジタル複合機１は、構造化の対象である原稿画像を取得すると、システムに登録された各文書種別の代表画像の中から、その原稿画像に対する類似度が所定値以上であるものを検索する（Ｓ４１）。原稿画像に対する代表画像の類似度は、画像同士の類似度を求める既存の手法により求めることができる。例えば、原稿画像と代表画像の対応画素同士の値の差分について、全画素にわたっての二乗平均をとったものを原稿画像と代表画像の距離とし、その距離が近いほど類似度が高くなる評価式により類似度を計算する、などである。このような画像同士の類似度は、ハードウエア回路でもソフトウエア処理でも求めることができる。本システムに、そのような類似度を求めるためのハードウエア又はソフトウエアを搭載すればよい。

そして、所定値以上の類似度を持つ文書種別があるかどうかを判定し（Ｓ４２）、そのような文書種別が見つかった場合は、その中で最も類似度の高い文書種別のスキーマ情報に従って、原稿画像を構造化文書に変換する（Ｓ４３）。この変換処理は、図８の手順のステップＳ５と同様な処理内容でよい。そして、得られた構造化文書を文書ＤＢサーバ３に登録する（Ｓ４４）。

また、このような処理の代わりに、ステップＳ４２の所定値以上の類似度を持つ文書種別が複数見つかった場合、図８のＳ２以降の処理を行ってもよい。この場合、原稿画像に適合する文書種別を、スキーマＤＢ４２に登録されたすべての文書種別の中から探す代わりに、それら所定値以上の類似度を持つ文書種別の中から探索すればよい。

また、ステップＳ４２の判定で、所定値以上の類似度を持つ文書種別がないと判定された場合には、例えば図１７の処理を行えばよい。また、この代わりに図８の処理を行ってもよいし、図１８の処理を実行するようにしてもよい。

このように、図１９の処理手順では、像域分離とそれに基づく構造化の処理を行う前に、画像のレベルでの類似度により原稿画像が属する可能性の高い文書種別を絞り込み、そのような絞り込み結果に対して像域分離に基づく構造化のための処理を行う。したがって、像域分離に基づく構造化のための処理に要する時間が短くなる。

以上の図１７〜図１９を用いて説明した各例では、各種の判定のためにそれぞれ閾値を用いたが、このような閾値を設定したり、変更したりするためのユーザインタフェースを、デジタル複合機１に設けてもよい。また、図１７〜図１９を用いて説明した各処理を実行するか否かを設定するためのユーザインタフェースをデジタル複合機１に設けてもよい。

実施形態のシステム構成例を示す図である。実施形態のデジタル複合機の制御機構のハードウエア構成を示す図である。実施形態のデジタル複合機における、原稿画像を構造化文書へ変換する機能の詳細を示す機能ブロック図である。画素値のヒストグラムの例を示す図である。スキーマＤＢに登録されたスキーマ情報の概略的なデータ内容を示す図である。構造データが示すツリー構造の例を示す図である。要素データの構造の例を示す図である。デジタル複合機が実行する構造化文書作成処理の手順の一例を示すフローチャートである。原稿画像に対応する文書種別がない場合の、暫定的な構造化処理を説明するための図である。暫定的な構造化結果のツリー構造の一例を示す図である。暫定的な構造化結果の要素データの一例を示す図である。構造化文書エディタ上での編集操作を説明するための図である。編集された構造化文書のツリー構造の一例を示す図である。編集された構造化文書のツリー構造の別の一例を示す図である。スキーマ情報が登録された文書種別の原稿を読み取った時の構造化部の処理を説明するための図である。変形例の処理手順を示すフローチャートである。更に別の例の処理手順を示すフローチャートである。更に別の例の処理手順を示すフローチャートである。更に別の例の処理手順を示すフローチャートである。

符号の説明

１デジタル複合機、２クライアントマシン、２ａ構造化文書エディタ、３文書ＤＢサーバ、４ネットワーク、２８像域分離回路、４０構造化部、４２スキーマＤＢ、４４文字認識部、１００像域属性、１０２位置・形状情報、１０４像域種別、１０６画像特徴情報、１１０像域画像。

Claims

原稿を読み取る読取部と、
前記読取部が読み取った原稿の画像を像域分離する像域分離部と、
前記像域分離部が分離した各像域に対しそれぞれその像域の画像種別に応じた画像処理を施す画像処理部と、
前記画像処理部で画像処理された原稿の画像を出力する出力部と、
を備える画像形成装置であって、
前記像域分離部が分離した各像域についてそれぞれ画像特徴を求める特徴演算部と、
構造化文書の各要素の位置及び画像特徴とが該構造化文書の構造情報として登録される構造情報登録部と、
前記像域分離部が求めた各像域の位置及び前記特徴演算部が求めた各像域の画像特徴と、前記構造情報登録部に登録された情報とに基づき、それら各像域を構造化文書の各要素を対応づけ、この対応付け結果に基づき前記原稿画像に対応する構造化文書を生成する構造化部と、
前記像域分離部による像域分離の精度を評価する評価部と、
前記評価部により評価された精度が所定の閾値より高い場合に、前記像域分離部による像域分離の結果である各像域を要素とする構造情報を作成し、前記構造情報登録部に登録する登録部と、
を備える画像形成装置。
前記像域分離部は、該画像の各部の画像特徴を求め、求めた画像特徴を用いて前記原稿の画像の像域分離を実行するものであり、
前記特徴演算部は、前記各像域についての画像特徴を求めるに当たり、前記像域分離部が像域分離のための画像特徴を求めるために行った演算結果を利用する、
ことを特徴とする請求項１記載の画像形成装置。
前記画像形成装置はデジタル複合機であり、前記像域分離部と前記特徴演算部とがデジタル複合機の内部処理機構として構成されることを特徴とする請求項２記載の画像形成装置。
前記特徴演算部が求める各像域の画像特徴は、当該像域における画像の空間周波数成分の分布であることを特徴とする請求項１記載の画像形成装置。
前記特徴演算部が求める各像域の画像特徴は、当該像域の画像の二値化結果における白黒画素の比率であることを特徴とする請求項１記載の画像形成装置。
前記特徴演算部が求める各像域の画像特徴は、当該像域における各画素値の出現頻度分布であることを特徴とする請求項１記載の画像形成装置。
前記特徴演算部が求める各像域の画像特徴は、当該像域の画像の二値化結果における各ランレングス値の出現頻度分布であることを特徴とする請求項１記載の画像形成装置。
前記構造情報登録部には、構造化文書の要素の像域種別に応じた画像特徴が登録されることを特徴とする請求項１記載の画像形成装置。
前記構造化部は、
前記像域分離部の処理により得られた前記各像域のレイアウトをユーザに提示するレイアウト提示部と、
該レイアウト中の各像域に対応する新規な構造化文書の要素の指定をユーザから受け付け、各像域の位置及び画像特徴を当該像域に対してユーザが指定した要素と対応づけて、前記新規な構造化文書の構造情報として前記構造情報登録部に登録する登録処理部と、
を備えることを特徴とする請求項１記載の画像形成装置。
前記レイアウト提示部は、前記レイアウトを所定のユーザ端末に対して提供し、
前記登録処理部は、提供した前記レイアウトに対して前記ユーザ端末から入力された構造化文書の各要素の位置及び画像特徴の情報を、新規な構造化文書の情報として前記構造情報登録部に登録する、
ことを特徴とする請求項９記載の画像形成装置。
前記構造化部は、前記像域分離部が分離した各像域の位置及び画像特徴が、前記構造情報登録部に登録された構造化文書の各要素の位置及び画像特徴に整合しない場合に、前記レイアウト提示部及び前記登録処理部に新規な構造化文書の登録のための処理を行わせる、ことを特徴とする請求項９記載の画像形成装置。
原稿を読み取りにより得られた原稿画像を像域分離し、分離された各像域をそれぞれ当該像域の位置及び画像特徴と関連づけて出力する像域分離部と、
前記像域分離部で分離された各像域に関連づけられた位置及び画像特徴に基づき、それら各像域を構造化文書の各要素を対応づけ、この対応付け結果に基づき前記原稿画像に対応する構造化文書を生成する構造化部と、
前記像域分離部による像域分離の精度を評価する評価部と、
前記評価部により評価された精度が所定の閾値より高い場合に、前記像域分離部による像域分離の結果である各像域を要素とする構造化文書の構造情報を作成し、構造情報登録部に登録する登録処理部と、
を備え、
前記構造化部は、前記構造情報登録部に登録された構造情報を参照して、前記原稿画像に対応する構造化文書を生成する、
ことを特徴とする画像処理装置。
前記像域分離部による像域分離の精度を評価する評価部を更に備え、
前記構造情報登録部は、
前記構造情報登録部には、前記評価部が求めた像域分離の精度を画像特徴の少なくとも１つとして含んだ構造情報が登録され、
前記構造化部は、
前記原稿画像について前記評価部が求めた像域分離の精度をキーとして前記構造情報登録部を検索することで、前記原稿画像に対応する１以上の構造情報を求め、求めた構造情報に基づき前記原稿画像に対応する構造化文書を生成する、
ことを特徴とする請求項１記載の画像形成装置。
前記像域分離部による像域分離の精度を評価する評価部を更に備え、
前記構造情報登録部は、
前記構造情報登録部には、前記評価部が求めた像域分離の精度を画像特徴の少なくとも１つとして含んだ構造情報が登録され、
前記構造化部は、
前記原稿画像について前記評価部が求めた像域分離の精度をキーとして前記構造情報登録部を検索することで、前記原稿画像に対応する１以上の構造情報を求め、前記１以上の構造情報に基づき前記原稿画像に対応する構造化文書を生成する、
ことを特徴とする請求項１２記載の画像処理装置。
前記構造情報登録部に登録された各構造情報に対応して、当該構造情報に対応する文書の画像を蓄積する文書画像蓄積部と、
前記読取部が読み取った原稿画像に対して所定の閾値以上の類似度を持つ画像を前記文書画像蓄積部から検索する検索部と、
を更に備え、
前記構造化部は、前記検索部が検索した画像に対応する構造情報に基づき、前記原稿画像に対応する構造化文書を生成する、
ことを特徴とする請求項１記載の画像形成装置。
各文書種別を代表する代表画像を蓄積する文書画像蓄積部と、
前記原稿画像に対して所定の閾値以上の類似度を持つ代表画像を前記文書画像蓄積部から検索する検索部と、
を更に備え、
前記構造化部は、前記像域分離部が出力した前記原稿画像の各像域と、前記検索部が検索した代表画像に対応する文書種別の構造化文書の各要素との間で対応付けを行うことにより構造化文書を生成する、
ことを特徴とする請求項１２記載の画像処理装置。