JP2006345314A - Image processing apparatus and image processing method - Google Patents
Image processing apparatus and image processing method Download PDFInfo
- Publication number
- JP2006345314A JP2006345314A JP2005170041A JP2005170041A JP2006345314A JP 2006345314 A JP2006345314 A JP 2006345314A JP 2005170041 A JP2005170041 A JP 2005170041A JP 2005170041 A JP2005170041 A JP 2005170041A JP 2006345314 A JP2006345314 A JP 2006345314A
- Authority
- JP
- Japan
- Prior art keywords
- character
- block
- enlarging
- image processing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
Description
本発明は、紙文書をスキャナ等の読取装置を用いて読み取ることにより生成された画像データについての処理技術に関するものである。 The present invention relates to a processing technique for image data generated by reading a paper document using a reading device such as a scanner.
近年オフィス内の機器のデジタル化、ネットワーク化に伴って、複写機は単に紙文書の複製物を作成するための装置として機能するだけでなく、FAXや紙文書の電子化、さらにはネットワークを介しての画像データの送付等を行うための装置としても機能するようになってきている。 In recent years, with the digitization and networking of equipment in offices, copiers not only function as devices for creating copies of paper documents, but also digitize faxes and paper documents, and even via networks. It has also come to function as a device for sending all image data.
このように多機能化された複写機は一般にMFP(Multi Function Peripheral)と呼ばれており、オフィスにおいて紙文書を取り扱う業務を行う際の中心的な支援ツールとなりつつある。そして、それに対応して、MFP自身も、紙文書をあたかも画像データのように簡易に扱えるよう、様々な機能が整えられるようになってきている。 Such a multifunctional copying machine is generally called an MFP (Multi Function Peripheral), and is becoming a central support tool for carrying out business dealing with paper documents in an office. Correspondingly, various functions have been arranged so that the MFP itself can easily handle a paper document as if it were image data.
例えば、特許文献1には、スキャンした紙文書を編集可能な画像データに変換する技術が記載されている。
特許文献1に記載されているような技術によって変換された画像データを用いることにより、ユーザがMFPのタッチパネル上に表示された画像データをワンタッチで編集し、当該編集した画像データを出力することで編集後の紙文書を容易に獲得できるようにすることを、本出願人は考えている。
By using the image data converted by the technique described in
紙文書を編集可能な画像データに変換するにあたり、MFPでは次のような手順で処理を実行する。まず、紙文書をスキャンすることにより生成された画像データを像域分離し、テキスト、表、写真、線画といった属性ごとに矩形領域(ブロック)に領域分割する。 When converting a paper document into editable image data, the MFP executes processing in the following procedure. First, image data generated by scanning a paper document is image-region-separated and divided into rectangular regions (blocks) for each attribute such as text, table, photograph, and line drawing.
次に、領域分割することにより得られた各ブロックのオブジェクトについて、例えばテキスト領域(テキストブロック)であればOCRし文字認識したのち、文字オブジェクトを全体画像より切り出しアウトラインベクトル化する。このように、アウトラインベクトル化することで、文字オブジェクトは拡大/縮小しても画質の変わらない非解像度依存の画像データとして取り扱うことが可能となる。 Next, for each block object obtained by dividing the area, for example, if it is a text area (text block), OCR is performed and character recognition is performed. Then, the character object is cut out from the entire image and converted into an outline vector. In this way, by converting the outline vector, the character object can be handled as non-resolution-dependent image data whose image quality does not change even when enlarged or reduced.
また、表オブジェクトについては表罫線を表現している画素を全体画像より切り出した後、アウトラインベクトル化し非解像度依存の画像データに変換した後、さらに図形認識を行って表構造を認識する。また、写真、線画等についても同様にして全体画像より切り出しそれぞれ個別に変換する。 As for the table object, the pixels representing the table ruled line are cut out from the entire image, converted into outline vectors, converted into non-resolution-dependent image data, and further figure recognition is performed to recognize the table structure. Similarly, photographs, line drawings, etc. are cut out from the entire image and converted individually.
このように全体画像よりオブジェクトを切り出し、個別に最適な処理が施された画像データについては、それぞれ個別にレイアウトを変更する等の編集処理を行うことが可能であり、それを紙文書として出力したり、また抽出された画像データを任意に選択し画像データとして保存・送付したりすることが可能である。 In this way, it is possible to perform edit processing such as changing the layout of individual image data that has been cut out from the entire image and individually processed optimally, and this is output as a paper document. It is also possible to arbitrarily select the extracted image data and save / send it as image data.
このように、スキャンした紙文書を編集する編集機能が付加されたMFPでは、さらに、高齢者のような視力が低下した人への資料の再発行を行うべく、紙文書中の文字を任意の大きさで簡易に拡大する、いわゆる「原本の再発行機能」の実現が望まれている。 In this way, in an MFP to which an editing function for editing a scanned paper document is added, characters in the paper document can be arbitrarily changed in order to reissue the material to a person with low vision such as an elderly person. Realization of a so-called “original reissue function” that easily expands in size is desired.
「原本の再発行機能」を簡易に実現する方法としては、例えば、紙文書をスキャンした後、像域分離した各オブジェクトをタッチパネル上で任意に拡大し、出力する方法が考えられる。このようにMFP上で行うPCレスの簡易な方法は、PCの複雑な操作を嫌う高齢者にとっては非常に適した方法であるといえる。さらに、テキストを任意の大きさで拡大し、レイアウトする一連の作業を自動化させれば、視力の低下した人にとっては、より親切な機能となる。 As a method of easily realizing the “original reissue function”, for example, a method of scanning a paper document and arbitrarily enlarging and outputting each object obtained by separating the image area on the touch panel can be considered. Thus, it can be said that the PC-less simple method performed on the MFP is very suitable for an elderly person who dislikes complicated operation of the PC. Furthermore, automating a series of tasks for enlarging and laying out text at an arbitrary size will be a more friendly function for people with reduced vision.
しかし、上述のように原本の再発行機能を実現するにあたり、例えば、像域分離することにより切り出されたオブジェクト(例えば、テキスト領域の文字オブジェクト)を文字認識したのち、該認識されたテキストコード等の情報を用いて拡大処理を行ったのでは、文字認識において誤認識があった場合に、当該誤った情報を拡大してしまうおそれがある。このため、拡大処理を行うにあたっては、文字のアウトラインのような形状情報を用いた画像ベースの拡大処理を行うことが望ましい。 However, in realizing the original reissue function as described above, for example, after recognizing an object (for example, a character object in a text area) cut out by image area separation, the recognized text code, etc. If the enlargement process is performed using this information, if there is an erroneous recognition in character recognition, the erroneous information may be enlarged. For this reason, when performing the enlargement process, it is desirable to perform an image-based enlargement process using shape information such as a character outline.
そして、このようなオブジェクトの形状情報を用いた画像ベースの拡大処理を行うにあたっては、拡大したいオブジェクトが含まれる矩形領域(ブロック)を、紙文書上の他のオブジェクトが含まれる矩形領域と被らないように、かつ矩形領域間の隙間をなくすようにして行うのが望ましいと考えられる。 When performing image-based enlargement processing using such object shape information, a rectangular area (block) containing an object to be enlarged is covered with a rectangular area containing another object on a paper document. It is considered desirable to do so so that there is no gap between the rectangular regions.
しかしながら、このような拡大処理の場合、拡大処理しようとするオブジェクトが入れ子(互いに属性の異なるオブジェクトを含む矩形領域同士が重なった状態)になっていた場合には、元々、オブジェクトを含む矩形領域同士が被っているため、両方のオブジェクトを一体として扱うようにしなければ、オブジェクトを拡大することができないといった問題がある。オブジェクト毎に別個に扱った場合、オブジェクト同士の位置ずれが生じ、画像データの内容が変わってしまうおそれがあるからである。 However, in the case of such enlargement processing, if the objects to be enlarged are nested (in a state where rectangular regions including objects having different attributes overlap each other), the rectangular regions including the objects are originally Therefore, there is a problem that the object cannot be enlarged unless both objects are handled as a unit. This is because, when each object is handled separately, positional displacement between the objects may occur, and the content of the image data may change.
具体例を挙げて説明すると、表のようなオブジェクトの場合、表罫線オブジェクトと、文字オブジェクトとは入れ子になっている。このため、表罫線オブジェクトと文字オブジェクトとをそれぞれ別の拡大率で拡大したのでは、表セルから文字がはみ出るなどして、表の内容が変わってしまう場合がある。 In the case of an object such as a table, a table ruled line object and a character object are nested. For this reason, if the table ruled line object and the character object are enlarged at different magnifications, the contents of the table may change due to characters protruding from the table cell.
このため、表罫線オブジェクトと文字オブジェクトとを同じ拡大率で拡大することが考えられるが、一般に、表罫線オブジェクトの拡大は、その大きさが元々文書画像内においてある程度大きい場合が多いため、更に拡大することができないことが多く、それゆえ、セル中の文字オブジェクトも同じ拡大率で拡大した場合、文字オブジェクトを十分拡大することができないといった結果をまねくことになる。 For this reason, it is conceivable to enlarge the table ruled line object and the character object at the same enlargement ratio, but generally, the enlargement of the table ruled line object is often large to some extent in the document image. In many cases, the character object in the cell cannot be enlarged sufficiently if the character object in the cell is enlarged at the same enlargement ratio.
本発明は上記課題に鑑みてなされたものであり、紙文書をスキャンすることにより得られた画像データについて、画像データの内容を維持したまま、より見やすく編集することを目的とする。 SUMMARY An advantage of some aspects of the invention is that image data obtained by scanning a paper document is edited more easily while maintaining the content of the image data.
上記の目的を達成するために本発明に係る画像処理装置は以下のような構成を備える。即ち、
属性の異なる複数のオブジェクトを含む文書をスキャンすることにより得られた画像データを処理する画像処理装置であって、
前記画像データを、互いに属性の異なるオブジェクトからなるブロック毎に分割する分割手段と、
前記分割手段により属性が文字であると判定されたオブジェクトをベクトル化する文字処理手段と、
前記文字処理手段によりベクトル化されたオブジェクトが、前記分割手段により分割されたブロックのうち、表ブロックを構成するセル内に位置していた場合に、該オブジェクトからなる文字ブロックを該セルに内接するよう拡大し、該拡大された文字ブロックに対応して、該文字ブロックに含まれる該オブジェクトを拡大する文字拡大手段とを備える。
In order to achieve the above object, an image processing apparatus according to the present invention comprises the following arrangement. That is,
An image processing apparatus that processes image data obtained by scanning a document including a plurality of objects having different attributes,
Dividing means for dividing the image data into blocks each made up of objects having different attributes;
A character processing means for vectorizing an object whose attribute is determined to be a character by the dividing means;
When the object vectorized by the character processing means is located in a cell constituting a table block among the blocks divided by the dividing means, the character block consisting of the object is inscribed in the cell. Character enlargement means for enlarging the object included in the character block corresponding to the enlarged character block.
本発明によれば、紙文書をスキャンすることにより得られた画像データについて、画像データの内容を維持したまま、より見やすく編集することが可能となる。 According to the present invention, it is possible to edit image data obtained by scanning a paper document more easily while maintaining the content of the image data.
以下、必要に応じて添付図面を参照しながら本発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings as necessary.
[第1の実施形態]
1.文書管理システムの構成
本発明の第1の実施形態について説明する。図1は本発明の第1の実施形態にかかる画像処理装置(MFP100)を備える文書管理システムの構成を示す図である。同図に示すように、当該文書管理システムはオフィス120とオフィス130とがインターネット104で接続された環境において実現している。
[First Embodiment]
1. Configuration of Document Management System A first embodiment of the present invention will be described. FIG. 1 is a diagram showing a configuration of a document management system including an image processing apparatus (MFP 100) according to the first embodiment of the present invention. As shown in the figure, the document management system is realized in an environment in which an
オフィス120内に構築されたLAN107には、MFP100、MFP100を制御するマネージメントPC101、クライアントPC102、文書管理サーバ106−1、文書管理サーバ106−1のデータベース105−1がそれぞれ接続され、それらはプロキシサーバ103−1に接続されている。
Connected to the
同様にオフィス130内に構築されたLAN108には、文書管理サーバ106−2及びそのデータベース105−2がそれぞれ接続されている。また、オフィス120内のLAN107とオフィス130内のLAN108とはプロキシサーバ103−1、103−2を介してインターネット104に接続されている。
Similarly, the document management server 106-2 and its database 105-2 are connected to the
このように、本実施形態にかかる画像処理装置(MFP100)は、文書管理システムを構成する機器として機能させることができる。具体的には、MFP100は、紙文書の画像読み取り部と読み取った画像データに対する画像処理の一部を担当し、画像処理された画像データはLAN109を用いてマネージメントPC101に入力される。マネージメントPC101は通常のPCであり、内部に画像記憶手段、画像処理手段、表示手段、入力手段を有する。
As described above, the image processing apparatus (MFP 100) according to the present embodiment can function as a device constituting the document management system. Specifically, the
2.画像処理装置(MFP100)の構成
図2は、本発明の第1の実施形態にかかる画像処理装置(MFP100)の機能構成を示す図である。以下、図2について図1を参照しながら説明する。
2. Configuration of Image Processing Apparatus (MFP 100) FIG. 2 is a diagram showing a functional configuration of the image processing apparatus (MFP 100) according to the first embodiment of the present invention. Hereinafter, FIG. 2 will be described with reference to FIG.
図2において、オートドキュメントフィーダ(以降ADFと記す)を含む画像読み取り部201は、紙文書(原稿画像)を図示しない光源で照射することにより得られた原稿反射像をレンズで固体撮像素子上に結像することで、固体撮像素子からラスター上の画像読み取り信号を600DPIの密度の画像信号として得る。
In FIG. 2, an
通常の複写機能はこの画像信号をデータ処理部206で記録信号へと画像処理し、複数枚複写にあっては記録装置202に一旦一ページ分の記録データを記憶保持した後、記録装置203に順次出力して紙上に画像を形成する。
In the normal copying function, the image signal is processed into a recording signal by the
一方、クライアントPC102から出力されるプリントデータにあってはLAN107からネットワークIF205を経てデータ処理装置206で記録可能なラスターデータに変換した後、前記記録装置203により紙上に画像を形成する。
On the other hand, print data output from the client PC 102 is converted into raster data that can be recorded by the
このように、本実施形態にかかるMFP100は、通常のMFPの複写・出力機能を持つ一方、編集・出力機能として次に述べる機能も有する。
As described above, the
例えば、大型タッチパネルを含む表示・入力装置207へのベクトル画像表示が指示されていた場合(ユーザによる指示は、表示・入力装置207を介して行われる、以下同じ)、画像読み取り部201における読み込み処理により読み込まれた画像信号は、データ処理装置206で編集可能な画像信号へ画像処理され、ベクトルデータへと変換処理された後、表示・入力装置207上に表示される。
For example, when a vector image display on the display /
表示・入力装置207へ表示されたベクトルデータは、ユーザによる指示に従い、データ処理装置206にて所望の編集処理が施される。そして、編集処理されたベクトルデータは再度表示・入力装置207上に表示される。
The vector data displayed on the display /
また、ユーザによる出力指示に従って、データ処理装置207ではベクトルデータを記録信号へと画像処理し、記録装置203に順次出力して紙上に画像を形成する。また、ユーザによる転送指示に従って、ベクトルデータはネットワークIF208からLAN107を経て文書管理サーバ106−1、クライアントPC102、文書管理サーバ106−2等へ送られる。尚、本発明は紙文書を画像読み取り部を用いて読み取ることにより生成された画像データについての処理技術に関するものであり、以下では当該処理概要について詳説する。
Further, in accordance with an output instruction from the user, the
3.画像処理装置における処理
3.1 全体処理
MFP100における編集・出力機能に関する全体処理概要を図3を用いて説明する。図3に示すように、ステップS301では、まず、画像読み取り部201を動作させ1枚の原稿をラスター状に走査することでイメージ情報として入力し、600DPI−8ビットの画像信号を得る。
3. Processing in image processing apparatus
3.1 Overall Processing An overview of overall processing related to the editing / output function in the
ステップS302では、該画像信号をデータ処理装置206にて前処理し、記憶装置202に1ページ分の画像データとして保存する。そして、該保存した画像データを、文字/線画部分とハーフトーンの画像部分とに領域分割し、文字部分はさらに段落の塊として纏まっているブロック毎に、或は、線で構成された表ごとに、ならびに線画・図画ごとに分離し、各々セグメント化する。一方、ハーフトーンで表現される画像部分については、矩形領域に分離されたブロックの画像部分(写真)、背景部分等、所望のブロック毎に独立したオブジェクトに分解する。
In step S <b> 302, the image signal is preprocessed by the
ステップS303では、ステップS302にて分割された各ブロックのオブジェクトについて、オブジェクト毎にベクトルデータに変換する。ベクトルデータへの変換は、以下のように実行される。 In step S303, the object of each block divided in step S302 is converted into vector data for each object. Conversion to vector data is performed as follows.
先ず、文字(TEXT)として抽出されたブロック(文字(TEXT)ブロック)については、2値化して得られる文字形状をアウトライン化することで解像度に依存しない形状情報を取得する。一方、ブロックの内部解析情報として、OCR(文字認識)しそのテキスト情報、更には文字のサイズ、スタイル、字体を認識し、原稿を走査して得られたイメージ情報から再現可能なフォントデータを抽出する。 First, for a block (character (TEXT) block) extracted as a character (TEXT), shape information independent of resolution is obtained by outlining the character shape obtained by binarization. On the other hand, as internal analysis information of the block, OCR (character recognition) and its text information, as well as character size, style and font are recognized, and reproducible font data is extracted from the image information obtained by scanning the document. To do.
また、線で構成される表(TABLE)、線画(LINE)、図画(PICTURE)ブロックに対しては、アウトライン化し解像度に依存しないグラフィックス情報を抽出する一方、図形形状が認識できるものについては、認識処理によりその形状情報を取得する。特に表は矩形の集合として認識可能である。 In addition, for the table (TABLE), line drawing (LINE), and drawing (PICTURE) block composed of lines, while extracting the graphics information independent of the resolution, the figure shape can be recognized. The shape information is acquired by the recognition process. In particular, a table can be recognized as a set of rectangles.
写真(PHOTO)ブロックに対してはイメージデータとして個別のJPEGファイルとして処理する。以上、ベクトル化処理により、各オブジェクトは個別に扱うことが可能であり、オブジェクト単位で自由にレイアウト変更、拡大/縮小することが可能である。 Photo (PHOTO) blocks are processed as individual JPEG files as image data. As described above, each object can be handled individually by vectorization processing, and the layout can be freely changed and enlarged / reduced in units of objects.
ステップS304では、ステップS303のベクトル化処理によって得られた情報をベクトルデータとして記憶装置202に記憶するとともに、各オブジェクトを組み合わせて一枚の紙原稿を再現するようレイアウトした後、表示・入力装置207上に表示する。
In step S304, the information obtained by the vectorization process in step S303 is stored as vector data in the
ステップS304にて、表示・入力装置207へ表示されたベクトルデータは、表示・入力装置207へのユーザの入力操作に従って、オブジェクトの構成・大きさ・配置を自由に変更することが可能である(ステップS305)。これらユーザの変更操作結果は随時表示・入力装置207上に表示され、インタラクティブにレイアウト変更することが可能である。
In step S304, the vector data displayed on the display /
ステップS305にてユーザ所望の編集処理がなされたベクトルデータは、ステップS306にて、ユーザの指示により、紙面上へ出力、もしくは文書管理サーバ106−1、106−2、クライアントPC102等へ配信される。以下、各処理ステップについて詳細を説明する。
In step S306, the vector data that has been subjected to user-desired editing processing in step S305 is output on paper or distributed to the document management servers 106-1 and 106-2, the
3.2 ブロックセレクション(領域分割)処理(ステップS302)
ブロックセレクション処理(ステップS302)とは、図4(a)に示す画像データ(ステップS301で読み取られた画像データ)を図4(b)に示すように、各オブジェクトを含む矩形領域(ブロック)毎の塊として認識し、該ブロック各々について文字(TEXT)/図画(PICTURE)/写真(PHOTO)/線画(LINE)/表(TABLE)等の属性判定を行い、異なる属性を持つブロックに分割する処理である。ブロックセレクション処理の具体例を以下に説明する。
3.2 Block selection (area division) processing (step S302)
The block selection process (step S302) is the image data shown in FIG. 4A (image data read in step S301) for each rectangular area (block) including each object as shown in FIG. 4B. Processing to recognize each block as a block of characters (TEXT) / drawing (PICTURE) / photograph (PHOTO) / line drawing (LINE) / table (TABLE), etc., and dividing the block into blocks having different attributes It is. A specific example of the block selection process will be described below.
先ず、画像データを白黒に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。 First, the image data is binarized into black and white, and contour tracking is performed to extract a block of pixels surrounded by a black pixel contour. For a black pixel block with a large area, the outline is also traced for the white pixels inside it, and the white pixel block is extracted. Extract the lump.
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つブロックへ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字(TEXT)ブロック、扁平な画素塊を線(LINE)ブロック、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表(TALBLE)ブロック、不定形の画素塊が散在している領域を写真(PHOTO)ブロック、それ以外の任意形状の画素塊を図画(PICTURE)ブロック、などとする。また、これら属性についてどの属性にも判定されない領域を背景(BACKGROUND)として抽出する。 The black pixel blocks thus obtained are classified by size and shape, and are classified into blocks having different attributes. For example, a pixel block corresponding to a character having an aspect ratio close to 1 and having a constant size is used as a character block, a portion where adjacent characters can be grouped in a well-aligned manner is a character (TEXT) block, and a flat pixel block is represented by a line. (LINE) block, the range occupied by black pixel blocks that are not less than a certain size and contain square-shaped white pixel blocks in a well-aligned manner (TALBLE) block, and an area where irregular pixel blocks are scattered (PHOTO) ) A block and a pixel block having an arbitrary shape other than the block are defined as a picture (PICTURE) block. In addition, an area that is not determined by any attribute is extracted as a background (BACKGROUND).
ブロックセレクション処理で得られた各ブロックに対するブロック情報の一例を図5に示す。同図に示すように、ブロック情報は各ブロックごとにその“属性”および紙文書内の位置情報(“座標X”、“座標Y”)、ブロックの形状(“幅W”、“高さH”)、ならびに“OCR情報”の有無についての情報が記載されている。これらブロック毎の情報は以降に説明するベクトル化処理の際に用いられる。 An example of the block information for each block obtained by the block selection process is shown in FIG. As shown in the figure, the block information includes “attribute” and position information (“coordinate X”, “coordinate Y”) in the paper document, block shape (“width W”, “height H” for each block. ") And information about the presence or absence of" OCR information ". The information for each block is used in the vectorization process described below.
3.3 ベクトル化処理(ステップS303)
ブロックセレクション処理(ステップS302)で得られた各ブロックに対して行うベクトル化処理について図6を用いて説明する。ベクトル化処理とは、各ブロックの属性に応じて適応的に処理を行い、各ブロックの再利用性を実現しつつ、高圧縮で高品質なデータへと変換する処理である。
3.3 Vectorization processing (step S303)
A vectorization process performed on each block obtained in the block selection process (step S302) will be described with reference to FIG. Vectorization processing is processing that performs processing adaptively according to the attribute of each block, and realizes reusability of each block and converts it into high-compression and high-quality data.
図6に示すように、ブロックセレクション処理(ステップS302)により得られるブロックのうち、TEXTブロックについては、2値化処理部601にてブロック内を2値化し、抽出した文字オブジェクトについて文字認識部602にて文字認識処理を行い、各文字のテキストコードを抽出する。また、各文字形状はアウトライン作成部603にてアウトライン化し、直線及び滑らかな曲線で表現された解像度に依存しないデータに変換する。
As shown in FIG. 6, among the blocks obtained by the block selection process (step S302), the TEXT block is binarized by the
また、TABLEブロックについては、2値化処理部604にて2値化し表枠の2値画像を抽出し、抽出した2値画像に対しアウトライン作成部605にてアウトライン化したのち、表処理部606にて表処理を行い、表枠を罫線により表現する。なお、TABLEブロックの2値化では、ブロックセレクション処理において抽出したTABLEブロック内のTEXTブロックを排除し2値化することで、表枠のみの2値画像が抽出できる。
For the TABLE block, the
また、LINEブロックについては、TEXTブロック、TABLEブロック同様に2値化処理部607にてブロック内を2値化しLINE2値画像を抽出し、アウトライン作成部608にてアウトライン化し滑らかな曲線及び直線により表現し、図形認識部609にて図形認識を行い、罫線、円、楕円、多角形といった情報を抽出する。
As for the LINE block, like the TEXT block and TABLE block, the
また、PHOTO、BACKGROUNDブロックについては、適応圧縮部610にてイメージ情報として取り出しそれぞれ圧縮する。
The PHOTO and BACKGROUND blocks are extracted as image information by the
以下、各処理について詳説する。尚、2値化処理部601、604、607における2値化処理、アウトライン作成部603、605、608におけるアウトライン化処理はそれぞれ同じ処理である。
Hereinafter, each process will be described in detail. The binarization processing in the
3.3.1 2値化処理
2値化処理部(601、604、607)では、画像データより輝度情報を抽出し、その輝度値のヒストグラムを作成する。ヒストグラム上より複数の閾値を設定し、各々の閾値で2値化された2値画像上の黒画素の連結等を解析することで最適な閾値を導出し、該閾値による2値画像を得る。
3.3.1 Binarization processing The binarization processing units (601, 604, 607) extract luminance information from image data and create a histogram of the luminance values. A plurality of threshold values are set on the histogram, and an optimal threshold value is derived by analyzing the connection of black pixels on the binary image binarized with each threshold value, and a binary image based on the threshold values is obtained.
3.3.2 文字認識処理
文字認識部602では、文字単位で切り出された画像に対し、パターンマッチの一手法を用いて認識を行い、対応するテキストコードを得る。この認識処理は、文字オブジェクトから得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とする処理である。特徴ベクトルの抽出には種々の公知手法があり、たとえば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法が挙げられる。
3.3.2 Character Recognition Processing The
ブロックセレクション処理(ステップS302)で抽出したTEXTブロックに対して文字認識を行う場合は、まず該当ブロックに対し横書き、縦書きの判定を行い、各々対応する方向に行を切り出し、その後文字オブジェクトを切り出して文字画像を得る。横書き、縦書きの判定は、該当ブロック内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書きブロック、垂直射影の分散が大きい場合は縦書きブロックと判断すればよい。 When character recognition is performed on the TEXT block extracted in the block selection process (step S302), horizontal writing and vertical writing are first determined for the corresponding block, lines are cut out in the corresponding directions, and then the character objects are cut out. To get a character image. Horizontal / vertical writing can be determined by taking horizontal / vertical projections of the pixel values in the corresponding block, and determining horizontal writing blocks when the horizontal projection variance is large and vertical writing blocks when the vertical projection variance is large. .
文字列および文字への分解は、横書きならば水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。縦書きのTEXTブロックに対しては、水平と垂直を逆にすればよい。なお、この時文字のサイズが検出できる。 For horizontal writing, character strings and characters are decomposed by cutting out lines using horizontal projection, and then cutting out characters from the vertical projection of the cut lines. For a vertically written TEXT block, the horizontal and vertical may be reversed. At this time, the character size can be detected.
3.3.3 アウトライン作成処理
アウトライン作成部603では、ブロックセレクション処理(ステップS302)で、図画(PICTURE)あるいは線画(LINE)、表(TABLE)ブロックとされたブロックを対象に、ブロック中で抽出された画素塊の輪郭を直線及び曲線で表現されるアウトラインデータに変換する。
3.3.3 Outline Creation Processing The
具体的には、輪郭をなす画素の点列を角と看倣される点で区切って、各区間を部分的な直線あるいは曲線で近似する。角とは曲率が極大となる点であり、曲率が極大となる点は、図7に図示するように、任意点Piに対し左右k個の離れた点Pi−k、Pi+kの間に弦を引いたとき、この弦とPiの距離が極大となる点として求められる。さらに、Pi−k、Pi+k間の弦の長さ/弧の長さをRとし、Rの値が閾値以下である点を角とみなすことができる。角によって分割された後の各区間は、直線は点列に対する最小二乗法など、曲線は3次スプライン関数などを用いてベクトル化することができる。 Specifically, a point sequence of pixels forming an outline is divided by points regarded as corners, and each section is approximated by a partial straight line or curve. An angle is a point where the curvature is maximized, and the point where the curvature is maximized is that a string is placed between k points Pi-k and Pi + k that are separated from the arbitrary point Pi as shown in FIG. It is obtained as a point where the distance between the string and Pi becomes maximum when drawn. Furthermore, let R be the chord length / arc length between Pi−k and Pi + k, and a point where the value of R is equal to or less than a threshold value can be regarded as a corner. Each section after being divided by the corners can be vectorized by using a least square method for a straight line and a curve using a cubic spline function.
また、対象が内輪郭を持つ場合、ブロックセレクション処理(ステップS302)で抽出した白画素輪郭の点列を用いて、同様に部分的直線あるいは曲線で近似する。 When the object has an inner contour, the white pixel contour point sequence extracted in the block selection process (step S302) is used to approximate the image by a partial straight line or a curve.
図8にアウトライン化する前の画像データとアウトライン化したベクトルデータの例を示す。図8(a)がアウトライン化する前の画像データであり、図8(b)がアウトライン化した画像データである。このように、直線あるいは曲線で近似された文字形状、もしくは表枠、線画は、拡大縮小しても画質の損失がない、即ち解像度に依存しないベクトルデータである。 FIG. 8 shows an example of image data before being outlined and vector data that has been outlined. FIG. 8A shows image data before being outlined, and FIG. 8B shows image data after being outlined. As described above, the character shape approximated by a straight line or a curve, a table frame, or a line drawing is vector data that does not lose image quality even when enlarged or reduced, that is, does not depend on resolution.
3.3.4 表処理
表処理部606では、表中のセル及びその構成を認識し、表枠を罫線の集合として表現する。図9(a)は2値画像をアウトライン化したベクトルデータを示す。アウトライン化した結果、外輪郭と内輪郭が求められるが、例えば外輪郭901と内輪郭902、903、904の構成関係により911、912といったセルの角点を求めていく。角点を求めていった結果、図9(b)のように角点の構成が抽出され、セルの構成及び罫線情報が求められる。次に、求められた各罫線が図9(a)の各輪郭線の合間を通るように位置を調整し、輪郭線との位置関係より太さを求める。
3.3.4 Table Processing The
以上の処理により、表を太さをもつ罫線により表現することが可能である。尚、このような2値画像より表の構成を認識する処理では、黒く塗りつぶされた領域が抽出される可能性がある。図10の領域Aに一例を示す。このような領域が抽出された場合は、本来セルであるが2値化処理部604における2値化処理の際に2値化閾値によりセルが抽出されていない可能性があるのでブロック内のエッジ情報を調べたり、もしくは再度2値化処理およびアウトライン作成処理をしセルを抽出することで、より忠実に表をベクトル表現することが可能となる。
With the above processing, the table can be expressed by ruled lines having a thickness. In the process of recognizing the structure of the table from such a binary image, there is a possibility that an area painted black is extracted. An example is shown in region A of FIG. If such an area is extracted, it is originally a cell, but the cell in the block may not be extracted by the binarization threshold during the binarization processing in the
3.3.5 図形認識
図形認識部609では、2値画像上の罫線、円や楕円、多角形といった図形表現可能な部位を抽出する。図形認識の例について図11を用いて説明する。図11は2値画像をアウトライン化した画像データである。各閉曲線について、アウトラインの曲率、角点情報より円、楕円、多角形情報を抽出する。円は曲率が一定であるかで判断でき、楕円は曲率の遷移情報を用いて判断できる。また、多角形は角点と角点間の曲率で判断できる。例えば図11では、円、矩形といった図形情報が抽出される。
3.3.5 Graphic Recognition The
次に、抽出された図形アウトラインと周辺のアウトラインとの関係を調べる。例として円アウトライン1103について詳しく述べると、円アウトライン1103の外輪郭アウトライン1104の角点1111〜1116間の曲率と角点間の距離との関係からアウトライン1101は太さをもつ円曲線として図形表現される。
Next, the relationship between the extracted figure outline and surrounding outlines is examined. As an example, the
この時、角点間1111〜1112、1113〜1114、1115〜1116との円を構成しない部位はアウトラインとして分割する。尚、予め2値画像を細線化すれば、円と線の結合部位1121〜1123が効率的に抽出することも可能である。最後に各アウトラインの直線部位を検出し、抽出された直線と対となる直線が存在するか判定し、存在すれば、太さをもつ罫線に置き換える。
At this time, the part which does not comprise the circle with the corner points 1111 to 1112, 1113 to 1114, and 1115 to 1116 is divided as an outline. In addition, if the binary image is thinned in advance, it is possible to efficiently extract the
以上によりアウトラインより図形形状を抽出する。尚、図形として認識されなかったものについては、そのままアウトラインで記述する。 As described above, the figure shape is extracted from the outline. In addition, what was not recognized as a figure is described with an outline as it is.
3.3.6 適応圧縮
適応圧縮部610では、ブロックセレクション処理(ステップS302)によりPHOTOブロックと判定されたブロック及びBACKGROUND(背景)を、ラスターデータとして個別のJPEGファイルで処理する。この時、背景は紙原稿中のいらない部位を意味し、場合によっては低解像度、もしくは高圧縮によってイメージデータを作成するものとする。これにより、最終的にアプリケーションデータとしてベクトルデータを作成する際に、そのデータ量を減らすことが可能となる。
3.3.6 Adaptive Compression The
3.4 ベクトルデータ表示処理(ステップS304)
以上の通り、一頁分の画像データをブロックセレクション処理(ステップS302)し、ベクトル化処理(ステップS303)することで、図12に示すような中間データ形式のファイルが生成される。このようなデータ形式はドキュメント・アナリシス・アウトプット・フォーマット(DAOF)と呼ばれる。図12はDAOFのデータ構造の一例を示す図である。
3.4 Vector data display process (step S304)
As described above, the image data for one page is subjected to the block selection process (step S302) and the vectorization process (step S303), thereby generating an intermediate data format file as shown in FIG. Such a data format is called a document analysis output format (DAOF). FIG. 12 shows an example of the data structure of DAOF.
図12において、1201はheaderであり、処理対象の画像データに関する情報が保持される。レイアウト記述データ部1202では、画像データ中のTEXT(文字)、LINE(線画)、PICTURE(図画)、TABLE(表)、PHOTO(写真)等の属性毎に認識された各ブロックの属性とその位置情報を保持する。
In FIG. 12,
文字認識記述データ部1203では、TEXTブロックを文字認識することにより得られる文字認識結果を保持する。表記述データ部1204では、TABLEブロックの構造の詳細を格納する。画像記述データ部1205では、PICTUREやLINE等のブロックの画像データを紙文書の画像データから切り出して保持する。
The character recognition
一方で、ブロック情報より紙原稿中の文書構造ツリーを作成する。ここで文書構造ツリーについて図13を用いて説明する。図13(a)はブロック情報により得られる各ブロックとそれぞれの属性ならびにグルーピングブロックの一例を示す図である。各ブロックについて、ブロック間の距離が近い、ブロック幅がほぼ同一である、といったブロック間の関連性を判定しグルーピングしていく。例えばブロック間の関連性によりT3、T4、T5よりグルーピングブロックV1が、また、T6、T7よりグルーピングブロックV2がそれぞれ生成され、このようなグルーピングを繰り返すことで図13(a)から図13(b)に示す文書構造ツリーが作成される。 On the other hand, a document structure tree in a paper document is created from block information. Here, the document structure tree will be described with reference to FIG. FIG. 13A is a diagram showing an example of each block obtained from the block information, each attribute, and a grouping block. About each block, the relationship between blocks, such as the distance between blocks being near, and the block width being substantially the same, is determined and grouped. For example, a grouping block V1 is generated from T3, T4, and T5 due to the relationship between the blocks, and a grouping block V2 is generated from T6 and T7. By repeating such grouping, FIGS. ) Is created.
尚、V0はページ全体を表す最上位階層である。ところで、文書構造ツリーの各ブロックの実データは、DAOFに格納されており、文書構造ツリーと関連付けられている。例えばTEXTブロックであれば、アウトライン形状であったり、もしくはテキストコードであったり、DAOFの実データを文書構造ツリーに流し込むことで各種画像が生成可能である。ステップS304では、以上作成されたベクトルデータを表示する。尚、TEXTブロックは文字の誤認識による画像の損失を回避するため文字形状アウトラインを表示する。 Note that V0 is the highest layer representing the entire page. Incidentally, the actual data of each block of the document structure tree is stored in the DAOF and is associated with the document structure tree. For example, in the case of a TEXT block, various types of images can be generated by flowing outline data, text code, or DAOF actual data into a document structure tree. In step S304, the generated vector data is displayed. The TEXT block displays a character shape outline in order to avoid image loss due to erroneous recognition of characters.
3.5 ベクトル編集処理(ステップS305)
ステップS305では、表示されたベクトルデータをユーザの指示に従い編集する。なお、本実施形態では、目の不自由な人を対象とした、TEXTブロック内のベクトルデータの編集機能について述べるが、本発明の目的は特にこれに限られない。ステップS305における編集処理は、各ブロックのレイアウトの変更、またブロック内部データの変更等、ユーザの所望の編集処理が可能であるものとし、以下に述べる文字オブジェクトのベクトルデータの編集はその一例である。
3.5 Vector editing process (step S305)
In step S305, the displayed vector data is edited according to a user instruction. In the present embodiment, the function of editing vector data in a TEXT block intended for a blind person is described, but the object of the present invention is not particularly limited to this. The editing process in step S305 can be performed by a user's desired editing process such as changing the layout of each block or changing internal data of the block. Editing of character object vector data described below is an example. .
尚、ベクトルデータの編集は、ブロック内部の編集にあってはDAOFのデータを変更することで、またレイアウト変更にあっては文書構造ツリー及びDAOFを変更することで、ベクトルデータが編集される。 The vector data is edited by changing the DAOF data when editing the block, and by changing the document structure tree and DAOF when changing the layout.
また、例えばTEXTブロックにおける文字形状とテキストコードといったブロック内部の情報の切り替えは文書構造ツリーへ流し込むDAOFデータの切り替えにより可能である。 In addition, for example, switching of information inside the block such as a character shape and a text code in the TEXT block can be performed by switching of DAOF data flowing into the document structure tree.
以下、TEXTブロックの編集機能について述べる。図14は紙文書中の所定のブロックに対して簡易文字拡大を実現する場合のUIの一例を示す図である。 The TEXT block editing function will be described below. FIG. 14 is a diagram illustrating an example of a UI for realizing simple character enlargement for a predetermined block in a paper document.
同図において、1401はスキャン原稿表示部であり、スキャンしベクトル化したベクトルデータが自動的に表示される。ベクトル化したデータは、各ブロック毎にブロックセレクション処理により得られた属性がわかるよう表示されており、UI上ではブロック毎に選択することができる。
In the figure,
ここで、「文字拡大」ボタン1402を押すと、選択されたブロックについて文字が拡大されたレイアウトで再度表示される。ユーザは表示結果が妥当と判断した場合には「出力」ボタン1404を押し、出力処理を実行させる。尚、所望の結果が得られていないと判断した場合には「元に戻る」ボタン1403を押す。これにより、拡大操作は解除され元の状態へ戻すことが可能である。
Here, when the “enlarge character”
ここで、文字拡大によるレイアウト手法に関して詳説する。図15(a)は本実施形態の説明で用いるベクトル化された紙文書である。尚、後の説明を簡単にするため、拡大する文字形状を点線矩形にて示しているが、点線内部にアウトライン化された文字形状が入っているものとする。図15(b)には、図15(a)をブロックセレクション処理することにより得られた情報を示したものである。図中、1511及び1512は、TABLEと判断されたブロック(実線矩形)であり、それ以外はTEXTと判断されたブロック(一点鎖線矩形)である。
Here, the layout method by character enlargement will be described in detail. FIG. 15A shows a vectorized paper document used in the description of this embodiment. In order to simplify the following description, the character shape to be enlarged is indicated by a dotted rectangle, but it is assumed that the outlined character shape is contained inside the dotted line. FIG. 15B shows information obtained by subjecting FIG. 15A to block selection processing. In the figure,
図16は紙文書中の文字を拡大したベクトルデータを作成するためのフローチャートである。 FIG. 16 is a flowchart for creating vector data obtained by enlarging characters in a paper document.
ステップS1601では文字(TEXT)・表(TABLE)ブロックを拡大する。ステップS1601の文字・表ブロックの拡大では、ブロックが重なっている、例えば表ブロック内の文字ブロックについては、外側の表ブロックと内側の文字オブジェクトをセットとして考え、外側の表ブロックの拡大に合わせて同じ拡大率で表ブロック内にマッピングするようにする。よって、文字・表ブロックの拡大では、図15(b)のオブジェクトのうち、図17(a)の太枠で示したブロックの拡大レイアウトを考える。 In step S1601, the character (TEXT) / table (TABLE) block is enlarged. In the enlargement of the character / table block in step S1601, the blocks overlap. For example, for the character blocks in the table block, the outer table block and the inner character object are considered as a set, and the outer table block is enlarged. Map within the table block with the same magnification. Therefore, in the enlargement of the character / table block, the enlarged layout of the block shown by the thick frame in FIG. 17A among the objects in FIG. 15B is considered.
次に拡大手法について説明する。各ブロックの縦横比を一定に保ち、ブロックを広げていき、他のブロックもしくはテキストブロックではない他のオブジェクトと重なったとき拡大終了とし、その領域をブロックの拡大領域とする。結果として図17(a)の各領域は、図17(b)のように拡大される。この時、ブロックの枠の位置は周辺の他のブロック及びオブジェクトとの位置関係が変わらない限り、多少ずれても構わない。尚、ブロックの拡大により各文字オブジェクトの文字形状、表オブジェクトの罫線等も線形変換により拡大される。 Next, an enlargement method will be described. The aspect ratio of each block is kept constant, the block is expanded, and when the block overlaps another block or another object that is not a text block, the expansion ends, and the region is set as the block expansion region. As a result, each area in FIG. 17A is enlarged as shown in FIG. At this time, the position of the frame of the block may be slightly shifted as long as the positional relationship with other peripheral blocks and objects does not change. It should be noted that the character shape of each character object, the ruled line of the table object, and the like are enlarged by linear transformation as the block is enlarged.
次にステップS1602では文字ブロックを拡大する。ステップS1602における文字ブロックの拡大では、ブロックセレクション処理で得られる各文字ブロックの枠のみを拡大するだけであって、ブロック内部の文字形状は枠の拡大に合わせて拡大しない。この文字ブロックの枠の拡大では、縦横比は一定ではなくブロックの四方についてそれぞれ拡大できるか判断し、広げられる限り広げる。この時、表オブジェクト内の文字ブロックであれば、ステップS606でセル構成及び表罫線の忠実な位置が抽出されていることから、ステップS1601で表枠が拡大した各セルの領域がそのまま文字ブロックの枠の拡大領域となる。結果、図15(a)の紙文書については図18のような結果が得られる。 In step S1602, the character block is enlarged. In the enlargement of the character block in step S1602, only the frame of each character block obtained by the block selection process is enlarged, and the character shape inside the block is not enlarged in accordance with the enlargement of the frame. In the enlargement of the character block frame, the aspect ratio is not constant, and it is determined whether the four sides of the block can be enlarged. At this time, if it is a character block in the table object, since the cell configuration and the faithful position of the table ruled line are extracted in step S606, the area of each cell whose table frame is expanded in step S1601 is the character block as it is. It becomes an enlarged area of the frame. As a result, the result shown in FIG. 18 is obtained for the paper document shown in FIG.
ステップS1603では、ステップS1602で拡大した各文字ブロック内の文字形状を拡大する。ここでは、ステップS602の文字認識処理により、文字単位で各文字形状が切り出されており、各文字は文字列として扱うことが可能である。この文字形状の拡大について図19を用いて説明する。 In step S1603, the character shape in each character block enlarged in step S1602 is enlarged. Here, each character shape is cut out in character units by the character recognition processing in step S602, and each character can be handled as a character string. The enlargement of the character shape will be described with reference to FIG.
図19(a)はステップS1602による文字ブロックの枠と文字ブロック内の文字形状を示したものである。1901はステップS1602で得られる文字ブロックの枠(図19(a))について各文字幅をΔα拡大したのが図19(b)である。Δα拡大したことにより、左端の文字2300は文字ブロックの枠をはみ出してしまうが、文字列として扱うことで、図19(c)のようにはみ出した文字形状を次の行へ反映させることができる。尚、次の行への移行で新しく行を作成する際は文字サイズに応じて行間を決定する。また、行間は文字サイズに応じて変更してもよい。また、次の行へ追加したことによって、次の行が文字ブロックの枠をはみ出してしまった場合は、再度次の行へ追加する。以上のΔαの拡大を文字列が文字ブロックの枠に収まる範囲で繰り返す。 FIG. 19A shows the character block frame and the character shape in the character block in step S1602. In FIG. 19B, reference numeral 1901 shows that the character width of the character block frame (FIG. 19A) obtained in step S1602 is enlarged by Δα. By expanding Δα, the leftmost character 2300 protrudes from the character block frame, but by treating it as a character string, the protruding character shape as shown in FIG. 19C can be reflected in the next line. . When creating a new line by shifting to the next line, the line spacing is determined according to the character size. The line spacing may be changed according to the character size. If the next line extends beyond the character block frame due to the addition to the next line, the line is added again to the next line. The above expansion of Δα is repeated as long as the character string fits within the character block frame.
以上の処理を実行することにより、図15(a)の紙文書から、図20のような文字拡大画像を生成することができる。 By executing the above processing, a character enlarged image as shown in FIG. 20 can be generated from the paper document shown in FIG.
尚、本実施形態では、「文字拡大」ボタン1402のワンタッチで文字を最大限拡大する「文字拡大」の一例について述べたが、特にこれに限定されるものではなく、例えば、「文字拡大」ボタン1402の一回のタッチにおけるステップS1601〜ステップS1603の各拡大率を予め設定しておき、ユーザに複数回のタッチによって所望の結果を得るように構成することも可能である。
In this embodiment, an example of “character enlargement” that enlarges a character to the maximum with one touch of the “character enlargement”
3.6 ベクトル出力
ステップS306では、ベクトルデータを出力する。ベクトルデータは、出力する際に一旦アプリケーションデータへ変換される。アプリケーションデータは、ステップS304で作成されたDAOFと文書ツリー構造を用いて生成可能である。尚、DAOFと文書ツリー構造はステップS305のベクトル編集処理により変更されている。
3.6 Vector Output In step S306, vector data is output. Vector data is temporarily converted into application data when it is output. Application data can be generated using the DAOF created in step S304 and the document tree structure. Note that the DAOF and the document tree structure are changed by the vector editing process in step S305.
図13の場合の文書ツリー構造についてのアプリケーションデータ生成処理について説明する。図18において、H1は横方向に2つのブロックT1とT2があるので、2カラムとし、T1の内部情報(DAOFを参照、文字認識結果の文章、画像など)を出力後、カラムを変え、T2の内部情報出力、その後S1を出力となる。H2は横方向に2つのブロックV1とV2があるので、2カラムとして出力、V1はT3、T4、T5の順にその内部情報を出力、その後カラムを変え、V2のT6、T7の内部情報を出力する。以上によりアプリケーションデータを生成し、該アプリケーションデータを紙面上へ出力、またはネットワーク上へ出力する。 The application data generation process for the document tree structure in the case of FIG. 13 will be described. In FIG. 18, since there are two blocks T1 and T2 in the horizontal direction, H1 has two columns, and after T1 internal information (refer to DAOF, text of character recognition result, image, etc.) is output, the column is changed, and T2 The internal information is output, and then S1 is output. Since H2 has two blocks V1 and V2 in the horizontal direction, it outputs as two columns, V1 outputs its internal information in the order of T3, T4, T5, then changes the column, and outputs the internal information of T6, T7 of V2 To do. The application data is generated as described above, and the application data is output on a paper surface or output on a network.
以上の説明から明らかなように、本実施形態によれば、紙文書より表オブジェクト及び各セル罫線位置情報を抽出し、各文字形状を拡大することで、紙文書中のレイアウトを崩すことなく、元々文字の小さいことが多い紙文書中の表内文字について大きく拡大することが可能となる。尚、文字形状はベクトル化処理によりアウトライン化されているので解像度に依存せず、画像ベースの拡大に比べ画像の損失がなく拡大できる。 As is clear from the above description, according to the present embodiment, the table object and each cell ruled line position information is extracted from the paper document, and each character shape is expanded without breaking the layout in the paper document. It is possible to greatly enlarge the characters in the table in the paper document that originally has many small characters. Since the character shape is outlined by vectorization processing, it does not depend on the resolution and can be enlarged without loss of image compared to image-based enlargement.
尚、表内の文字を非常に大きく拡大可能な反面、表内に存在する複数の文字オブジェクトを別々の拡大率で拡大しては、反って表全体として画像を損なう可能性があるが、表構成を予め認識しているので、文字を拡大する際に表内部の全ての文字の拡大率を揃える等の工夫も種々可能である。 Although the characters in the table can be enlarged greatly, if multiple character objects existing in the table are enlarged at different magnifications, there is a possibility that the image will be damaged as a whole. Since the configuration is recognized in advance, when the characters are enlarged, various ideas such as making the enlargement ratios of all the characters in the table uniform are possible.
[第2の実施形態]
上記第1の実施形態では、拡大する倍率を最大限大きくすることとしたが、本発明は特にこれに限られない。表について、たとえ同じセル内では等倍に文字が拡大されていたとしても、各セルごとに倍率がバラバラでは、かえって紙文書中の文字として見づらいことが多い。そこで、文字を拡大する際に、ブロックセレクション処理により抽出された表全ての文字について倍率をそろえるようにしてもよい。また、倍率をそろえることは項目毎でも問題ないため、列毎、行毎に設定する手段を設けるようにしてもよい。
[Second Embodiment]
In the first embodiment, the enlargement magnification is maximized, but the present invention is not particularly limited to this. In the table, even if the characters are enlarged at the same magnification in the same cell, if the magnification is different for each cell, it is often difficult to see the characters in the paper document. Therefore, when enlarging characters, the magnifications may be set for all characters in the table extracted by the block selection process. In addition, since there is no problem in making the magnifications uniform for each item, means for setting for each column or row may be provided.
[第3の実施形態]
上記第1の実施形態では、文字の拡大レイアウトとしてアウトライン化した文字形状を使用したが、本発明は特にこれに限られない。アウトライン化した文字形状を使用したのは文字の誤認識による画像の損失を考慮したためであり、文字認識部602の精度、さらにフォント認識の精度が十分であれば、文字形状を認識したテキストコードによるフォント情報に置き換えてもよい。
[Third Embodiment]
In the first embodiment, an outline character shape is used as an enlarged layout of characters, but the present invention is not particularly limited to this. The outlined character shape is used because image loss due to erroneous character recognition is taken into account. If the accuracy of the
尚、フォント認識処理については文字認識部602における文字認識の後に実施することとし、文字認識の際に用いる、字種数分の辞書特徴ベクトルを、文字形状種すなわちフォント種に対して複数用意し、マッチングの際に文字コードとともにフォント種を出力するようにしてもよい。これにより、文字フォントの認識処理が実現できる。
Note that the font recognition processing is performed after character recognition in the
[他の実施形態]
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
[Other Embodiments]
Note that the present invention can be applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, and a printer), and a device (for example, a copying machine and a facsimile device) including a single device. You may apply to.
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。 Another object of the present invention is to supply a storage medium storing software program codes for implementing the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in the.
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フロッピ(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card, ROM, or the like is used. be able to.
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
Claims (12)
前記画像データを、互いに属性の異なるオブジェクトからなるブロック毎に分割する分割手段と、
前記分割手段により属性が文字であると判定されたオブジェクトをベクトル化する文字処理手段と、
前記文字処理手段によりベクトル化されたオブジェクトが、前記分割手段により分割されたブロックのうち、表ブロックを構成するセル内に位置していた場合に、該オブジェクトからなる文字ブロックを該セルに内接するよう拡大し、該拡大された文字ブロックに対応して、該文字ブロックに含まれる該オブジェクトを拡大する文字拡大手段と
を備えることを特徴とする画像処理装置。 An image processing apparatus that processes image data obtained by scanning a document including a plurality of objects having different attributes,
Dividing means for dividing the image data into blocks each made up of objects having different attributes;
A character processing means for vectorizing an object whose attribute is determined to be a character by the dividing means;
When the object vectorized by the character processing means is located in a cell constituting a table block among the blocks divided by the dividing means, the character block consisting of the object is inscribed in the cell. An image processing apparatus, comprising: a character enlargement unit that enlarges the object included in the character block in correspondence with the enlarged character block.
前記表処理手段によりベクトル化されたオブジェクトからなる表ブロックを、他のブロックに外接するまで拡大することで、該オブジェクトを拡大する表ブロック拡大手段と
を更に備えることを特徴とする請求項1に記載の画像処理装置。 Table processing means for vectorizing an object whose attribute is determined to be a table by the dividing means;
The table block enlarging means for enlarging the object by enlarging the table block made of the object vectorized by the table processing means until it circumscribes another block. The image processing apparatus described.
前記文字処理手段によりベクトル化されたオブジェクトが、前記分割手段により分割されたブロックのうち、表ブロックを構成するセル内に位置していた場合には、前記表ブロック拡大手段による拡大に応じて、該オブジェクトを拡大することを特徴とする請求項3に記載の画像処理装置。 The character block enlarging means is
When the object vectorized by the character processing means is located in a cell constituting a table block among the blocks divided by the dividing means, according to the enlargement by the table block enlargement means, The image processing apparatus according to claim 3, wherein the object is enlarged.
前記画像データを、互いに属性の異なるオブジェクトからなるブロック毎に分割する分割工程と、
前記分割工程により属性が文字であると判定されたオブジェクトをベクトル化する文字処理工程と、
前記文字処理工程によりベクトル化されたオブジェクトが、前記分割工程により分割されたブロックのうち、表ブロックを構成するセル内に位置していた場合に、該オブジェクトからなる文字ブロックを該セルに内接するよう拡大し、該拡大された文字ブロックに対応して、該文字ブロックに含まれる該オブジェクトを拡大する文字拡大工程と
を備えることを特徴とする画像処理方法。 An image processing method in an image processing apparatus for processing image data obtained by scanning a document including a plurality of objects having different attributes,
A division step of dividing the image data into blocks each made up of objects having different attributes;
A character processing step of vectorizing an object whose attribute is determined to be a character by the dividing step;
When the object vectorized by the character processing step is located in a cell constituting a table block among the blocks divided by the dividing step, the character block made up of the object is inscribed in the cell. And a character enlargement step of enlarging the object included in the character block corresponding to the enlarged character block.
前記表処理工程によりベクトル化されたオブジェクトからなる表ブロックを、他のブロックに外接するまで拡大することで、該オブジェクトを拡大する表ブロック拡大工程と
を更に備えることを特徴とする請求項6に記載の画像処理方法。 A table processing step of vectorizing an object whose attribute is determined to be a table by the dividing step;
The table block enlarging step of enlarging the object by enlarging the table block made of the object vectorized by the table processing step until it circumscribes the other block. The image processing method as described.
前記文字処理工程によりベクトル化されたオブジェクトが、前記分割工程により分割されたブロックのうち、表ブロックを構成するセル内に位置していた場合には、前記表ブロック拡大工程による拡大に応じて、該オブジェクトを拡大することを特徴とする請求項8に記載の画像処理方法。 The character block expansion step includes
When the object vectorized by the character processing step is located in a cell constituting a table block among the blocks divided by the division step, according to the enlargement by the table block enlargement step, The image processing method according to claim 8, wherein the object is enlarged.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005170041A JP2006345314A (en) | 2005-06-09 | 2005-06-09 | Image processing apparatus and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005170041A JP2006345314A (en) | 2005-06-09 | 2005-06-09 | Image processing apparatus and image processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006345314A true JP2006345314A (en) | 2006-12-21 |
Family
ID=37641918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005170041A Withdrawn JP2006345314A (en) | 2005-06-09 | 2005-06-09 | Image processing apparatus and image processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006345314A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009159388A (en) * | 2007-12-27 | 2009-07-16 | Seiko Epson Corp | Document image processing program, document image processor and document image processing method |
JP2009207123A (en) * | 2008-01-31 | 2009-09-10 | Seiko Epson Corp | Image processing method, program thereof, and image processing apparatus |
JP2010136192A (en) * | 2008-12-05 | 2010-06-17 | Canon Inc | Image processor, image processing method, and computer program |
JP2011013791A (en) * | 2009-06-30 | 2011-01-20 | Fuji Xerox Co Ltd | Document processor and program |
JP2011137908A (en) * | 2009-12-28 | 2011-07-14 | Seiko Epson Corp | Image processing device, image processing method, and map providing system |
US8384964B2 (en) | 2008-05-14 | 2013-02-26 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
-
2005
- 2005-06-09 JP JP2005170041A patent/JP2006345314A/en not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009159388A (en) * | 2007-12-27 | 2009-07-16 | Seiko Epson Corp | Document image processing program, document image processor and document image processing method |
JP2009207123A (en) * | 2008-01-31 | 2009-09-10 | Seiko Epson Corp | Image processing method, program thereof, and image processing apparatus |
US8633931B2 (en) | 2008-01-31 | 2014-01-21 | Seiko Epson Corporation | Image processing method, recording medium storing program thereof and image processing apparatus |
US8384964B2 (en) | 2008-05-14 | 2013-02-26 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
JP2010136192A (en) * | 2008-12-05 | 2010-06-17 | Canon Inc | Image processor, image processing method, and computer program |
US8295602B2 (en) | 2008-12-05 | 2012-10-23 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method |
JP2011013791A (en) * | 2009-06-30 | 2011-01-20 | Fuji Xerox Co Ltd | Document processor and program |
JP2011137908A (en) * | 2009-12-28 | 2011-07-14 | Seiko Epson Corp | Image processing device, image processing method, and map providing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5361574B2 (en) | Image processing apparatus, image processing method, and program | |
JP4227569B2 (en) | Image processing system, control method for image processing apparatus, program, and recording medium | |
JP5180670B2 (en) | Image processing apparatus and image processing method | |
US7551753B2 (en) | Image processing apparatus and method therefor | |
JP5111268B2 (en) | Image processing apparatus, image processing method, program thereof, and storage medium | |
JP5137759B2 (en) | Image processing device | |
US20120250048A1 (en) | Image processing apparatus and image processing method | |
JP2004265384A (en) | Image processing system, information processing device, control method, computer program, and computer-readable storage medium | |
US20060010116A1 (en) | Image processing system and image processing method | |
JP4582204B2 (en) | Image processing apparatus, image conversion method, and computer program | |
JP2006345314A (en) | Image processing apparatus and image processing method | |
JP5049922B2 (en) | Image processing apparatus and image processing method | |
JP4217575B2 (en) | Image processing apparatus, image processing method, program, and storage medium | |
JP2009296150A (en) | Image processor, image conversion method and computer program | |
JP5020698B2 (en) | Image processing apparatus, image processing method, and image processing program | |
US8270722B2 (en) | Image processing with preferential vectorization of character and graphic regions | |
JP2007129557A (en) | Image processing system | |
JP5159588B2 (en) | Image processing apparatus, image processing method, and computer program | |
JP2005151455A (en) | Image processor, information processor, these control method, and program | |
JP5100354B2 (en) | Image processing apparatus, image processing method, and computer program | |
JP2011053901A (en) | Device, system, method and program for providing document image data, and background processing program | |
JP2008294831A (en) | Image distortion correction device | |
JP2005157905A (en) | Image processing device and method and program | |
JP4587167B2 (en) | Image processing apparatus and image processing method | |
JP2002142070A (en) | Image transmission system and image transmitter and method for them |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080902 |