JP2018005548A - Image processing device, image processing program, data server and image processing system - Google Patents

Image processing device, image processing program, data server and image processing system Download PDF

Info

Publication number
JP2018005548A
JP2018005548A JP2016131507A JP2016131507A JP2018005548A JP 2018005548 A JP2018005548 A JP 2018005548A JP 2016131507 A JP2016131507 A JP 2016131507A JP 2016131507 A JP2016131507 A JP 2016131507A JP 2018005548 A JP2018005548 A JP 2018005548A
Authority
JP
Japan
Prior art keywords
image
data
page data
image processing
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016131507A
Other languages
Japanese (ja)
Inventor
春樹 新田
Haruki Nitta
春樹 新田
利雄 田所
Toshio Tadokoro
利雄 田所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2016131507A priority Critical patent/JP2018005548A/en
Publication of JP2018005548A publication Critical patent/JP2018005548A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an image processing device capable of reducing malfunction of OCR through a simple method, an image processing program, a data server, and an image processing system.SOLUTION: An image processing device 1 communicably connected to an OCR device 5 for generating text data from character image data comprises: a discrimination unit 12 which discriminates an illustration image region from image page data acquired through reading of a printed matter by a scanner 4; an elimination unit 15 which eliminates from the image page data the illustration image region discriminated by the discrimination unit 12; a transmission unit 16 which transmits, to the OCR device 5, post-elimination image page data in which the illustration image region has been eliminated by the elimination unit 15; and a reception unit 17 which receives, from the OCR device 5, post-conversion page data obtained by converting the character image data included in the post-elimination image page data into text data.SELECTED DRAWING: Figure 1

Description

本発明は、画像処理装置、画像処理プログラム、データサーバ及び画像処理システムに関する。   The present invention relates to an image processing apparatus, an image processing program, a data server, and an image processing system.

現在、図書館等の本の内容を、文字データ等の電子データにし、この電子データを、音声データ等の他形式データに変換することによるサービスの需要が高まっている。例えば、音声データに変換することで、目が不自由な人向けの朗読サービス等への応用が期待されている。
本の電子化を実現する方法として、従来、MFP(Multifunction Peripheral )のような印刷物をスキャンし電子化する装置が知られている。そして、OCR(Optical Character Reader)機能を用いてスキャンをした画像内のテキスト画像を、テキストデータにできる。
Currently, there is an increasing demand for services by converting the contents of books such as libraries into electronic data such as character data, and converting the electronic data into other format data such as voice data. For example, conversion to audio data is expected to be applied to reading services for visually impaired people.
As a method for realizing digitization of a book, an apparatus for scanning and digitizing a printed matter such as an MFP (Multifunction Peripheral) has been known. A text image in an image scanned using an OCR (Optical Character Reader) function can be converted into text data.

しかし、スキャンをした画像に、テキストではないイラスト等の画像が含まれている場合には、OCRが誤動作して、識字率が下がるという問題があった。
図7(A)は、イラスト画像81(81a,81b)と、テキスト画像82(82a〜82c)とを含む画像ページデータを、OCR機能を用いて変換した場合の例を示す。OCR機能によって、テキスト画像82(82a〜82c)は、テキストデータ92(92a〜92c)に変換される。しかし、イラスト画像81(81a,81b)は、イラストを文字として認識、あるいは文字化けしたデータ91(91a,91b)になってしまう。そのため、変換後ページデータ90の識字率が下がってしまう。
However, when the scanned image includes an image such as an illustration that is not a text, there is a problem that the OCR malfunctions and the literacy rate decreases.
FIG. 7A shows an example in which image page data including illustration images 81 (81a, 81b) and text images 82 (82a to 82c) is converted using the OCR function. The text image 82 (82a to 82c) is converted into text data 92 (92a to 92c) by the OCR function. However, the illustration image 81 (81a, 81b) becomes data 91 (91a, 91b) in which the illustration is recognized as a character or garbled. For this reason, the literacy rate of the converted page data 90 is lowered.

そこで、OCRの誤動作を低減させるものとして、テキスト画像を抽出して、抽出したテキスト画像に対してOCR機能を用いることが行われている(例えば、特許文献1)。   In order to reduce malfunction of OCR, a text image is extracted and an OCR function is used on the extracted text image (for example, Patent Document 1).

特開2015−204015号公報JP-A-2015-204015

特許文献1に記載されている手法は、テキスト画像を抽出するものであるが、そのテキスト画像を、ユーザが指定する必要があった。また、テキスト画像の抽出を、文書単位等にする必要があり、その処理が煩雑であった。   The technique described in Patent Document 1 extracts a text image, but the user needs to specify the text image. Further, it is necessary to extract the text image in units of documents, and the processing is complicated.

そこで、本発明は、より簡単な方法によってOCRの誤動作を低減可能な画像処理装置、画像処理プログラム、データサーバ及び画像処理システムを提供することを目的とする。   SUMMARY An advantage of some aspects of the invention is that it provides an image processing apparatus, an image processing program, a data server, and an image processing system that can reduce OCR malfunction by a simpler method.

本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、文字画像データからテキストデータを生成する文字認識装置に対して通信可能に接続された画像処理装置であって、印刷媒体を光学的に読み取って得た画像ページデータから非文字画像領域を判別する画像領域判別手段と、前記画像領域判別手段により判別した前記非文字画像領域を、前記画像ページデータから消去する消去手段と、前記消去手段により前記非文字画像領域が消去された消去後画像ページデータを、前記文字認識装置に対して送信する送信手段と、前記消去後画像ページデータに含まれる文字画像データをテキストデータに変換した変換後ページデータを、前記文字認識装置から受信する受信手段と、を備えること、を特徴とする画像処理装置である。
第2の発明は、印刷媒体を光学的に読み取って得た画像ページデータから非文字画像領域を判別する画像領域判別手段と、前記画像領域判別手段により判別した前記非文字画像領域を、前記画像ページデータから消去する消去手段と、前記消去手段により前記非文字画像領域が消去された消去後画像ページデータに含まれる文字画像データをテキストデータに変換して、変換後ページデータを生成する文字認識手段と、を備える画像処理装置である。
第3の発明は、第1の発明又は第2の発明の画像処理装置において、前記画像領域判別手段は、前記画像ページデータに対して膨張伸縮処理を行って前記画像ページデータに含まれる複数の要素に対して各々の輪郭を抽出し、閾値以上の輪郭の外接矩形を描画して、その面積並びに縦及び横の辺の長さの少なくとも一方によって、前記非文字画像領域を判別すること、を特徴とする画像処理装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの画像処理装置において、前記消去手段は、前記非文字画像領域を前記画像ページデータの背景色に塗りつぶすか、又は前記非文字画像領域を前記画像ページデータから切り取ることで、前記画像ページデータから前記非文字画像領域を消去すること、を特徴とする画像処理装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの画像処理装置において、前記画像領域判別手段により判別した前記非文字画像領域の位置情報を取得し、取得した前記位置情報と前記非文字画像領域とを対応付けた非文字画像データを生成する非文字画像データ生成手段を備えること、を特徴とする画像処理装置である。
第6の発明は、第5の発明の画像処理装置において、前記非文字画像データ生成手段により生成された前記非文字画像データに基づいて、前記変換後ページデータに、前記非文字画像領域を配置した電子文書を生成する文書生成手段を備えること、を特徴とする画像処理装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの画像処理装置として、コンピュータを機能させるための画像処理プログラムである。
第8の発明は、第5の発明又は第6の発明の画像処理装置に対して通信可能に接続されたデータサーバであって、前記画像処理装置から受信した前記変換後ページデータと、前記非文字画像データとを、前記画像ページデータに関連付けて記憶するデータベースを備えること、を特徴とするデータサーバである。
第9の発明は、第1の発明から第6の発明までのいずれかの画像処理装置と、印刷媒体を光学的に読み取って、前記画像処理装置が分析する画像ページデータを生成する画像生成装置と、を備える画像処理システムである。
第10の発明は、第1の発明及び第3の発明から第6の発明までのいずれかの画像処理装置と、印刷媒体を光学的に読み取って、前記画像処理装置が分析する画像ページデータを生成する画像生成装置と、前記画像処理装置が出力した前記消去後画像ページデータに含まれる文字画像データをテキストデータに変換して、変換後ページデータを生成する文字認識装置と、を備える画像処理システムである。
The present invention solves the above problems by the following means.
A first invention is an image processing device communicably connected to a character recognition device that generates text data from character image data, wherein non-characters are obtained from image page data obtained by optically reading a print medium. An image area discriminating means for discriminating an image area, an erasing means for erasing the non-character image area discriminated by the image area discriminating means from the image page data, and the non-character image area being erased by the erasing means Transmitting means for transmitting post-erase image page data to the character recognition device, and receiving post-conversion page data obtained by converting character image data included in the post-erase image page data into text data from the character recognition device And an image processing apparatus.
According to a second aspect of the present invention, there is provided an image region determination unit that determines a non-character image region from image page data obtained by optically reading a print medium, and the non-character image region that is determined by the image region determination unit. Erasing means for erasing from page data, and character recognition for generating converted page data by converting character image data contained in the erased image page data from which the non-character image area has been erased by the erasing means to text data And an image processing apparatus.
According to a third aspect of the present invention, in the image processing device according to the first or second aspect, the image area determination unit performs a dilation / expansion process on the image page data to include a plurality of pieces included in the image page data. Extracting each contour for the element, drawing a circumscribed rectangle of the contour equal to or greater than a threshold, and determining the non-character image region by at least one of the area and the length of the vertical and horizontal sides; An image processing apparatus is characterized.
According to a fourth aspect of the present invention, in the image processing device according to any one of the first to third aspects, the erasing unit fills the non-character image area with a background color of the image page data, or An image processing apparatus, wherein a non-character image area is erased from the image page data by cutting out a character image area from the image page data.
According to a fifth aspect of the present invention, in the image processing apparatus according to any one of the first to fourth aspects, the position information of the non-character image area determined by the image area determination unit is acquired, and the acquired position information And a non-character image data generating means for generating non-character image data in which the non-character image region is associated with each other.
According to a sixth invention, in the image processing device according to the fifth invention, the non-character image region is arranged in the converted page data based on the non-character image data generated by the non-character image data generating means. An image processing apparatus comprising: a document generation unit that generates an electronic document.
The seventh invention is an image processing program for causing a computer to function as any one of the image processing apparatuses from the first invention to the sixth invention.
An eighth invention is a data server communicably connected to the image processing device of the fifth or sixth invention, wherein the converted page data received from the image processing device and the non- A data server comprising a database that stores character image data in association with the image page data.
A ninth invention is an image processing apparatus according to any one of the first to sixth inventions, and an image generating apparatus that optically reads a print medium and generates image page data to be analyzed by the image processing apparatus And an image processing system.
A tenth aspect of the present invention is the image processing apparatus according to any one of the first aspect and the third to sixth aspects of the invention, and image page data analyzed by the image processing apparatus by optically reading a print medium. Image processing comprising: an image generating device to generate; and a character recognition device that converts character image data included in the post-erase image page data output by the image processing device into text data and generates post-conversion page data System.

本発明によれば、より簡単な方法によってOCRの誤動作を低減可能な画像処理装置、画像処理プログラム、データサーバ及び画像処理システムを提供することができる。   According to the present invention, it is possible to provide an image processing apparatus, an image processing program, a data server, and an image processing system that can reduce OCR malfunction by a simpler method.

本実施形態に係る画像処理システムの全体構成を示す図である。1 is a diagram illustrating an overall configuration of an image processing system according to an embodiment. 本実施形態に係る画像処理装置の機能ブロックを示す図である。It is a figure which shows the functional block of the image processing apparatus which concerns on this embodiment. 本実施形態に係るデータサーバのファイル構成例を示す図である。It is a figure which shows the file structural example of the data server which concerns on this embodiment. 本実施形態に係る画像処理装置での画像分析処理を示すフローチャートである。It is a flowchart which shows the image analysis process in the image processing apparatus which concerns on this embodiment. 本実施形態に係る画像処理装置でのイラスト画像判別処理を示すフローチャートである。It is a flowchart which shows the illustration image discrimination | determination process in the image processing apparatus which concerns on this embodiment. 本実施形態に係る画像処理装置での処理を説明するための図である。It is a figure for demonstrating the process in the image processing apparatus which concerns on this embodiment. 従来の処理と、本実施形態に係る処理との概要を説明するための図である。It is a figure for demonstrating the outline | summary of the conventional process and the process which concerns on this embodiment.

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
<画像処理システム100>
図1は、本実施形態に係る画像処理システム100の全体構成を示す図である。
図2は、本実施形態に係る画像処理装置1の機能ブロックを示す図である。
図3は、本実施形態に係るデータサーバのファイル構成例を示す図である。
DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(Embodiment)
<Image processing system 100>
FIG. 1 is a diagram showing an overall configuration of an image processing system 100 according to the present embodiment.
FIG. 2 is a diagram illustrating functional blocks of the image processing apparatus 1 according to the present embodiment.
FIG. 3 is a diagram illustrating a file configuration example of the data server according to the present embodiment.

図1に示す画像処理システム100は、画像処理装置1と、スキャナ4(画像生成装置)と、OCR装置5(文字認識装置)と、データサーバ6とを備え、各々が通信ネットワークNを介して接続されている。そして、画像処理システム100は、スキャナ4が、例えば、書籍等の印刷物(印刷媒体)の各ページをスキャンして、画像ページデータを出力する。そして、画像処理システム100は、画像処理装置1が、画像ページデータからイラスト画像(非文字画像)を消去した消去後画像ページデータを生成する。さらに、画像処理システム100は、OCR装置5が、消去後画像ページデータを文字認識して、文字画像をテキストに変換した変換後ページデータを生成する。そして、画像処理システム100は、このシステムで生成された各種のデータを、データサーバ6に記憶させる。このようにすることで、画像処理システム100は、データサーバ6のデータを用いて、音声データを生成する等の印刷物の二次利用を行えるようにする。   An image processing system 100 shown in FIG. 1 includes an image processing apparatus 1, a scanner 4 (image generation apparatus), an OCR apparatus 5 (character recognition apparatus), and a data server 6, each via a communication network N. It is connected. In the image processing system 100, the scanner 4 scans each page of a printed matter (print medium) such as a book and outputs image page data. Then, in the image processing system 100, the image processing apparatus 1 generates post-erasure image page data obtained by erasing the illustration image (non-character image) from the image page data. Further, in the image processing system 100, the OCR device 5 recognizes the image page data after erasure and generates post-conversion page data obtained by converting the character image into text. Then, the image processing system 100 stores various data generated by this system in the data server 6. In this way, the image processing system 100 enables secondary use of the printed matter such as generating audio data using the data of the data server 6.

<画像処理装置1>
画像処理装置1は、画像ページデータからイラスト画像を消去した消去後画像ページデータを生成するサーバである。
図2に示すように、画像処理装置1は、制御部10と、記憶部30と、通信インタフェース部39とを備える。
制御部10は、画像処理装置1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部30に記憶されているオペレーティングシステム(OS)やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
<Image processing apparatus 1>
The image processing apparatus 1 is a server that generates post-erasure image page data obtained by erasing an illustration image from image page data.
As illustrated in FIG. 2, the image processing apparatus 1 includes a control unit 10, a storage unit 30, and a communication interface unit 39.
The control unit 10 is a central processing unit (CPU) that controls the entire image processing apparatus 1. The control unit 10 executes various functions in cooperation with the hardware described above by appropriately reading and executing an operating system (OS) and application programs stored in the storage unit 30.

制御部10は、受付部11と、判別部12(画像領域判別手段)と、構造化部13と、イラスト画像登録部14(非文字画像データ生成手段)と、消去部15(消去手段)と、送信部16(送信手段)と、受信部17(受信手段)と、データ登録部18(データ記録手段)とを備える。
受付部11は、スキャナ4が生成した画像ページデータを受け付ける。
判別部12は、画像ページデータからイラスト画像を含むイラスト画像領域(非文字画像領域)を判別する。
構造化部13は、画像ページデータの構造化データを生成する。
イラスト画像登録部14は、イラスト画像領域と、その位置データとを含むイラスト画像データ(非文字画像データ)を生成して、中間データ記憶部33に記憶させる。
The control unit 10 includes a reception unit 11, a determination unit 12 (image area determination unit), a structuring unit 13, an illustration image registration unit 14 (non-character image data generation unit), and an erasing unit 15 (erasing unit). , A transmission unit 16 (transmission unit), a reception unit 17 (reception unit), and a data registration unit 18 (data recording unit).
The accepting unit 11 accepts image page data generated by the scanner 4.
The determination unit 12 determines an illustration image region (non-character image region) including an illustration image from the image page data.
The structuring unit 13 generates structured data of the image page data.
The illustration image registration unit 14 generates illustration image data (non-character image data) including an illustration image region and its position data, and stores it in the intermediate data storage unit 33.

消去部15は、画像ページデータからイラスト画像領域を消去して、消去後画像ページデータを生成する。
送信部16は、消去後画像ページデータを、OCR装置5に対して送信する。
受信部17は、OCR装置5から変換後ページデータを受信する。変換後ページデータは、消去後画像ページデータに対して文字認識処理を行った結果データであり、消去後画像ページデータに含まれる文字画像(文字画像データ)が、テキスト(テキストデータ)に変換されたものである。
データ登録部18は、中間データ記憶部33に記憶されたイラスト画像データと、受信部17が受信した変換後ページデータとを、データサーバ6に対して記憶させる。
なお、各処理の詳細については、後述する。
The erasure unit 15 erases the illustration image area from the image page data, and generates post-erasure image page data.
The transmission unit 16 transmits the erased image page data to the OCR device 5.
The receiving unit 17 receives the converted page data from the OCR device 5. The post-conversion page data is the result of character recognition processing performed on the post-erase image page data. The character image (character image data) included in the post-erase image page data is converted to text (text data). It is a thing.
The data registration unit 18 causes the data server 6 to store the illustration image data stored in the intermediate data storage unit 33 and the converted page data received by the receiving unit 17.
Details of each process will be described later.

記憶部30は、制御部10が各種の処理を実行するために必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶領域である。
ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、画像処理装置1は、制御部10、記憶部30等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部30は、プログラム記憶部31と、中間データ記憶部33とを備える。
The storage unit 30 is a storage area such as a hard disk or a semiconductor memory element for storing programs, data, and the like necessary for the control unit 10 to execute various processes.
Here, the computer refers to an information processing device including a control unit, a storage device, and the like, and the image processing device 1 is an information processing device including the control unit 10, the storage unit 30 and the like, and is included in the concept of a computer. It is.
The storage unit 30 includes a program storage unit 31 and an intermediate data storage unit 33.

プログラム記憶部31は、各種プログラムを記憶する記憶領域である。プログラム記憶部31は、画像処理プログラム31aを記憶している。画像処理プログラム31aは、画像処理装置1の制御部10が実行する各種機能を行うためのプログラムである。
中間データ記憶部33は、画像処理装置1の制御部10が実行する処理によって生成したデータ等を、一時記憶させる記憶領域である。
通信インタフェース部39は、通信ネットワークを介してスキャナ4、OCR装置5及びデータサーバ6との間の通信を行うためのインタフェース部である。
The program storage unit 31 is a storage area for storing various programs. The program storage unit 31 stores an image processing program 31a. The image processing program 31a is a program for performing various functions executed by the control unit 10 of the image processing apparatus 1.
The intermediate data storage unit 33 is a storage area for temporarily storing data generated by processing executed by the control unit 10 of the image processing apparatus 1.
The communication interface unit 39 is an interface unit for performing communication among the scanner 4, the OCR device 5, and the data server 6 via a communication network.

<スキャナ4>
図1に戻り、スキャナ4は、例えば、MFPであり、印刷物をスキャンして電子化する装置である。スキャナ4は、印刷物をページごとにスキャンして、画像ページデータを生成する。そして、スキャナ4は、生成した画像ページデータを、データサーバ6に送信する。スキャナ4は、図示しないが、制御部、記憶部、読取部、通信インタフェース部等を備える。
<Scanner 4>
Returning to FIG. 1, the scanner 4 is, for example, an MFP, and is an apparatus that scans and digitizes printed matter. The scanner 4 scans the printed matter page by page and generates image page data. Then, the scanner 4 transmits the generated image page data to the data server 6. Although not shown, the scanner 4 includes a control unit, a storage unit, a reading unit, a communication interface unit, and the like.

<OCR装置5>
OCR装置5は、例えば、パーソナルコンピュータ(PC)であり、消去後画像ページデータに対して文字認識処理を行って、変換後ページデータを生成する。OCR装置5は、画像処理装置1から画像ページデータを受信し、変換後ページデータを生成して、画像処理装置1に送信する。OCR装置5は、図示しないが、制御部、記憶部、通信インタフェース部等を備える。
<OCR device 5>
The OCR device 5 is, for example, a personal computer (PC), and performs character recognition processing on the erased image page data to generate post-conversion page data. The OCR device 5 receives the image page data from the image processing device 1, generates converted page data, and transmits it to the image processing device 1. Although not shown, the OCR device 5 includes a control unit, a storage unit, a communication interface unit, and the like.

<データサーバ6>
データサーバ6は、各種データを記憶するサーバである。
データサーバ6は、スキャナ4から受信した画像ページデータを、記憶装置60に記憶する。また、データサーバ6は、画像処理装置1から受信した変換後ページデータ及びイラスト画像データを、記憶装置60に記憶する。
図3に示すように、データサーバ6の記憶装置60は、各印刷物であるドキュメントごとに、1つのフォルダとし、そのフォルダには、ページごとに各種のデータを格納する。データサーバ6は、画像処理装置1による処理を行う前は、「ドキュメントB」のフォルダが示すように、画像ページデータを記憶している。また、データサーバ6は、画像処理装置1による処理を行った後には、「ドキュメントA」のフォルダが示すように、画像ページデータと、その画像ページデータに対応する変換後ページデータ及びイラスト画像データとを対応付けて記憶する。データサーバ6は、図1に示す記憶装置60の他、図示しないが、制御部、通信インタフェース部等を備える。
通信ネットワークNは、各装置間のネットワークであり、インターネット回線等である。
<Data server 6>
The data server 6 is a server that stores various data.
The data server 6 stores the image page data received from the scanner 4 in the storage device 60. The data server 6 stores the converted page data and illustration image data received from the image processing apparatus 1 in the storage device 60.
As shown in FIG. 3, the storage device 60 of the data server 6 sets one folder for each document that is a printed matter, and stores various data for each page in the folder. The data server 6 stores image page data as indicated by the “document B” folder before processing by the image processing apparatus 1. In addition, after the processing by the image processing apparatus 1, the data server 6, as indicated by the “document A” folder, the image page data, the converted page data and the illustration image data corresponding to the image page data. Are stored in association with each other. Although not shown, the data server 6 includes a control unit, a communication interface unit, and the like in addition to the storage device 60 shown in FIG.
The communication network N is a network between devices, and is an internet line or the like.

<画像処理装置1の処理>
次に、画像処理装置1の処理について説明する。
図4は、本実施形態に係る画像処理装置1での画像分析処理を示すフローチャートである。
図5は、本実施形態に係る画像処理装置1でのイラスト画像判別処理を示すフローチャートである。
図6は、本実施形態に係る画像処理装置での処理を説明するための図である。
図7は、従来の処理と、本実施形態に係る処理との概要を説明するための図である。
<Processing of Image Processing Device 1>
Next, processing of the image processing apparatus 1 will be described.
FIG. 4 is a flowchart showing image analysis processing in the image processing apparatus 1 according to the present embodiment.
FIG. 5 is a flowchart showing an illustration image discrimination process in the image processing apparatus 1 according to the present embodiment.
FIG. 6 is a diagram for explaining processing in the image processing apparatus according to the present embodiment.
FIG. 7 is a diagram for explaining an overview of conventional processing and processing according to the present embodiment.

図4のステップS(以下、「S」という。)10において、画像処理装置1の制御部10(受付部11)は、処理を行う画像ページデータを含むファイルを、データサーバ6から取得する。制御部10は、例えば、図3に示す未処理の「ドキュメントB」のフォルダを取得する。
S11において、制御部10は、取得したファイルから、処理を行う画像ページデータを1つ選択する。ここで、制御部10は、ファイルに複数の画像ページデータを含む場合には、1つずつ処理を行う。制御部10は、例えば、図3に示す「ドキュメントB」のフォルダに含む「1ページ目」のフォルダを取得する。
S12において、制御部10(判別部12)は、イラスト画像判別処理を行う。
In step S (hereinafter referred to as “S”) 10 in FIG. 4, the control unit 10 (accepting unit 11) of the image processing apparatus 1 acquires a file including image page data to be processed from the data server 6. For example, the control unit 10 acquires an unprocessed “document B” folder illustrated in FIG. 3.
In S11, the control unit 10 selects one image page data to be processed from the acquired file. Here, when the file includes a plurality of image page data, the control unit 10 performs processing one by one. For example, the control unit 10 acquires the “first page” folder included in the “document B” folder illustrated in FIG. 3.
In S12, the control unit 10 (discrimination unit 12) performs an illustration image discrimination process.

ここで、イラスト画像判別処理について、図5に基づき説明する。
図5のS30において、制御部10は、画像ページデータをグレースケール化する。制御部10は、例えば、8ビットや、16ビットによって、灰色の階調の細かさを表すようにする。なお、ここでは、グレースケール化するものとして以降の説明を行うが、カラー化してもよい。
S31において、制御部10は、画像ページデータの紙の色(余白の色)を取得する。制御部10は、例えば、画像ページデータのページ四隅の色情報を取得する。なお、この紙の色を取得する処理は、画像ページデータごとに行うが、これは、背景色の情報に個体差があり、紙の色が画像ページデータごとに異なるためである。
Here, the illustration image discrimination processing will be described with reference to FIG.
In S30 of FIG. 5, the control unit 10 converts the image page data to gray scale. The control unit 10 represents the fineness of gray gradation by, for example, 8 bits or 16 bits. Here, the following description will be made assuming that gray scale is used, but color may be used.
In S31, the control unit 10 acquires the paper color (margin color) of the image page data. For example, the control unit 10 acquires color information of the four corners of the image page data. The process of acquiring the paper color is performed for each image page data because there is an individual difference in the background color information and the paper color is different for each image page data.

S32において、制御部10は、画像ページデータに対して膨張伸縮処理をする。膨張伸縮処理として、制御部10は、画像ページデータに含まれる文字画像(要素)やイラスト画像(要素)をぼかして、膨張及び伸縮を繰り返す。
図6(A)は、画像ページデータ70の例を示す。そして、図6(B)は、画像ページデータ70を膨張伸縮処理した後の膨張伸縮処理後ページデータ71を示す。図6(B)が示すように、この膨張伸縮処理によって、画像ページデータ70に含む各文字画像及びイラスト画像が、かたまりとして表現される。
In S32, the control unit 10 performs expansion / contraction processing on the image page data. As the expansion / contraction process, the control unit 10 blurs the character image (element) and the illustration image (element) included in the image page data, and repeats expansion and expansion / contraction.
FIG. 6A shows an example of the image page data 70. FIG. 6B shows the page data 71 after the expansion / contraction process after the image page data 70 is subjected to the expansion / contraction process. As shown in FIG. 6B, the character image and the illustration image included in the image page data 70 are expressed as a lump by the expansion / contraction process.

図5に戻り、S33において、制御部10は、膨張伸縮処理後ページデータに対して二値化処理を行って、輪郭を抽出する。
S34において、制御部10は、閾値未満の輪郭を削除する。ここで、閾値は、文字サイズの平均値を計算することで予め指定されていてもよいし、この処理を行う前に手入力してもよい。この処理によって、閾値未満の文字画像は、イラスト画像ではないとして除外される。図6(C)は、閾値未満の輪郭を削除した後の処理中ページデータ72を示す。処理中ページデータ72は、輪郭72aと、輪郭72bとを含む。
S35において、制御部10は、処理中ページデータに輪郭が残っているか否かを判断する。輪郭が残っている場合(S35:YES)には、制御部10は、処理をS36に移す。他方、輪郭が残っていない場合(S35:NO)には、制御部10は、本処理を終了して、処理を図4に移す。輪郭が残っていない場合とは、画像ページデータが、例えば、文字画像のみからなる場合をいう。
S36において、制御部10は、輪郭の内部を塗りつぶしてひとかたまりにし、かたまりの外接矩形を描画する。図6(D)は、外形矩形が描画された処理中ページデータ73を示す。処理中ページデータ73は、外接矩形73a及び73bを含む。
Returning to FIG. 5, in S <b> 33, the control unit 10 performs a binarization process on the page data after the expansion / contraction process, and extracts a contour.
In S <b> 34, the control unit 10 deletes the contour that is less than the threshold value. Here, the threshold value may be specified in advance by calculating an average value of the character size, or may be manually input before this processing is performed. By this processing, character images less than the threshold are excluded as not being illustration images. FIG. 6C shows the page data 72 being processed after the outline less than the threshold is deleted. The page data 72 being processed includes a contour 72a and a contour 72b.
In S35, the control unit 10 determines whether or not a contour remains in the page data being processed. When the outline remains (S35: YES), the control unit 10 moves the process to S36. On the other hand, if no contour remains (S35: NO), the control unit 10 ends this process and moves the process to FIG. The case where no outline remains means the case where the image page data consists only of a character image, for example.
In S <b> 36, the control unit 10 fills the inside of the outline into a lump and draws a circumscribed rectangle of the lump. FIG. 6D shows in-process page data 73 in which an outline rectangle is drawn. The page data 73 being processed includes circumscribed rectangles 73a and 73b.

S37において、制御部10は、描画した外接矩形に基づいて、イラスト画像領域を選択する。制御部10は、外接矩形の面積と、外接矩形の縦及び横の辺の長さとを算出する。そして、制御部10は、算出した面積が文字サイズの平均値より大きな値のものを選択して、イラスト画像領域にする。この処理により、制御部10は、図6(D)に示す外接矩形73bを、イラスト画像領域として選択する。また、制御部10は、算出した縦又は横の辺の長さが所定値より長いものを選択して、イラスト画像領域にする。この処理により、制御部10は、図6(D)に示す外接矩形73aを、イラスト画像領域として選択する。その後、制御部10は、本処理を終了し、処理を図4に移す。   In S37, the control unit 10 selects an illustration image region based on the drawn circumscribed rectangle. The control unit 10 calculates the area of the circumscribed rectangle and the lengths of the vertical and horizontal sides of the circumscribed rectangle. Then, the control unit 10 selects an area having a calculated area larger than the average value of the character size to make an illustration image area. By this processing, the control unit 10 selects the circumscribed rectangle 73b shown in FIG. 6D as an illustration image region. In addition, the control unit 10 selects an image having a calculated length of a vertical or horizontal side longer than a predetermined value and sets it as an illustration image region. By this processing, the control unit 10 selects the circumscribed rectangle 73a shown in FIG. 6D as an illustration image region. Then, the control part 10 complete | finishes this process, and moves a process to FIG.

図4に戻り、S13において、制御部10(構造化部13)は、画像ページデータの構造化データを生成する。構造化データは、例えば、構造化文書を記述する言語の1つであるXML(eXtensible Markup Language)で記述されたデータである。構造化データは、画像ページデータを構成する各画像を、所定の開始タグと終了タグとを用いて表し、各画像の配置位置が記述されたものである。
S14において、制御部10(イラスト画像登録部14)は、S13で生成した構造化データからイラスト画像領域の位置データを取得する。そして、制御部10は、イラスト画像判別処理(S12)により判別されたイラスト画像領域と、そのイラスト画像領域の位置データとを含むイラスト画像データを、中間データ記憶部33に記憶させる。
Returning to FIG. 4, in S <b> 13, the control unit 10 (structuring unit 13) generates structured data of the image page data. The structured data is, for example, data described in XML (eXtensible Markup Language), which is one of languages for describing structured documents. The structured data represents each image constituting the image page data using a predetermined start tag and end tag, and describes the arrangement position of each image.
In S14, the control unit 10 (illustration image registration unit 14) acquires position data of the illustration image region from the structured data generated in S13. Then, the control unit 10 causes the intermediate data storage unit 33 to store illustration image data including the illustration image region determined by the illustration image determination process (S12) and the position data of the illustration image region.

S15において、制御部10(消去部15)は、画像ページデータに対してイラスト画像領域を紙の色に塗りつぶすことで、画像ページデータからイラスト画像領域を消去する。ここで、紙の色は、イラスト画像判別処理において取得している(図5のS31)。この処理によって、イラスト画像領域を消去した後の消去後画像ページデータは、イラスト画像を含まず、文字画像のみになる。
S16において、制御部10(送信部16)は、消去後画像ページデータを、OCR装置5に対して送信する。
In S15, the control unit 10 (erasing unit 15) erases the illustration image area from the image page data by painting the illustration image area with paper color with respect to the image page data. Here, the paper color is acquired in the illustration image discrimination processing (S31 in FIG. 5). By this processing, the image page data after erasure after erasing the illustration image area does not include the illustration image and becomes only the character image.
In S <b> 16, the control unit 10 (transmission unit 16) transmits the erased image page data to the OCR device 5.

OCR装置5では、OCR装置5の制御部は、消去後画像ページデータを読み取って文字認識処理を行い、変換後ページデータを生成する。ここで、上述したように、消去後画像ページデータは、文字画像のみのデータであるため、OCR装置5では、一般的な文字認識処理によって、文字画像からテキストデータを取得することができる。そして、取得したテキストデータは、誤作動が少ないものになるので、識字率の向上が期待できる。
図7(B)は、上述で説明した処理を行った場合の例である。画像処理装置1は、画像ページデータ80のイラスト画像81(81a,81b)を、紙の色に塗りつぶす。そして、OCR装置5は、テキスト画像82(82a〜82c)(文字画像データ)のみになった処理中ページデータ85に対して、OCRによる変換をする。なお、この図では、処理中ページデータ85の塗りつぶした部分を、分かりやすく点線で示している。OCR装置5は、イラスト画像81を含まない処理中ページデータ85に対して文字認識処理をすることで、得られる変換後ページデータ90は、テキスト画像82(82a〜82c)を変換したテキストデータ92(92a〜92c)のみになる。よって、OCRによる変換を行っても、イラスト画像81があることによってイラストを文字として認識したり、文字化けを発生させたりすることがない。
そして、OCR装置5の制御部は、取得した変換後ページデータを、画像処理装置1に対して送信する。
In the OCR device 5, the control unit of the OCR device 5 reads the erased image page data, performs character recognition processing, and generates post-conversion page data. Here, as described above, since the image page data after erasure is data of only a character image, the OCR device 5 can acquire text data from the character image by a general character recognition process. And since the acquired text data becomes a thing with few malfunctions, the improvement of a literacy rate can be anticipated.
FIG. 7B shows an example when the above-described processing is performed. The image processing apparatus 1 paints the illustration image 81 (81a, 81b) of the image page data 80 to the paper color. Then, the OCR device 5 performs OCR conversion on the page data 85 being processed that is only the text image 82 (82a to 82c) (character image data). In this figure, the filled portion of the page data 85 being processed is indicated by a dotted line for easy understanding. The OCR device 5 performs character recognition processing on the page data 85 being processed that does not include the illustration image 81, so that the obtained converted page data 90 is the text data 92 obtained by converting the text image 82 (82 a to 82 c). (92a to 92c) only. Therefore, even if conversion by OCR is performed, the illustration is not recognized as a character or garbled by the illustration image 81.
Then, the control unit of the OCR device 5 transmits the acquired converted page data to the image processing device 1.

図4のS17において、制御部10(受信部17)は、消去後画像ページデータに対応する変換後ページデータを、OCR装置5から受信する。
S18において、制御部10(データ登録部18)は、中間データ記憶部33に記憶されたイラスト画像データと、受信部17が受信した変換後ページデータとを、データサーバ6に対して送信する。
データサーバ6では、データサーバ6の制御部は、受信したイラスト画像データと、変換後ページデータとを、画像ページデータに対応付けて記憶装置60に記憶させる。
S19において、制御部10は、取得したファイルに含まれる全ての画像ページデータに対して処理をしたか否かを判断する。全ての画像ページデータに対して処理をした場合(S19:YES)には、制御部10は、本処理を終了する。他方、全ての画像ページデータに対して処理をしていない場合(S19:NO)には、制御部10は、処理をS11に移し、取得したファイルに含まれる未処理の画像ページデータに対して、この処理を繰り返す。
In S <b> 17 of FIG. 4, the control unit 10 (receiving unit 17) receives post-conversion page data corresponding to the post-erase image page data from the OCR device 5.
In S <b> 18, the control unit 10 (data registration unit 18) transmits the illustration image data stored in the intermediate data storage unit 33 and the converted page data received by the receiving unit 17 to the data server 6.
In the data server 6, the control unit of the data server 6 stores the received illustration image data and converted page data in the storage device 60 in association with the image page data.
In S19, the control unit 10 determines whether or not all image page data included in the acquired file has been processed. When the process is performed on all the image page data (S19: YES), the control unit 10 ends this process. On the other hand, when all the image page data has not been processed (S19: NO), the control unit 10 moves the process to S11 and applies to the unprocessed image page data included in the acquired file. Repeat this process.

この処理によって、画像処理システム100は、画像処理装置1が、文字画像とイラスト画像とを含む画像ページデータからイラスト画像だけを区別して消去し、文字画像のみになった消去後画像ページデータをOCR装置5に対して送信する。よって、OCR装置5で文字認識処理をした結果として得られる変換後ページデータは、文字画像から得られるテキストデータのみを含むものになるため、識字率の向上を行うことができる。   By this processing, the image processing system 100 allows the image processing apparatus 1 to distinguish and erase only the illustration image from the image page data including the character image and the illustration image, and the erased image page data including only the character image is OCR. Transmit to the device 5. Therefore, post-conversion page data obtained as a result of character recognition processing by the OCR device 5 includes only text data obtained from a character image, so that the literacy rate can be improved.

このように、本実施形態の画像処理システム100によれば、以下のような効果がある。
(1)画像処理装置1は、画像ページデータからイラスト画像領域を削除した消去後画像ページデータを生成して、OCR装置5に対して処理を行わせる。よって、OCR装置5による処理前に、事前にイラスト画像を排除することによって、識字率を向上できる。
また、画像処理装置1は、消去後画像ページデータを生成すればよいため、文書単位等にする処理を行う必要がなく、より容易な処理にできる。
(2)画像処理装置1は、画像ページデータに対して膨張伸縮処理を行って前記画像ページデータに含まれる文字画像やイラスト画像に対して各々の輪郭を抽出し、閾値以上の輪郭の外接矩形を描画して、その面積並びに縦及び横の辺の長さの少なくとも一方によって、イラスト画像領域を判別する。よって、画像ページデータに含まれるイラスト画像を、自動的に抽出できる。なお、このイラスト画像領域の判別は、文字が主であって、説明のための表や図が挿入されている、製版データのない実用書等において、その効果をより発揮しうる。
Thus, according to the image processing system 100 of the present embodiment, the following effects are obtained.
(1) The image processing apparatus 1 generates post-erase image page data in which the illustration image area is deleted from the image page data, and causes the OCR apparatus 5 to perform processing. Therefore, the literacy rate can be improved by eliminating the illustration images in advance before the processing by the OCR device 5.
In addition, since the image processing apparatus 1 only needs to generate the image page data after erasure, there is no need to perform processing in units of documents, and the processing can be made easier.
(2) The image processing apparatus 1 performs an expansion / contraction process on the image page data to extract the respective outlines of the character image and the illustration image included in the image page data, and circumscribes a rectangle with an outline equal to or greater than a threshold value. Is drawn, and the illustration image region is determined by at least one of the area and the length of the vertical and horizontal sides. Therefore, the illustration image included in the image page data can be automatically extracted. Note that this illustration image area discrimination can be more effective in a practical book without plate-making data or the like in which characters are mainly used and a table or figure for explanation is inserted.

(3)画像処理装置1では、イラスト画像領域を、画像ページデータの背景色に塗りつぶすことによって、イラスト画像を消去できる。画像ページデータの背景色にすることで、イラスト画像がなかった状態の消去後画像ページデータに対して、OCR装置による処理を行わせることができる。
そして、OCR装置5は、受け付けた消去後画像ページデータに対して文字認識処理を行い、変換後ページデータを生成する処理をするだけでよく、汎用的なOCRの機能を有していればよいため、実現が容易である。
(4)イラスト画像データと、変換後ページデータとを、画像ページデータに対応付けてデータサーバ6に記憶させることで、変換後ページデータを用いたテキストデータから音声データを生成する等の二次利用ができる。また、イラスト画像データと、変換後ページデータのテキストデータとを用いた別教材の作成等のデータの活用を図ることができる。
(5)画像処理装置1は、ファイル単位で処理を行うため、一括で処理を行うことができる。また、画像処理装置1は、ファイル内の複数の画像ページデータに対して自動で処理を行うことができる。
(3) In the image processing apparatus 1, the illustration image can be erased by painting the illustration image area on the background color of the image page data. By using the background color of the image page data, it is possible to cause the OCR device to perform processing on the image page data after erasure when there is no illustration image.
The OCR device 5 only needs to perform character recognition processing on the received image page data after erasure and generate post-conversion page data, and may have a general-purpose OCR function. Therefore, realization is easy.
(4) Secondary such as generating audio data from text data using the converted page data by storing the illustration image data and the converted page data in the data server 6 in association with the image page data. Can be used. Further, it is possible to utilize data such as creation of another teaching material using illustration image data and text data of converted page data.
(5) Since the image processing apparatus 1 performs processing in units of files, it can perform batch processing. The image processing apparatus 1 can automatically process a plurality of image page data in a file.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。   As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above. In addition, the effects described in the embodiments are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the embodiments. In addition, although embodiment mentioned above and the deformation | transformation form mentioned later can also be used in combination as appropriate, detailed description is abbreviate | omitted.

(変形形態)
(1)本実施形態では、画像処理装置は、消去後画像ページデータを、OCR装置に送信し、OCR装置で生成した変換後ページデータを受信するものを例に説明したが、これに限定されない。画像処理装置が、OCRの機能をも有するものであってもよい。そのようにすることで、画像処理装置のみで、画像ページデータから変換後ページデータを生成する処理までを行うことができる。
(2)本実施形態では、画像処理装置は、イラスト画像領域を、画像ページデータの背景色に塗りつぶすことによって、画像ページデータからイラスト画像を消去するものを例に説明したが、これに限定されない。イラスト画像領域を、画像ページデータから切り取ることで、画像ページデータからイラスト画像を消去するようにしてもよい。
(Deformation)
(1) In the present embodiment, the image processing apparatus has been described by way of example in which the image page data after erasure is transmitted to the OCR apparatus and the converted page data generated by the OCR apparatus is received. However, the present invention is not limited to this. . The image processing apparatus may also have an OCR function. By doing so, only the image processing apparatus can perform processing up to generating page data after conversion from image page data.
(2) In this embodiment, the image processing apparatus has been described as an example in which the illustration image area is erased from the image page data by painting the illustration image area on the background color of the image page data. However, the present invention is not limited to this. . The illustration image may be deleted from the image page data by cutting out the illustration image area from the image page data.

(3)本実施形態では、データサーバの記憶装置に、各種のデータを記憶させるものを説明したが、これに限定されない。変換後ページデータと、イラスト画像データとを用いて、電子文書を生成してもよい。   (3) In the present embodiment, the storage device of the data server has been described as storing various data, but the present invention is not limited to this. An electronic document may be generated using the converted page data and the illustration image data.

1 画像処理装置
4 スキャナ
5 OCR装置
6 データサーバ
10 制御部
12 判別部
14 イラスト画像登録部
15 消去部
16 送信部
17 受信部
18 データ登録部
30 記憶部
31a 画像処理プログラム
60 記憶装置
100 画像処理システム
DESCRIPTION OF SYMBOLS 1 Image processing apparatus 4 Scanner 5 OCR apparatus 6 Data server 10 Control part 12 Discriminating part 14 Illustration image registration part 15 Erasing part 16 Transmission part 17 Receiving part 18 Data registration part 30 Storage part 31a Image processing program 60 Storage apparatus 100 Image processing system

Claims (10)

文字画像データからテキストデータを生成する文字認識装置に対して通信可能に接続された画像処理装置であって、
印刷媒体を光学的に読み取って得た画像ページデータから非文字画像領域を判別する画像領域判別手段と、
前記画像領域判別手段により判別した前記非文字画像領域を、前記画像ページデータから消去する消去手段と、
前記消去手段により前記非文字画像領域が消去された消去後画像ページデータを、前記文字認識装置に対して送信する送信手段と、
前記消去後画像ページデータに含まれる文字画像データをテキストデータに変換した変換後ページデータを、前記文字認識装置から受信する受信手段と、
を備えること、
を特徴とする画像処理装置。
An image processing device communicably connected to a character recognition device that generates text data from character image data,
Image area discrimination means for discriminating a non-character image area from image page data obtained by optically reading a print medium;
Erasing means for erasing the non-character image area determined by the image area determining means from the image page data;
Transmitting means for transmitting the image page data after erasure in which the non-character image area has been erased by the erasing means to the character recognition device;
Receiving means for receiving, from the character recognition device, post-conversion page data obtained by converting character image data included in the post-erasure image page data into text data;
Providing
An image processing apparatus.
印刷媒体を光学的に読み取って得た画像ページデータから非文字画像領域を判別する画像領域判別手段と、
前記画像領域判別手段により判別した前記非文字画像領域を、前記画像ページデータから消去する消去手段と、
前記消去手段により前記非文字画像領域が消去された消去後画像ページデータに含まれる文字画像データをテキストデータに変換して、変換後ページデータを生成する文字認識手段と、
を備える画像処理装置。
Image area discrimination means for discriminating a non-character image area from image page data obtained by optically reading a print medium;
Erasing means for erasing the non-character image area determined by the image area determining means from the image page data;
Character recognition means for converting the character image data included in the post-erasure image page data from which the non-character image area has been erased by the erasure means into text data, and generating post-conversion page data;
An image processing apparatus comprising:
請求項1又は請求項2に記載の画像処理装置において、
前記画像領域判別手段は、前記画像ページデータに対して膨張伸縮処理を行って前記画像ページデータに含まれる複数の要素に対して各々の輪郭を抽出し、閾値以上の輪郭の外接矩形を描画して、その面積並びに縦及び横の辺の長さの少なくとも一方によって、前記非文字画像領域を判別すること、
を特徴とする画像処理装置。
The image processing apparatus according to claim 1 or 2,
The image area determination means performs expansion / contraction processing on the image page data to extract respective outlines for a plurality of elements included in the image page data, and draws a circumscribed rectangle having an outline equal to or greater than a threshold value. Determining the non-character image region by at least one of the area and the length of the vertical and horizontal sides;
An image processing apparatus.
請求項1から請求項3までのいずれかに記載の画像処理装置において、
前記消去手段は、前記非文字画像領域を前記画像ページデータの背景色に塗りつぶすか、又は前記非文字画像領域を前記画像ページデータから切り取ることで、前記画像ページデータから前記非文字画像領域を消去すること、
を特徴とする画像処理装置。
In the image processing device according to any one of claims 1 to 3,
The erasing means erases the non-character image area from the image page data by filling the non-character image area with a background color of the image page data or cutting the non-character image area from the image page data. To do,
An image processing apparatus.
請求項1から請求項4までのいずれかに記載の画像処理装置において、
前記画像領域判別手段により判別した前記非文字画像領域の位置情報を取得し、取得した前記位置情報と前記非文字画像領域とを対応付けた非文字画像データを生成する非文字画像データ生成手段を備えること、
を特徴とする画像処理装置。
In the image processing device according to any one of claims 1 to 4,
Non-character image data generation means for acquiring position information of the non-character image area determined by the image area determination means and generating non-character image data in which the acquired position information and the non-character image area are associated with each other. Preparing,
An image processing apparatus.
請求項5に記載の画像処理装置において、
前記非文字画像データ生成手段により生成された前記非文字画像データに基づいて、前記変換後ページデータに、前記非文字画像領域を配置した電子文書を生成する文書生成手段を備えること、
を特徴とする画像処理装置。
The image processing apparatus according to claim 5.
Based on the non-character image data generated by the non-character image data generation means, the document generation means for generating an electronic document in which the non-character image area is arranged in the converted page data;
An image processing apparatus.
請求項1から請求項6までのいずれかに記載の画像処理装置として、コンピュータを機能させるための画像処理プログラム。   An image processing program for causing a computer to function as the image processing apparatus according to any one of claims 1 to 6. 請求項5又は請求項6に記載の画像処理装置に対して通信可能に接続されたデータサーバであって、
前記画像処理装置から受信した前記変換後ページデータと、前記非文字画像データとを、前記画像ページデータに関連付けて記憶するデータベースを備えること、
を特徴とするデータサーバ。
A data server communicably connected to the image processing apparatus according to claim 5 or 6,
A database for storing the converted page data and the non-character image data received from the image processing apparatus in association with the image page data;
A data server characterized by
請求項1から請求項6までのいずれかに記載の画像処理装置と、
印刷媒体を光学的に読み取って、前記画像処理装置が分析する画像ページデータを生成する画像生成装置と、
を備える画像処理システム。
An image processing apparatus according to any one of claims 1 to 6,
An image generation device that optically reads a print medium and generates image page data to be analyzed by the image processing device;
An image processing system comprising:
請求項1及び請求項3から請求項6までのいずれかに記載の画像処理装置と、
印刷媒体を光学的に読み取って、前記画像処理装置が分析する画像ページデータを生成する画像生成装置と、
前記画像処理装置が出力した前記消去後画像ページデータに含まれる文字画像データをテキストデータに変換して、変換後ページデータを生成する文字認識装置と、
を備える画像処理システム。
An image processing device according to any one of claims 1 and 3 to 6,
An image generation device that optically reads a print medium and generates image page data to be analyzed by the image processing device;
A character recognition device that converts character image data included in the post-erase image page data output by the image processing device into text data, and generates post-conversion page data;
An image processing system comprising:
JP2016131507A 2016-07-01 2016-07-01 Image processing device, image processing program, data server and image processing system Pending JP2018005548A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016131507A JP2018005548A (en) 2016-07-01 2016-07-01 Image processing device, image processing program, data server and image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016131507A JP2018005548A (en) 2016-07-01 2016-07-01 Image processing device, image processing program, data server and image processing system

Publications (1)

Publication Number Publication Date
JP2018005548A true JP2018005548A (en) 2018-01-11

Family

ID=60946253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016131507A Pending JP2018005548A (en) 2016-07-01 2016-07-01 Image processing device, image processing program, data server and image processing system

Country Status (1)

Country Link
JP (1) JP2018005548A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019149073A (en) * 2018-02-28 2019-09-05 京セラドキュメントソリューションズ株式会社 Information processor
JP2021033756A (en) * 2019-08-27 2021-03-01 トッパン・フォームズ株式会社 Image analyzing apparatus, image analyzing method and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019149073A (en) * 2018-02-28 2019-09-05 京セラドキュメントソリューションズ株式会社 Information processor
JP2021033756A (en) * 2019-08-27 2021-03-01 トッパン・フォームズ株式会社 Image analyzing apparatus, image analyzing method and program
JP7304772B2 (en) 2019-08-27 2023-07-07 Toppanエッジ株式会社 Image analysis device, image analysis method, and program

Similar Documents

Publication Publication Date Title
US9544473B2 (en) Information processing system and information processing method
JP5042562B2 (en) Image processing apparatus, handwritten information recognition method, handwritten information recognition program
US7982922B2 (en) Image processing apparatus and image processing method for confirming electronic data character quality, and computer program therefor
US7860892B2 (en) Information processing apparatus, history file generation method and program
JP5226553B2 (en) Image processing apparatus, image processing method, program, and recording medium
US20190370339A1 (en) System and method for real time translation
JP7262993B2 (en) Image processing system, image processing method, image processing apparatus
JP2007025814A (en) Image processing system, image processing method, and computer program
JP2010074290A (en) Information processing device, information processing method, program, and storage medium
JP2018005548A (en) Image processing device, image processing program, data server and image processing system
US8125689B2 (en) Image processing apparatus and method for associating a plurality of pieces of content data
JP4544315B2 (en) Paper document processing apparatus and program
JP2005110243A (en) Method for scanning and sending document identification information using template so that users can handwrite destination and identification information
CN111753850A (en) Document processing method and device, computer equipment and computer readable storage medium
JP2020182211A (en) Information processing apparatus, image forming apparatus, and comment extraction method
KR20080002084A (en) System and method for optical character recognition
JP2017021654A (en) Document management server and system
JP6357871B2 (en) Information collection method, information collection system, and computer program
JP2019159420A (en) Image processing device, control method, and program therefor
US10264157B2 (en) Image processing apparatus, image processing method and image processing program
JP6812858B2 (en) Image processing equipment and programs
JP4165482B2 (en) Image display program and image display apparatus
JP2010092141A (en) Image processing system, image reader, image processor, and image processing program
JP2024067738A (en) Information processing device, system, method and program
JP2018037923A (en) Information processing system, image processing apparatus, and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160928