JP2021180456A - Image processing apparatus - Google Patents

Image processing apparatus Download PDF

Info

Publication number
JP2021180456A
JP2021180456A JP2020086071A JP2020086071A JP2021180456A JP 2021180456 A JP2021180456 A JP 2021180456A JP 2020086071 A JP2020086071 A JP 2020086071A JP 2020086071 A JP2020086071 A JP 2020086071A JP 2021180456 A JP2021180456 A JP 2021180456A
Authority
JP
Japan
Prior art keywords
symbol
markup language
file
image data
control circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020086071A
Other languages
Japanese (ja)
Inventor
パオロ・チューワ ホセ
Paolo Chuwa Jose
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020086071A priority Critical patent/JP2021180456A/en
Publication of JP2021180456A publication Critical patent/JP2021180456A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

To automatically delete a strikethrough in read image data and prevent the generation of a blank in a deleted portion.SOLUTION: An image processing apparatus includes a document reading unit and a processing circuit. The processing circuit recognizes lines included in read image data and symbol areas including symbols. The processing circuit creates a markup language file that describes the symbol area and the lines by using a markup language. The processing circuit removes the description of strikethroughs superimposed on characters in the markup language file. The processing circuit removes one or more symbols superimposed on the strikethroughs in the description of the symbol areas in the markup language file, and shifts the position of a symbol following the removed symbols.SELECTED DRAWING: Figure 2

Description

本発明は、原稿を読み取って得られた画像データを処理する画像処理装置に関する。 The present invention relates to an image processing apparatus that processes image data obtained by reading a document.

手書きの書き込みがなされた原稿を読み取って得られた画像データの編集(加工)を行う画像処理装置がある。例えば、使用者は、手書きで原稿に書き込みを行う。この原稿がスキャンされる。画像処理装置は、原稿を読み取って得られた画像データを解析し、書き込み内容に応じて、画像データを改変する。手書きがなされた原稿の画像データの処理を行う画像処理装置の一例が特許文献1に記載されている。 There is an image processing device that edits (processes) image data obtained by reading a handwritten document. For example, the user writes in the manuscript by handwriting. This document is scanned. The image processing device analyzes the image data obtained by reading the original, and modifies the image data according to the written contents. Patent Document 1 describes an example of an image processing apparatus that processes image data of a handwritten manuscript.

具体的に、特許文献1には、原稿を読み取り、画像データを出力し、画像データから予め定められた取消記号を含む取消部分を抽出し、取消部分に関連する関連部分を抽出し、画像データから関連部分を消去し、取消部分を関連部分で置き換えた置換画像データを生成し、取り消した画像であることを示す印と取消部分とを合成した吹出画像データを生成し、取消部分の位置がわかるように吹出画像データと置換画像データを合成する画像処理装置が記載されている(特許文献1:請求項1、請求項2、段落[0040]、図6等参照)。この手法により、自動的に画像データを修正し、かつ、修正箇所を示す吹き出しの画像と、修正した画像データと、を合成する。 Specifically, in Patent Document 1, the manuscript is read, image data is output, a cancellation portion including a predetermined cancellation symbol is extracted from the image data, a related portion related to the cancellation portion is extracted, and the image data is obtained. The related part is erased from, the replacement image data in which the canceled part is replaced with the related part is generated, and the blowout image data in which the mark indicating that the image is canceled and the canceled part are combined is generated, and the position of the canceled part is As can be seen, an image processing device that synthesizes blown-out image data and replacement image data is described (see Patent Document 1: Claim 1, Claim 2, Paragraph [0040], FIG. 6 and the like). By this method, the image data is automatically corrected, and the image of the balloon indicating the corrected part and the corrected image data are combined.

特開2007−280266号公報Japanese Unexamined Patent Publication No. 2007-280266

誤記が、文書内に含まれる場合がある。また、余分な表現が、文書内に含まれる場合もある。これらの文書内の不要部分を手作業で修正する場合がある。例えば、文書内の不要部分に、手書きで取消線を引くことがある。また、人によっては、不要部分を修正液で消すこともある。しかし、修正後の文書は、見栄えがあまりよくない場合がある。 Clerical errors may be included in the document. Also, extra expressions may be included in the document. Unnecessary parts of these documents may be manually modified. For example, a strikethrough may be drawn by hand on an unnecessary part of a document. Also, depending on the person, unnecessary parts may be erased with correction fluid. However, the modified document may not look very good.

手作業で修正した原稿を読み取り、読み取りで得られた画像データを加工することがある。例えば、画像データの編集ソフトウェアを用いて、読み取りで得られた画像データを加工することがある。取消線部分を消す加工(用紙の色で塗りつぶす加工)をした場合、消した部分に空白ができるという問題がある。 A manually modified document may be scanned and the image data obtained by scanning may be processed. For example, image data editing software may be used to process the image data obtained by reading. When the strikethrough portion is erased (the process of filling with the color of the paper), there is a problem that a blank is created in the erased portion.

ここで、特許文献1記載の技術では、取消記号(取消線)が付された部分を消す。しかし、取消記号に対応する関連部分がない場合の処理については記載がない。関連部分がない場合に、取消線部分が消されるか否か自体が不明である。上記の問題に対応できる技術ではない。 Here, in the technique described in Patent Document 1, the portion with the cancellation symbol (cancellation line) is erased. However, there is no description about the processing when there is no related part corresponding to the cancellation symbol. It is unclear whether or not the strikethrough part is erased when there is no related part. It is not a technology that can deal with the above problems.

本発明は上記従来技術の問題点に鑑み、読取画像データのうち、取消線部分を自動的に消し、かつ、消した部分に空白ができることを防ぐ。 In view of the above-mentioned problems of the prior art, the present invention automatically erases the strikethrough portion of the scanned image data and prevents blanks from being formed in the erased portion.

本発明に係る画像処理装置は、原稿読取部、処理回路を含む。前記原稿読取部は原稿を読み取る。前記処理回路は、原稿の読み取りで得られた読取画像データを解析して、前記読取画像データが含む線と、記号を含む記号領域を認識する。前記処理回路は、前記記号領域が含む記号を認識する。前記処理回路は、マークアップ言語を用いて、前記記号領域、前記線、及び、前記記号領域と前記線以外のそれぞれについて記述することにより、前記読取画像データの構造を記述したマークアップ言語ファイルを生成する。前記処理回路は、前記マークアップ言語ファイルの前記線の記述のうち、文字と重なる前記線である取消線の記述を除去する。前記処理回路は、前記マークアップ言語ファイルの前記記号領域の記述のうち、前記取消線と重なる1又は複数の前記記号を除去し、除去した前記記号に続く前記記号の位置をずらして、前記記号の除去によってできる空白を埋める。 The image processing apparatus according to the present invention includes a document reading unit and a processing circuit. The document reading unit reads a document. The processing circuit analyzes the scanned image data obtained by scanning the document, and recognizes the line included in the scanned image data and the symbol region including the symbol. The processing circuit recognizes the symbol included in the symbol area. The processing circuit uses a markup language to describe the symbol area, the line, and each of the symbol area and other than the line, thereby producing a markup language file describing the structure of the read image data. Generate. The processing circuit removes the description of the strikethrough line, which is the line overlapping the characters, from the description of the line in the markup language file. The processing circuit removes one or more of the symbols overlapping the strikethrough in the description of the symbol area of the markup language file, and shifts the position of the symbol following the removed symbol to indicate the symbol. Fill in the blanks created by the removal of.

本発明によれば、読取画像データ中の取消線部分を自動的に消すことができる。また、消した部分に無意味な空白ができることを防ぐことができる。 According to the present invention, the strike-through portion in the scanned image data can be automatically erased. In addition, it is possible to prevent a meaningless blank from being created in the erased part.

実施形態に係る複合機の一例を示す図である。It is a figure which shows an example of the multifunction device which concerns on embodiment. 実施形態に係る複合機の取消線除去機能を用いたときの処理の流れの一例を示す図である。It is a figure which shows an example of the flow of the process when the strike-through removal function of the multifunction device which concerns on embodiment is used. 実施形態に係る読取画像データの一例を示す図である。It is a figure which shows an example of the scanned image data which concerns on embodiment. 実施形態に係る解析処理結果の一例を示す図である。It is a figure which shows an example of the analysis processing result which concerns on embodiment. 実施形態に係る記号認識処理の一例を示す図である。It is a figure which shows an example of the symbol recognition process which concerns on embodiment. 実施形態に係るマークアップ言語ファイルの生成処理の一例を示す図である。It is a figure which shows an example of the generation process of the markup language file which concerns on embodiment. 実施形態に係るマークアップ言語ファイルの一例を示す図である。It is a figure which shows an example of the markup language file which concerns on embodiment. 実施形態に係る除去編集処理の一例を示す図である。It is a figure which shows an example of the removal editing process which concerns on embodiment. 実施形態に係る除去編集処理後のファイルの一例を示す図である。It is a figure which shows an example of the file after the removal editing process which concerns on embodiment. 実施形態に係る出力用ファイル生成処理の一例を示す。An example of the output file generation process according to the embodiment is shown.

以下、図1〜図10を用いて本発明の実施形態を説明する。以下の説明では、画像処理装置として、複合機100を例に挙げて説明する。複合機100は画像形成装置でもある。但し、本実施の形態に記載されている構成、配置等の各要素は、発明の範囲を限定するものではなく単なる説明例にすぎない。 Hereinafter, embodiments of the present invention will be described with reference to FIGS. 1 to 10. In the following description, the multifunction device 100 will be described as an example of the image processing device. The multifunction device 100 is also an image forming apparatus. However, each element such as the configuration and the arrangement described in the present embodiment does not limit the scope of the invention and is merely an explanatory example.

(複合機100)
次に、図1に基づき、実施形態に係る複合機100の一例を説明する。図1は、実施形態に係る複合機100の一例を示す図である。
(Multifunction device 100)
Next, an example of the multifunction device 100 according to the embodiment will be described with reference to FIG. FIG. 1 is a diagram showing an example of the multifunction device 100 according to the embodiment.

複合機100は、制御部1、記憶部2、原稿読取部3、操作パネル4、プリンター部5、通信回路部6を含む。 The multifunction device 100 includes a control unit 1, a storage unit 2, a document reading unit 3, an operation panel 4, a printer unit 5, and a communication circuit unit 6.

制御部1は複合機100の動作を制御する。例えば、制御部1は基板である。制御部1は、制御回路10、画像処理回路11、画像データ生成回路12を含む。例えば、制御回路10はCPUである。制御回路10は、複合機100に関する制御、演算を行う。画像処理回路11は、画像処理用として設計された集積回路(ASIC)である。記憶部2は制御用のプログラム、データを記憶する。複合機100は、記憶部2として、ROM、RAM、ストレージを含む。例えば、ストレージは、HDD、又は、SSDである。記憶部2のプログラムやデータに基づき、制御回路10は複合機100の制御、演算を行う。 The control unit 1 controls the operation of the multifunction device 100. For example, the control unit 1 is a substrate. The control unit 1 includes a control circuit 10, an image processing circuit 11, and an image data generation circuit 12. For example, the control circuit 10 is a CPU. The control circuit 10 controls and calculates the multifunction device 100. The image processing circuit 11 is an integrated circuit (ASIC) designed for image processing. The storage unit 2 stores a control program and data. The multifunction device 100 includes a ROM, a RAM, and a storage as a storage unit 2. For example, the storage is an HDD or an SSD. The control circuit 10 controls and calculates the multifunction device 100 based on the program and data of the storage unit 2.

原稿を読み取るジョブのとき、制御部1は、原稿を原稿読取部3に読み取らせる(スキャンさせる)。例えば、原稿読取部3は、原稿台(コンタクトガラス)、ランプ、イメージセンサーを含む。原稿を読み取るとき、制御部1は、原稿台にセットされた原稿への光の照射をランプに行わせる。原稿で反射された光はイメージセンサーに入射される。イメージセンサーは、複数の受光素子を含む。各受光素子は受光量に応じたアナログ画像信号を出力する。アナログ画像信号は制御部1に入力される。 At the time of a job of reading a document, the control unit 1 causes the document reading unit 3 to read (scan) the document. For example, the document reading unit 3 includes a document stand (contact glass), a lamp, and an image sensor. When reading a document, the control unit 1 causes the lamp to irradiate the document set on the platen with light. The light reflected by the document is incident on the image sensor. The image sensor includes a plurality of light receiving elements. Each light receiving element outputs an analog image signal according to the amount of light received. The analog image signal is input to the control unit 1.

画像データ生成回路12は、原稿読取部3が原稿を読み取って出力したアナログ画像信号を処理し、画像データを生成する。以下では、原稿の読み取りで得られた画像データ(画像データ生成回路12が生成した画像データ)を読取画像データ7と称する。画像データ生成回路12は、アナログ画像信号を処理する回路を含む。例えば、画像データ生成回路12は、増幅回路、オフセット回路、A/D変換回路である。A/D変換回路は、増幅回路、オフセット回路が調整したアナログ画像信号をディジタルデータ(読取画像データ7)に変換する。例えば、画像データ生成回路12は、1画素1色8〜10ビットの画像データを生成する。1ライン単位の読み取りとアナログ画像信号のディジタル化を繰り返すことにより、1ページの読取画像データ7が得られる。制御部1は生成した読取画像データ7を記憶部2(例えば、HDD)に記憶させる。 The image data generation circuit 12 processes an analog image signal that the document reading unit 3 reads the document and outputs, and generates image data. Hereinafter, the image data (image data generated by the image data generation circuit 12) obtained by scanning the original is referred to as scanned image data 7. The image data generation circuit 12 includes a circuit that processes an analog image signal. For example, the image data generation circuit 12 is an amplifier circuit, an offset circuit, and an A / D conversion circuit. The A / D conversion circuit converts the analog image signal adjusted by the amplifier circuit and the offset circuit into digital data (read image data 7). For example, the image data generation circuit 12 generates image data of 8 to 10 bits per pixel and color. By repeating reading in units of one line and digitizing analog image signals, one page of read image data 7 can be obtained. The control unit 1 stores the generated scanned image data 7 in the storage unit 2 (for example, HDD).

原稿を読み取るジョブには、例えば、コピージョブ、スキャン送信ジョブ、スキャン保存ジョブがある。画像処理回路11は、読取画像データ7を画像処理し、ジョブ用の画像データを生成する。制御部1は、ジョブ用の画像データを用いてジョブを実行する。 Jobs for reading a document include, for example, a copy job, a scan transmission job, and a scan save job. The image processing circuit 11 performs image processing on the scanned image data 7 and generates image data for a job. The control unit 1 executes a job using the image data for the job.

操作パネル4は、表示パネル41、タッチパネル42を含む。制御部1は、各種設定画面、操作用画像を表示パネル41に表示させる。操作用画像は、例えば、ボタン、キー、タブである。表示パネル41にタッチパネル42が取り付けられる。タッチパネル42はタッチ位置を検知する。タッチパネル42の出力に基づき、制御部1は操作された操作用画像を認識する。操作パネル4を操作することにより、ジョブに関する設定を行うことができる。 The operation panel 4 includes a display panel 41 and a touch panel 42. The control unit 1 displays various setting screens and operation images on the display panel 41. Operational images are, for example, buttons, keys, and tabs. The touch panel 42 is attached to the display panel 41. The touch panel 42 detects the touch position. Based on the output of the touch panel 42, the control unit 1 recognizes the operated operation image. By operating the operation panel 4, settings related to the job can be made.

プリンター部5は給紙部5a、用紙搬送部5b、画像形成部5c、定着部5dを含む。制御部1は、給紙、用紙搬送、トナー像の形成、転写、定着のような印刷関連処理を制御する。給紙部5aは給紙ローラー、給紙モーターを含む。給紙モーターは給紙ローラーを回転させる。印刷ジョブのとき、制御部1は、給紙モーター(給紙ローラー)を回転させる。これにより、用紙が給紙部5aから供給される。用紙搬送部5bは、搬送ローラー対、搬送モーターを含む。搬送ローラー対は用紙を搬送する。搬送モーターは搬送ローラー対を回転させる。印刷ジョブのとき、制御部1は、搬送モーターを回転させ、用紙を用紙搬送部5bに搬送させる。 The printer unit 5 includes a paper feeding unit 5a, a paper transport unit 5b, an image forming unit 5c, and a fixing unit 5d. The control unit 1 controls printing-related processes such as paper feeding, paper transport, toner image formation, transfer, and fixing. The paper feed unit 5a includes a paper feed roller and a paper feed motor. The paper feed motor rotates the paper feed roller. At the time of a print job, the control unit 1 rotates a paper feed motor (paper feed roller). As a result, the paper is supplied from the paper feed unit 5a. The paper transport unit 5b includes a transport roller pair and a transport motor. The transport roller pair transports the paper. The transfer motor rotates a pair of transfer rollers. At the time of the print job, the control unit 1 rotates the transfer motor to transfer the paper to the paper transfer unit 5b.

例えば、画像形成部5cは、感光体ドラム、帯電装置、露光装置、現像装置、転写ローラーを含む。制御部1は、印刷出力用の画像データに基づくトナー像を画像形成部5cに形成させる。定着部5dは、ヒーター、加熱回転体、加圧回転体、定着モーターを含む。ヒーターは加熱回転体を熱する。用紙は加熱回転体、加圧回転体のニップを通過する。これにより、トナー像が用紙に定着する。印刷ジョブのとき、制御部1はトナー像の定着を定着部5dに行わせる。用紙搬送部5bは印刷済み用紙を機外に排出する。 For example, the image forming unit 5c includes a photoconductor drum, a charging device, an exposure device, a developing device, and a transfer roller. The control unit 1 causes the image forming unit 5c to form a toner image based on the image data for print output. The fixing portion 5d includes a heater, a heating rotating body, a pressurized rotating body, and a fixing motor. The heater heats the heating rotating body. The paper passes through the nip of the heated rotating body and the pressurized rotating body. As a result, the toner image is fixed on the paper. At the time of the print job, the control unit 1 causes the fixing unit 5d to fix the toner image. The paper transport unit 5b ejects the printed paper to the outside of the machine.

通信回路部6は通信用の各種ソケット、通信用回路、通信用ソフトウェアを備える。通信回路部6は、ネットワークを介して、コンピューター200と通信する。コンピューター200は、例えば、PCやサーバーである。通信回路部6は、コンピューター200から送信された印刷用データを受信する。通信回路部6は、プリントジョブのデータを取得する。プリントジョブのデータはページ記述言語で記述されたデータを含む。画像処理回路11は、ページ記述言語で記述されたデータから画像データを生成する。制御部1は、生成した画像データに基づく印刷をプリンター部5に行わせる。 The communication circuit unit 6 includes various sockets for communication, a communication circuit, and communication software. The communication circuit unit 6 communicates with the computer 200 via the network. The computer 200 is, for example, a PC or a server. The communication circuit unit 6 receives the print data transmitted from the computer 200. The communication circuit unit 6 acquires the print job data. The data of the print job includes the data described in the page description language. The image processing circuit 11 generates image data from the data described in the page description language. The control unit 1 causes the printer unit 5 to perform printing based on the generated image data.

(取消線除去機能の概要)
次に、図2を用いて、実施形態に係る複合機100の取消線除去機能の一例を説明する。図2は、実施形態に係る複合機100の取消線除去機能を用いたときの処理の流れの一例を示す図である。
(Overview of strikethrough removal function)
Next, an example of the strikethrough removing function of the multifunction device 100 according to the embodiment will be described with reference to FIG. FIG. 2 is a diagram showing an example of a processing flow when the strike-through removing function of the multifunction device 100 according to the embodiment is used.

原稿読取を伴うジョブでは、取消線除去機能を利用することができる。原稿読取を伴うジョブとしては、例えば、コピー、スキャン送信、又は、スキャン保存がある。まず、使用者は、操作パネル4で、実行するジョブの種類としてこれらの何れかを選択する。取消線除去機能を利用したい場合、使用者は、選択したジョブで、取消線除去機能を利用する設定を行う。例えば、使用者は、取消線除去機能を有効にするボタンを操作する。このように、操作パネル4は、取消線除去機能を利用する設定を受け付ける。 For jobs involving document scanning, the strikethrough removal function can be used. Jobs that involve scanning documents include, for example, copying, scanning transmission, or scanning and saving. First, the user selects one of these as the type of job to be executed on the operation panel 4. When the user wants to use the strike-through removal function, the user sets to use the strike-through remover function in the selected job. For example, the user operates a button that enables the strikethrough removal function. In this way, the operation panel 4 accepts the setting for using the strikethrough removal function.

設定完了後、使用者は、選択したジョブの開始指示を操作パネル4に入力する。例えば、使用者は、スタートボタンを操作する。操作パネル4は、取消線除去機能を用いるジョブの開始指示を受け付ける。図2のスタートは、取消線除去機能を用いるジョブの開始指示がなされた時点である。 After the setting is completed, the user inputs the start instruction of the selected job to the operation panel 4. For example, the user operates the start button. The operation panel 4 receives a job start instruction using the strikethrough removal function. The start of FIG. 2 is the time when the start instruction of the job using the strikethrough removal function is given.

取消線除去機能を用いるジョブが開始されると、制御部1は、読取処理を原稿読取部3に行わせる(ステップ#11)。読取処理は、セットされた原稿を原稿読取部3に読み取らせる処理である。 When the job using the strikethrough removal function is started, the control unit 1 causes the document reading unit 3 to perform the scanning process (step # 11). The scanning process is a process of causing the document scanning unit 3 to scan the set document.

制御部1は、読取処理で得られた読取画像データ7について、解析処理(ステップ#12)、記号認識処理(ステップ#13)、マークアップ言語ファイル9の生成処理(ステップ#14)、除去編集処理(ステップ#15)、出力用ファイル生成処理(ステップ#16)を行う。なお、取消線除去機能を用いない設定がなされている場合、制御部1は、ステップ#12〜16の処理を行わない。 The control unit 1 performs analysis processing (step # 12), symbol recognition processing (step # 13), markup language file 9 generation processing (step # 14), and removal editing of the scanned image data 7 obtained by the reading process. Perform processing (step # 15) and output file generation processing (step # 16). If the setting is made not to use the strikethrough removal function, the control unit 1 does not perform the processes of steps # 12 to 16.

以下の説明では、制御回路10がステップ#12〜ステップ#16の処理を行う例を説明する。例えば、記憶部2(ストレージ)に記憶されたソフトウェアに基づき、制御回路10が処理を行う。この場合、制御回路10は、処理に用いる画像データ、ファイル、プログラムを、RAMに書き出す。 In the following description, an example in which the control circuit 10 performs the processes of steps # 12 to # 16 will be described. For example, the control circuit 10 performs processing based on the software stored in the storage unit 2 (storage). In this case, the control circuit 10 writes the image data, the file, and the program used for the processing to the RAM.

なお、画像処理回路11がステップ#12〜ステップ#16の処理を行ってもよい。画像処理回路11は、ステップ#12〜ステップ#16の処理を行うためのハードウェア回路を内蔵してもよい。また、ステップ#12〜ステップ#16の処理の一部を制御回路10が実行し、他の部分を画像処理回路11が実行してもよい。つまり、制御回路10と画像処理回路11が処理を分担してもよい。 The image processing circuit 11 may perform the processing of steps # 12 to # 16. The image processing circuit 11 may include a hardware circuit for performing the processing of steps # 12 to # 16. Further, the control circuit 10 may execute a part of the processing of steps # 12 to # 16, and the image processing circuit 11 may execute the other part. That is, the control circuit 10 and the image processing circuit 11 may share the processing.

解析処理では、制御回路10は、読取画像データ7を解析する。例えば、制御回路10は、記号領域R1と線を認識する。記号領域R1は記号(記号列)を含む領域である。また、制御回路10は、読取画像データ7が含む線も認識する。記号認識処理では、制御回路10は、記号領域R1が含む各記号を認識する。マークアップ言語ファイル9の生成処理では、制御回路10は、解析処理の結果に基づき、読取画像データ7を変換して、マークアップ言語で記述したファイル(マークアップ言語ファイル9)を生成する。マークアップ言語ファイル9は、読取画像データ7の内容、構造をマークアップ言語で記述したファイルである。 In the analysis process, the control circuit 10 analyzes the read image data 7. For example, the control circuit 10 recognizes the symbol region R1 and the line. The symbol area R1 is an area including a symbol (symbol string). The control circuit 10 also recognizes the line included in the scanned image data 7. In the symbol recognition process, the control circuit 10 recognizes each symbol included in the symbol area R1. In the markup language file 9 generation process, the control circuit 10 converts the scanned image data 7 based on the result of the analysis process to generate a file (markup language file 9) described in the markup language. The markup language file 9 is a file in which the content and structure of the scanned image data 7 are described in the markup language.

まとめると、制御回路10は、原稿の読み取りで得られた読取画像データ7を解析して、読取画像データ7が含む線と、記号が並べられた記号領域R1を認識する。さらに、制御回路10は、記号領域R1が含む記号列を認識する。制御回路10は、記号領域R1、前記線、及び、記号領域R1と線以外の領域(非記号領域)について、マークアップ言語で読取画像データ7の構造を記述したマークアップ言語ファイル9を生成する。 In summary, the control circuit 10 analyzes the scanned image data 7 obtained by scanning the original, and recognizes the line included in the scanned image data 7 and the symbol region R1 in which the symbols are arranged. Further, the control circuit 10 recognizes the symbol string included in the symbol region R1. The control circuit 10 generates a markup language file 9 in which the structure of the read image data 7 is described in the markup language for the symbol area R1, the line, and the area other than the symbol area R1 and the line (non-symbol area). ..

さらに、除去編集処理では、制御回路10は、マークアップ言語ファイル9のうち、文字と重なる線(取消線8)の記述と、取消線8と重なる文字の記述を除去する処理である。また、除去によりできる空白をなくすため、制御回路10は、マークアップ言語ファイル9の記述を編集する。出力用ファイル生成処理では、制御回路10は、除去編集処理後のマークアップ言語ファイル9を変換し、出力用ファイルを生成する。 Further, in the removal editing process, the control circuit 10 is a process of removing the description of the line overlapping the character (cancellation line 8) and the description of the character overlapping the cancellation line 8 in the markup language file 9. Further, the control circuit 10 edits the description of the markup language file 9 in order to eliminate the blank created by the removal. In the output file generation process, the control circuit 10 converts the markup language file 9 after the removal edit process to generate an output file.

制御部1は、生成された出力用ファイルに基づき、ジョブを実行する。例えば、コピージョブ(印刷ジョブ)の場合、制御部1は、編集後のマークアップ言語ファイル9に基づき画像データを生成する。制御部1は、生成した画像データに基づく印刷をプリンター部5に行わせる。スキャン送信ジョブの場合、制御部1は、生成された出力用ファイルを設定された宛先に向けて、通信回路部6に送信させる。スキャン保存ジョブの場合、制御部1は、生成された出力用ファイルを設定された保存先に記憶させる(図10参照)。 The control unit 1 executes a job based on the generated output file. For example, in the case of a copy job (print job), the control unit 1 generates image data based on the edited markup language file 9. The control unit 1 causes the printer unit 5 to perform printing based on the generated image data. In the case of a scan transmission job, the control unit 1 causes the communication circuit unit 6 to transmit the generated output file to the set destination. In the case of a scan save job, the control unit 1 stores the generated output file in a set save destination (see FIG. 10).

(解析処理)
次に、図3、図4を用いて、実施形態に係る解析処理の一例を説明する。図3は、実施形態に係る読取画像データ7の一例を示す図である。図4は、実施形態に係る解析処理結果の一例を示す図である。
(Analysis processing)
Next, an example of the analysis process according to the embodiment will be described with reference to FIGS. 3 and 4. FIG. 3 is a diagram showing an example of the scanned image data 7 according to the embodiment. FIG. 4 is a diagram showing an example of the analysis processing result according to the embodiment.

例えば、記憶部2は、解析ソフトウェア21を不揮発的に記憶する(図1参照)。制御回路10は、解析ソフトウェア21を用いて、制御回路10が解析処理を行う。取消線除去機能を用いる場合、読取処理によって読取画像データ7が生成されると、制御回路10は、解析処理を開始する。 For example, the storage unit 2 stores the analysis software 21 in a non-volatile manner (see FIG. 1). In the control circuit 10, the analysis software 21 is used, and the control circuit 10 performs analysis processing. When the strikethrough removal function is used, the control circuit 10 starts the analysis process when the scanned image data 7 is generated by the scanning process.

解析処理では、制御回路10は、少なくとも、読取画像データ7が含む線を認識する。また、制御回路10は、少なくとも、読取画像データ7が含む記号領域R1を認識する。 In the analysis process, the control circuit 10 recognizes at least the line included in the scanned image data 7. Further, the control circuit 10 recognizes at least the symbol region R1 included in the read image data 7.

制御回路10は、読取画像データ7内の線を認識する。例えば、制御回路10は、ハフ変換処理を行って、読取画像データ7内に描画された線であって、基準長さよりも長い線を認識する。基準長さは予め定められる。 The control circuit 10 recognizes a line in the scanned image data 7. For example, the control circuit 10 performs a Hough transform process to recognize a line drawn in the scanned image data 7, which is longer than the reference length. The reference length is predetermined.

また、例えば、解析処理では、制御回路10は、領域抽出処理を行う。例えば、制御回路10は、領域として、記号領域R1と、非記号領域を抽出する。 Further, for example, in the analysis process, the control circuit 10 performs a region extraction process. For example, the control circuit 10 extracts a symbolic region R1 and a non-symbolic region as regions.

記号領域R1は、文字、数字、狭義の記号を含む領域である。文字は、例えば、アルファベット、ひらがな、カタカナ、漢字である。狭義の記号とは、括弧、疑問符、感嘆符、アットマークのような文字、数字とともに、記述に用いられる記号である。例えば、制御回路10は、読取画像データ7が含む行部分(記号列)を記号領域R1として認識する。非記号領域は、記号領域R1ではない領域である。非記号領域は、例えば、写真や図形の領域である。 The symbol area R1 is an area including letters, numbers, and symbols in a narrow sense. The characters are, for example, alphabets, hiragana, katakana, and kanji. Symbols in the narrow sense are symbols used in descriptions, along with letters and numbers such as parentheses, question marks, exclamation marks, and at signs. For example, the control circuit 10 recognizes the row portion (symbol string) included in the scanned image data 7 as the symbol region R1. The non-symbol area is an area that is not the symbol area R1. The non-symbol area is, for example, an area of a photograph or a figure.

領域抽出処理の抽出の一例を説明する。例えば、領域抽出処理では、制御回路10は、ラベリング処理、連結図形解析処理、統合処理を行う。まず、制御回路10は、読取画像データ7をコピーし、コピーした読取画像データ7の閾値処理を行って、二値化画像データ(領域抽出用画像データ)を生成する。なお、記号列を正確に認識するため、制御回路10は、領域抽出用画像データのうち、認識した線を除去する(白画素に変換する)処理を行ってもよい。 An example of extraction in the area extraction process will be described. For example, in the area extraction process, the control circuit 10 performs a labeling process, a connected figure analysis process, and an integrated process. First, the control circuit 10 copies the scanned image data 7 and performs threshold processing on the copied scanned image data 7 to generate binarized image data (image data for region extraction). In addition, in order to accurately recognize the symbol string, the control circuit 10 may perform a process of removing (converting to white pixels) the recognized line from the image data for region extraction.

ラベリング処理では、制御回路10は、領域抽出用画像データにおいて、高濃度画素(黒画素)を注目画素とし、8方向のいずれかで連結する(つながる)高濃度画素(黒画素)に同じラベル(番号)を付す。制御回路10は、記号の一部、又は、全部を構成し、つながりあう複数の黒画素に、同じラベルを付す。また、制御回路10は、図形、写真を構成し、つながりあう複数の黒画素に、同じラベルを付す。同じラベルが付された画素のまとまりを、便宜上、連結図形と称する。 In the labeling process, the control circuit 10 sets the high-density pixel (black pixel) as the pixel of interest in the image data for region extraction, and has the same label (black pixel) on the high-density pixel (black pixel) connected (connected) in any of the eight directions. Number) is attached. The control circuit 10 constitutes a part or all of the symbols, and affixes the same label to a plurality of connected black pixels. Further, the control circuit 10 constitutes a figure and a photograph, and attaches the same label to a plurality of connected black pixels. A group of pixels with the same label is referred to as a connected figure for convenience.

連結図形解析処理では、制御回路10は、それぞれの連結図形を、外接矩形で囲う処理を行う。また、各外接矩形の面積(画素数)を求める。ここで、制御回路10は、面積が第1基準値以上の外接矩形を非記号領域と定める。制御回路10は、記号ではないと認められる大きな領域を非記号領域とする。例えば、第1基準値は、予め定められていてもよいし、外接図形の面積の平均値の1.5〜2倍の範囲内のいずれかの値を第1基準値としてもよい。これにより、制御回路10は、読取画像データ7のうち、非記号領域の位置(座標)、範囲を認識する。 In the connected figure analysis process, the control circuit 10 performs a process of enclosing each connected figure with an circumscribed rectangle. In addition, the area (number of pixels) of each circumscribed rectangle is obtained. Here, the control circuit 10 defines an circumscribed rectangle whose area is equal to or larger than the first reference value as a non-symbol region. The control circuit 10 defines a large area that is not recognized as a symbol as a non-symbol area. For example, the first reference value may be predetermined, or any value within the range of 1.5 to 2 times the average value of the area of the inscribed figure may be set as the first reference value. As a result, the control circuit 10 recognizes the position (coordinates) and range of the non-symbol region in the scanned image data 7.

統合処理では、制御回路10は、非記号領域と定めなかった外接矩形であって、距離が第2基準値未満の外接矩形同士をまとめ、1つの外接矩形で囲う。例えば、制御回路10は、記号の記述方向(行方向、左右方向)で近接する外接矩形同士をまとめる。これにより、制御回路10は、読取画像データ7が含むそれぞれの行部分(記号列)を記号領域R1として認識する。これにより、読取画像データ7のうち、制御回路10は、記号領域R1の位置(座標)、範囲を認識する。第2基準値は予め定められてもよい。第2基準値は文字間を考慮した値とでき、行間よりも小さい値とできる。 In the integrated process, the control circuit 10 is an circumscribed rectangle that is not defined as a non-symbol area, and the circumscribed rectangles whose distance is less than the second reference value are grouped together and surrounded by one circumscribed rectangle. For example, the control circuit 10 groups circumscribed rectangles that are close to each other in the symbol description direction (row direction, left-right direction). As a result, the control circuit 10 recognizes each row portion (symbol string) included in the scanned image data 7 as the symbol region R1. As a result, in the scanned image data 7, the control circuit 10 recognizes the position (coordinates) and range of the symbol region R1. The second reference value may be predetermined. The second reference value can be a value considering the character spacing, and can be a value smaller than the line spacing.

なお、他の画像処理手法を用いて、制御回路10は、読取画像データ7内の記号領域R1と非記号領域を認識してもよい。例えば、制御回路10は、エッジや空白に着目して、読取画像データ7内の記号領域R1と非記号領域を認識してもよい。 In addition, using another image processing method, the control circuit 10 may recognize the symbolic region R1 and the non-symbolic region in the scanned image data 7. For example, the control circuit 10 may recognize the symbolic region R1 and the non-symbolic region in the scanned image data 7 by paying attention to the edge and the blank.

図4は、制御回路10の解析処理結果の一例を示す。図4の破線は、制御回路10が認識した記号領域R1の一例を示す。なお、図3、図4の例では、読取画像データ7(原稿)には、図形、写真が含まれない。そのため、図3、図4の例では、制御回路10は、非記号領域を認識しない。原稿が図形、写真を含む場合、制御回路10は、図形の領域と、写真の領域を非記号領域と認識する。 FIG. 4 shows an example of the analysis processing result of the control circuit 10. The broken line in FIG. 4 shows an example of the symbol region R1 recognized by the control circuit 10. In the examples of FIGS. 3 and 4, the scanned image data 7 (manuscript) does not include figures and photographs. Therefore, in the examples of FIGS. 3 and 4, the control circuit 10 does not recognize the non-symbol region. When the manuscript includes a figure and a photograph, the control circuit 10 recognizes the area of the figure and the area of the photograph as a non-symbol area.

また、図4に示すように、制御回路10は、原稿(読取画像データ7)が含む線を認識する。制御回路10は、手書きで原稿に書き込まれた取消線8を認識することもできる。 Further, as shown in FIG. 4, the control circuit 10 recognizes a line included in the document (scanned image data 7). The control circuit 10 can also recognize the strikethrough 8 written by hand on the manuscript.

(記号認識処理)
次に、図5を用いて、実施形態に係る記号認識処理の一例を説明する。図5は、実施形態に係る記号認識処理の一例を示す図である。
(Symbol recognition processing)
Next, an example of the symbol recognition process according to the embodiment will be described with reference to FIG. FIG. 5 is a diagram showing an example of the symbol recognition process according to the embodiment.

例えば、記憶部2は、記号認識ソフトウェア22を不揮発的に記憶する(図1参照)。制御回路10は、記号認識ソフトウェア22を用いて、記号認識処理を行う。具体的には、制御回路10は、記号領域R1が含む各記号について、OCR処理を行う。なお、記号列を正確に認識するため、制御回路10は、読取画像データ7のうち、認識した線を除去(白画素への変換)する処理を行ってもよい。 For example, the storage unit 2 stores the symbol recognition software 22 in a non-volatile manner (see FIG. 1). The control circuit 10 uses the symbol recognition software 22 to perform the symbol recognition process. Specifically, the control circuit 10 performs OCR processing on each symbol included in the symbol region R1. In order to accurately recognize the symbol string, the control circuit 10 may perform a process of removing (converting to white pixels) the recognized line from the read image data 7.

図5のスタートは、読取画像データ7の解析処理が完了した時点である。まず、制御回路10は、記号領域R1が含む記号ごとに、1記号分の画像データを認識する(記号の切り出し、ステップ#21)。例えば、制御回路10は、行方向と垂直な方向(記号領域R1の短手方向)のラインを記号領域R1上で移動させる。制御回路10は、ラインが文字(高濃度画素)と交差する数をカウントする。カウント値がゼロのラインの束を文字の区切りと認識する。認識した区切りに基づき、制御回路10は、1記号分の画像データを認識する。 The start of FIG. 5 is when the analysis process of the scanned image data 7 is completed. First, the control circuit 10 recognizes image data for one symbol for each symbol included in the symbol area R1 (cutting out the symbol, step # 21). For example, the control circuit 10 moves a line in a direction perpendicular to the row direction (the short side direction of the symbol region R1) on the symbol region R1. The control circuit 10 counts the number of lines intersecting with characters (high density pixels). Recognize a bundle of lines with a count value of zero as a character delimiter. Based on the recognized delimiter, the control circuit 10 recognizes image data for one symbol.

制御回路10は、1記号分の画像データごとに、各記号を認識する(ステップ#22)。例えば、制御回路10は、パターンマッチング処理を行って、記号を認識する。また、制御回路10は、パターンマッチング処理ではなく、1記号分の画像データの特徴量を演算で求め、求めた特徴量に基づき、各記号を認識してもよい。すべての記号を認識すると、制御回路10は、記号認識処理を終了する(エンド)。 The control circuit 10 recognizes each symbol for each symbol's image data (step # 22). For example, the control circuit 10 performs pattern matching processing and recognizes a symbol. Further, the control circuit 10 may obtain the feature amount of the image data for one symbol by calculation instead of the pattern matching process, and recognize each symbol based on the obtained feature amount. When all the symbols are recognized, the control circuit 10 ends the symbol recognition process (end).

(マークアップ言語ファイル9の生成処理)
図6、図7を用いて、実施形態に係るマークアップ言語ファイル9の生成処理の一例を説明する。図6は実施形態に係るマークアップ言語ファイル9の生成処理の一例を示す図である。図7は実施形態に係るマークアップ言語ファイル9の一部を示す図である。
(Generation process of markup language file 9)
An example of the markup language file 9 generation process according to the embodiment will be described with reference to FIGS. 6 and 7. FIG. 6 is a diagram showing an example of the generation process of the markup language file 9 according to the embodiment. FIG. 7 is a diagram showing a part of the markup language file 9 according to the embodiment.

マークアップ言語は文章構造を記述するための言語である。制御回路10は、解析処理、記号認識処理の結果を用いて、マークアップ言語ファイル9を生成する。実施形態では、制御回路10が、マークアップ言語ファイル9として、XML(Extensible Markup Language)で記述されたファイルを生成する例を説明する。つまり、マークアップ言語ファイル9の生成処理では、制御回路10はXMLファイルを生成する。なお、制御回路10は、XML以外のマークアップ言語のファイルを生成してもよい。 Markup language is a language for describing sentence structure. The control circuit 10 generates a markup language file 9 by using the results of the analysis process and the symbol recognition process. In the embodiment, an example in which the control circuit 10 generates a file described in XML (Extensible Markup Language) as the markup language file 9 will be described. That is, in the markup language file 9 generation process, the control circuit 10 generates an XML file. The control circuit 10 may generate a file in a markup language other than XML.

例えば、記憶部2は、マークアップ言語ファイル9を生成するため(読取画像データ7をマークアップ言語ファイル9に変換するため)のファイル生成ソフトウェア23を不揮発的に記憶する(図1参照)。制御回路10は、ファイル生成ソフトウェア23を用いて、読取画像データ7からマークアップ言語ファイル9を生成する。 For example, the storage unit 2 non-volatilely stores the file generation software 23 for generating the markup language file 9 (for converting the read image data 7 into the markup language file 9) (see FIG. 1). The control circuit 10 uses the file generation software 23 to generate the markup language file 9 from the scanned image data 7.

図6のスタートは、読取画像データ7の記号認識処理が完了した時点である。まず、制御回路10は、生成するマークアップ言語ファイル9に必要な記述を含める(ステップ#31)。例えば、制御回路10は、バージョン、文字コード、使用する名前空間の宣言をマークアップ言語ファイル9に含める。 The start of FIG. 6 is when the symbol recognition process of the scanned image data 7 is completed. First, the control circuit 10 includes a necessary description in the generated markup language file 9 (step # 31). For example, the control circuit 10 includes a version, a character code, and a namespace declaration to be used in the markup language file 9.

制御回路10は、認識した線の記述をマークアップ言語ファイル9に含める(ステップ#32)。図7は、図3、図4の読取画像データ7に基づき生成されたマークアップ言語ファイル9(XMLファイル)の一部を示す。図7の記述のうち、〈draw:polygon〉の開始タグから〈/draw:polygon〉の終了タグまでが線に関する記述である。 The control circuit 10 includes the description of the recognized line in the markup language file 9 (step # 32). FIG. 7 shows a part of the markup language file 9 (XML file) generated based on the scanned image data 7 of FIGS. 3 and 4. In the description of FIG. 7, from the start tag of <draw: polygon> to the end tag of </ draw: polygon> is a description relating to the line.

図7に示すように、制御回路10は、SVG形式で線の定義(内容)を記述してもよい。図7の例では、draw:polygonのタグについて、制御回路10は、viewBoxと、線の開始位置、幅、高さの記述を含めている。開始位置には、X座標とY座標がある。開始位置は、線の左端の位置を示す。もし、このXMLファイルの記述に基づき描画する(画像データを生成する)場合、制御回路10は、定義された開始位置から、定義された幅、高さの線を描画する。 As shown in FIG. 7, the control circuit 10 may describe the definition (content) of the line in the SVG format. In the example of FIG. 7, for the drag: polygon tag, the control circuit 10 includes a viewBox and a description of the start position, width, and height of the line. The start position has an X coordinate and a Y coordinate. The starting position indicates the position of the left end of the line. If drawing is performed based on the description of this XML file (creating image data), the control circuit 10 draws a line having a defined width and height from the defined start position.

また、制御回路10は、認識した記号領域R1の記述をマークアップ言語ファイル9に含める(ステップ#33)。図7の記述のうち、〈draw:frame〉の開始タグから〈/draw:frame〉の終了タグまでが認識した記号領域R1の記述である。 Further, the control circuit 10 includes the description of the recognized symbol area R1 in the markup language file 9 (step # 33). In the description of FIG. 7, it is a description of the symbol region R1 recognized from the start tag of <draw: frame> to the end tag of </ draw: frame>.

図7のうち、1つ目の〈draw:frame〉から〈/draw:frame〉までの記述は、図3、図4の6行目の「This env invention ・・・ characters」の一文を含む記号領域R1に関する記述である。 In FIG. 7, the first description from <draw: frame> to </ draw: frame> is a symbol including a sentence of "This env innovation ... characters" in the sixth line of FIGS. 3 and 4. It is a description about the region R1.

図7のうち、2つ目の〈draw:frame〉から〈/draw:frame〉までの記述は、図3、図4の7行目の「in a scanned ・・・ area」のの一文を含む記号領域R1に関する記述である。 In FIG. 7, the second description from <draw: frame> to </ draw: frame> includes a sentence of "in a scanned ... area" in the 7th line of FIGS. 3 and 4. It is a description about a symbol area R1.

図7に示すように、制御回路10は、SVG形式で記号列の定義を記述してもよい。図7の例では、draw:frameのタグについて、制御回路10は、フレーム(記号列を含める矩形領域)の開始位置、幅、高さの記述を含めている。開始位置には、X座標とY座標がある。X座標とY座標は、フレームの左上隅の座標を示す。例えば、制御回路10は解析処理で認識した記号領域R1の左上隅の座標をフレームの左上隅の座標とする。 As shown in FIG. 7, the control circuit 10 may describe the definition of the symbol string in the SVG format. In the example of FIG. 7, for the drag: frame tag, the control circuit 10 includes a description of the start position, width, and height of the frame (rectangular area including the symbol string). The start position has an X coordinate and a Y coordinate. The X and Y coordinates indicate the coordinates of the upper left corner of the frame. For example, the control circuit 10 uses the coordinates of the upper left corner of the symbol region R1 recognized in the analysis process as the coordinates of the upper left corner of the frame.

もし、このXMLファイルの記述に基づき描画する(画像データを生成する)場合、制御回路10は、定義された開始位置から、定義された幅、高さの矩形(フレーム)内に、定義された記号列を描画する。 If drawing (generating image data) is performed based on the description of this XML file, the control circuit 10 is defined in a rectangle (frame) having a defined width and height from the defined start position. Draw a symbol string.

なお、非記号領域を認識した場合、制御回路10は、認識した非記号領域の記述をマークアップ言語ファイル9に含める(ステップ#34)。なお、図3、図4の読取画像データ7は非記号領域を含まない。この場合、制御回路10は、マークアップ言語ファイル9(XMLファイル)には、非記号領域の記述を含めない。文章の構造を示す記述を定義し終えると、制御回路10は、処理を終了する(エンド)。 When the non-symbol area is recognized, the control circuit 10 includes the description of the recognized non-symbol area in the markup language file 9 (step # 34). The scanned image data 7 of FIGS. 3 and 4 does not include a non-symbol region. In this case, the control circuit 10 does not include the description of the non-symbol area in the markup language file 9 (XML file). When the description indicating the structure of the text has been defined, the control circuit 10 ends the process (end).

なお、文章が手書きされた原稿(自筆の原稿)が原稿読取部3にセットされる場合もある。この場合、マークアップ言語ファイル9の生成のため、制御回路10は、書きされた記号のすべてを認識し、テキストデータに置き換える。制御回路10は、認識したテキストデータの記述をマークアップ言語ファイル9に含める。 In some cases, a manuscript with handwritten text (autographed manuscript) is set in the manuscript reading unit 3. In this case, in order to generate the markup language file 9, the control circuit 10 recognizes all the written symbols and replaces them with text data. The control circuit 10 includes the description of the recognized text data in the markup language file 9.

(除去編集処理)
次に、図8、図9を用いて、実施形態に係る除去編集処理の一例を説明する。図8は、実施形態に係る除去編集処理の一例を示す図である。図9は、実施形態に係る除去編集処理後のファイルの一例を示す図である。
(Removal editing process)
Next, an example of the removal editing process according to the embodiment will be described with reference to FIGS. 8 and 9. FIG. 8 is a diagram showing an example of the removal editing process according to the embodiment. FIG. 9 is a diagram showing an example of a file after the removal editing process according to the embodiment.

例えば、記憶部2は、自動編集ソフトウェア24を不揮発的に記憶する(図1参照)。制御回路10は、自動編集ソフトウェア24を用いて、制御回路10が除去編集処理を行う。具体的には、制御回路10は、生成したマークアップ言語ファイル9の編集処理を行う。 For example, the storage unit 2 stores the automatic editing software 24 in a non-volatile manner (see FIG. 1). In the control circuit 10, the automatic editing software 24 is used, and the control circuit 10 performs the removal editing process. Specifically, the control circuit 10 edits the generated markup language file 9.

取消線除去機能を利用するジョブのとき、制御回路10は、自動的にマークアップ言語ファイル9の内容を編集する。図8のスタートは、マークアップ言語ファイル9の生成処理が完了した時点である。まず、制御回路10は、マークアップ言語ファイル9が含む線の記述のうち、記号と重なる線を特定する(ステップ#41)。また、制御回路10は、制御回路10は、マークアップ言語ファイル9の記述のうち、線と重なる記号を特定する(ステップ#42)。 When the job uses the strikethrough removal function, the control circuit 10 automatically edits the contents of the markup language file 9. The start of FIG. 8 is when the generation process of the markup language file 9 is completed. First, the control circuit 10 identifies a line overlapping the symbol in the description of the line included in the markup language file 9 (step # 41). Further, the control circuit 10 specifies a symbol overlapping the line in the description of the markup language file 9 (step # 42).

そして、制御回路10は、記号領域R1(行領域)の記述のうち、線と重なる1又は複数の記号を除去する(ステップ#43)。つまり、制御回路10は、原稿に書き込まれた取消線8に重なる記号(文字等)を除去する。 Then, the control circuit 10 removes one or a plurality of symbols overlapping the line from the description of the symbol area R1 (row area) (step # 43). That is, the control circuit 10 removes symbols (characters and the like) that overlap the strikethrough 8 written on the document.

図3、図4、図7の例では、「env」の3つの記号(アルファベット)が線と重なる。この場合、制御回路10は、マークアップ言語ファイル9の記述のうち、「env」が線と重なる記号と特定する。そして、制御回路10は、線と重なると特定した記号である「env」の記述を除去する。 In the examples of FIGS. 3, 4, and 7, the three symbols (alphabet) of "env" overlap with the line. In this case, the control circuit 10 identifies the symbol in which "env" overlaps with the line in the description of the markup language file 9. Then, the control circuit 10 removes the description of "env", which is a symbol specified to overlap with the line.

次に、制御回路10は、除去した記号に続く記号(記号列)の位置のシフトする(ステップ#44)。つまり、制御回路10は、除去した記号に続く記号の位置をずらす(前に詰める)ように、マークアップ言語ファイル9の記述を変更する。制御回路10は、除去により空白ができないようにする。 Next, the control circuit 10 shifts the position of the symbol (symbol string) following the removed symbol (step # 44). That is, the control circuit 10 changes the description of the markup language file 9 so that the position of the symbol following the removed symbol is shifted (prepared). The control circuit 10 prevents blanks by removal.

図9は、除去編集処理後のマークアップ言語ファイル9の一例を示す。図9は、図7の記述のうち、線と重なる「env」の3つの記号を除去した例を示す。そして、図9では、除去した記号に続く記号(記号列)であって、位置をずらした(左方向にシフトした)部分を2点鎖線で囲っている。除去した記号以降の記号列の全体をシフトするので、空白はできない。 FIG. 9 shows an example of the markup language file 9 after the removal editing process. FIG. 9 shows an example in which the three symbols of “env” overlapping the line are removed from the description of FIG. 7. Then, in FIG. 9, the symbol (symbol string) following the removed symbol, the portion shifted in position (shifted to the left) is surrounded by a two-dot chain line. Since the entire symbol string after the removed symbol is shifted, there can be no blank space.

なお、制御回路10は、除去した分、フレーム(記号領域R1)の幅(左右方向の幅、行方向の幅、記述方向の幅)を狭くしてもよい。例えば、除去後の記号領域R1が含む文字数を除去前の記号領域R1が含む文字数で除して、比率を求める。そして、制御回路10は、フレーム(記号領域R1)の幅に、比率を乗じて修正後の幅を求めてもよい。制御回路10は、フレーム(記号領域R1)の幅の記述を、求めた修正後の幅に書き換えてもよい。 The control circuit 10 may narrow the width (width in the left-right direction, width in the row direction, width in the description direction) of the frame (symbol region R1) by the amount removed. For example, the ratio is obtained by dividing the number of characters included in the symbol area R1 after removal by the number of characters included in the symbol area R1 before removal. Then, the control circuit 10 may obtain the corrected width by multiplying the width of the frame (symbol region R1) by the ratio. The control circuit 10 may rewrite the description of the width of the frame (symbol region R1) to the obtained corrected width.

具体的に、図7の「This env invention aims to solve this problem by detecting and deleting strikethrough characters」の記号数(文字数)は、スペースを含め、83文字である。除去する「env」は3文字である。例えば、制御回路10は、80/83の演算を行い、比率を求める。 Specifically, the number of symbols (number of characters) of "This env invention aim to solve this problem by detecting and deleting strikethrough characters" in FIG. 7 is 83 characters including a space. The "env" to be removed is 3 characters. For example, the control circuit 10 performs an operation of 80/83 to obtain a ratio.

図7のマークアップ言語ファイル9では、上記の行のフレーム(記号領域R1)の幅は、15.314cmと定義されている。そこで、15.314×(80/83)≒14.763に幅の値を書き換えてもよい。図9は、幅を書き換える例を示す。このように、制御回路10は、記号を除去するフレーム(記号領域R1)の幅を調整してもよい。 In the markup language file 9 of FIG. 7, the width of the frame (symbol area R1) of the above line is defined as 15.314 cm. Therefore, the width value may be rewritten to 15.314 × (80/83) ≈14.763. FIG. 9 shows an example of rewriting the width. In this way, the control circuit 10 may adjust the width of the frame (symbol region R1) from which the symbol is removed.

さらに、制御回路10は、マークアップ言語ファイル9のうち、記号と重なる線(重なると特定した線)の記述を除去する(ステップ#45)。つまり、制御回路10は、取消線8を消す。図7のマークアップ言語ファイル9の記述のうち、〈draw:polygon〉の開始タグから〈/draw:polygon〉の終了タグまでの記述が取消線8の記述である。図9は取消線8の除去後のマークアップ言語ファイル9の記述の一例を示す。取消線8に関する記述の全てが除去されている。 Further, the control circuit 10 removes the description of the line overlapping the symbol (the line specified to overlap) in the markup language file 9 (step # 45). That is, the control circuit 10 erases the cancel line 8. Of the descriptions of the markup language file 9 in FIG. 7, the description from the start tag of <draw: polygon> to the end tag of </ draw: polygon> is the description of the strikethrough 8. FIG. 9 shows an example of the description of the markup language file 9 after the strikethrough 8 is removed. All the statements about the strikethrough 8 have been removed.

取消線8の記述の除去により、マークアップ言語ファイル9の除去編集処理(自動編集処理)は終了する(エンド)。 By removing the description of the strikethrough 8, the removal editing process (automatic editing process) of the markup language file 9 ends (end).

(出力用ファイル生成処理)
次に、図10を用いて、実施形態に係る出力用ファイル生成処理の一例を説明する。図10は、実施形態に係る出力用ファイル生成処理の一例を示す。
(File generation process for output)
Next, an example of the output file generation process according to the embodiment will be described with reference to FIG. FIG. 10 shows an example of the output file generation process according to the embodiment.

マークアップ言語ファイル9の自動編集が完了すると、制御回路10は、ジョブの出力のため、出力用ファイルの生成を開始する。図10のスタートは、除去編集処理が完了した時点である。 When the automatic editing of the markup language file 9 is completed, the control circuit 10 starts generating an output file for the output of the job. The start of FIG. 10 is when the removal editing process is completed.

制御回路10は、実行するジョブがコピージョブか否かを確認する(ステップ#51)。実行するジョブがコピージョブの場合(ステップ#51のYes)、除去編集処理後のマークアップ言語ファイル9に基づき、制御回路10は、画像ファイル(画像データ)を出力用ファイルとして生成する(ステップ#52)。制御回路10は、マークアップ言語ファイル9の記述に従って、描画処理を行い、画像ファイルを生成する。例えば、制御回路10は、ビットマップ形式の画像ファイルを生成する。そして、制御回路10(制御部1)は、生成した画像ファイルに基づく印刷をプリンター部5に行わせる(ステップ#53)。これにより、コピージョブが完了する(エンド)。 The control circuit 10 confirms whether or not the job to be executed is a copy job (step # 51). When the job to be executed is a copy job (Yes in step # 51), the control circuit 10 generates an image file (image data) as an output file based on the markup language file 9 after the removal editing process (step #). 52). The control circuit 10 performs drawing processing according to the description of the markup language file 9 and generates an image file. For example, the control circuit 10 generates an image file in bitmap format. Then, the control circuit 10 (control unit 1) causes the printer unit 5 to print based on the generated image file (step # 53). This completes the copy job (end).

実行するジョブがコピージョブではない場合(ステップ#51のNo)、制御回路10は、実行するジョブがスキャン送信ジョブか否かを確認する(ステップ#54)。実行するジョブがスキャン送信ジョブの場合(ステップ#54のYes)、制御回路10は、送信用の形式のファイルを出力用ファイルとして生成する(ステップ#55)。ジョブの開始前(原稿読み取り前)に、操作パネル4は、送信するファイルの形式の選択を受け付ける。選択できるファイルの形式は複数ある。例えば、PDF、JPEG、Tiffを選択することができる。 When the job to be executed is not a copy job (No in step # 51), the control circuit 10 confirms whether or not the job to be executed is a scan transmission job (step # 54). When the job to be executed is a scan transmission job (Yes in step # 54), the control circuit 10 generates a file in the format for transmission as an output file (step # 55). Before starting the job (before scanning the original), the operation panel 4 accepts the selection of the format of the file to be transmitted. There are multiple file formats to choose from. For example, PDF, JPEG, Tiff can be selected.

PDFファイルを生成する場合、制御回路10は、マークアップ言語ファイル9の記述を変更し、PDF形式で記述されたファイルを生成する。JPEGファイルやTiffファイルを生成する場合、制御回路10は、マークアップ言語ファイル9の記述に従って、画像データの描画を行う。例えば、制御回路10は、最初にビットマップ形式の画像データを生成する。そして、制御回路10(制御部1)は、選択された画像フォーマットのアルゴリズムに従い、ビットマップ形式の画像データから、JPEGファイルやTiffファイルを生成する。 When generating a PDF file, the control circuit 10 changes the description of the markup language file 9 and generates a file described in PDF format. When generating a JPEG file or a Tiff file, the control circuit 10 draws image data according to the description of the markup language file 9. For example, the control circuit 10 first generates image data in bitmap format. Then, the control circuit 10 (control unit 1) generates a JPEG file or a Tiff file from the image data in the bitmap format according to the algorithm of the selected image format.

そして、制御回路10(制御部1)は、生成したファイルに基づく送信する(ステップ#56)。送信ジョブの場合、制御回路10(制御部1)は、設定された宛先に向けて、生成したファイルを通信部に送信させる。これにより、送信ジョブが完了する(エンド)。 Then, the control circuit 10 (control unit 1) transmits based on the generated file (step # 56). In the case of a transmission job, the control circuit 10 (control unit 1) causes the communication unit to transmit the generated file to the set destination. This completes the send job (end).

実行するジョブがスキャン送信ジョブではなく、スキャン保存ジョブの場合(ステップ#54のNo)、制御回路10は、保存用の形式のファイルを出力用ファイルとして生成する(ステップ#57)。ジョブの開始前(原稿読み取り前)に、操作パネル4は、保存するファイルの形式の選択を受け付ける。選択できるファイルの形式は複数ある。例えば、PDF、JPEG、Tiffを選択することができる。 When the job to be executed is not a scan transmission job but a scan save job (No in step # 54), the control circuit 10 generates a file in a save format as an output file (step # 57). Before starting the job (before scanning the original), the operation panel 4 accepts the selection of the format of the file to be saved. There are multiple file formats to choose from. For example, PDF, JPEG, Tiff can be selected.

制御回路10(制御部1)は、生成したファイルを記憶部2に記憶させる(ステップ#58)。保存ジョブの場合、制御回路10(制御部1)は、設定された保存場所へのファイルの保存を記憶部2に行わせる。これにより、保存ジョブが完了する(エンド)。 The control circuit 10 (control unit 1) stores the generated file in the storage unit 2 (step # 58). In the case of a save job, the control circuit 10 (control unit 1) causes the storage unit 2 to save the file in the set save location. This completes the save job (end).

このようにして、実施形態に係る画像処理装置(複合機100)は、原稿読取部3、処理回路(制御回路10)を含む。原稿読取部3は原稿を読み取る。処理回路は、原稿の読み取りで得られた読取画像データ7を解析して、読取画像データ7が含む線と、記号を含む記号領域R1を認識する。処理回路は、記号領域R1が含む記号を認識する。処理回路は、マークアップ言語を用いて、記号領域R1、線、及び、記号領域R1と線以外のそれぞれについて記述することにより、読取画像データ7の構造を記述したマークアップ言語ファイル9を生成する。処理回路は、マークアップ言語ファイル9の線の記述のうち、文字と重なる線である取消線8の記述を除去する。処理回路は、マークアップ言語ファイル9の記号領域R1の記述のうち、取消線8と重なる1又は複数の記号を除去し、除去した記号に続く記号の位置をずらして、記号の除去によってできる空白を埋める。 In this way, the image processing device (multifunction device 100) according to the embodiment includes the document reading unit 3 and the processing circuit (control circuit 10). The document reading unit 3 reads the document. The processing circuit analyzes the scanned image data 7 obtained by scanning the document, and recognizes the line included in the scanned image data 7 and the symbol region R1 including the symbol. The processing circuit recognizes the symbol included in the symbol area R1. The processing circuit generates a markup language file 9 that describes the structure of the scanned image data 7 by describing each of the symbol area R1, the line, and the symbol area R1 and other than the line using the markup language. .. The processing circuit removes the description of the strikethrough line 8, which is a line overlapping the characters, from the description of the line in the markup language file 9. The processing circuit removes one or more symbols that overlap the strikethrough 8 from the description of the symbol area R1 of the markup language file 9, shifts the position of the symbol following the removed symbol, and removes the blank. Fill in.

読取画像データ7を自動的にマークアップ言語ファイル9に変換することができる。原稿が手書きの場合には、原稿の内容をテキストのデータに自動的に変換することができる。マークアップ言語ファイル9のうち、記号と重なる線(取消線8)の記述を自動的に消去することができる。記号は、例えば、文字、数字、狭義の記号である。マークアップ言語ファイル9のうち、取消線8と重なる記号の記述を自動的に除去することができる。さらに、除去した記号に続く記号の位置を自動的にずらし、記号の除去後、目立つ空白ができることを防ぐことができる。 The scanned image data 7 can be automatically converted into the markup language file 9. When the manuscript is handwritten, the contents of the manuscript can be automatically converted into text data. In the markup language file 9, the description of the line overlapping the symbol (cancellation line 8) can be automatically deleted. Symbols are, for example, letters, numbers, and symbols in the narrow sense. In the markup language file 9, the description of the symbol overlapping the strikethrough 8 can be automatically removed. Further, the position of the symbol following the removed symbol can be automatically shifted to prevent a conspicuous blank from being created after the symbol is removed.

処理回路は、取消線8と、取消線8と重なる記号の除去後のマークアップ言語ファイル9を変換して、マークアップ言語ファイル9とフォーマットが異なる出力用ファイルを生成する。修正後のマークアップ言語ファイル9に基づき、出力用ファイルを生成することができる。修正後のマークアップ言語ファイル9から別のフォーマットのファイルを生成することができる。 The processing circuit converts the strikethrough 8 and the markup language file 9 after removing the symbol overlapping the strikeoff line 8 to generate an output file having a format different from that of the markup language file 9. An output file can be generated based on the modified markup language file 9. A file in another format can be generated from the modified markup language file 9.

画像処理装置は、生成する出力用ファイルのフォーマットの指定を受け付ける操作パネル4を含む。処理回路は、マークアップ言語ファイル9を変換して、操作パネル4で指定されたフォーマットの出力用ファイルを生成する。生成する出力用ファイルのフォーマットを指定することができる。所望の形式の出力用ファイルを得ることができる。 The image processing device includes an operation panel 4 that accepts the specification of the format of the output file to be generated. The processing circuit converts the markup language file 9 and generates an output file in the format specified by the operation panel 4. You can specify the format of the output file to be generated. You can get an output file in the desired format.

処理回路は、タグを用いて記述されたマークアップ言語ファイル9を生成する。処理回路は、読取画像データ7のうち、記号領域R1の位置とサイズを認識する。処理回路は、認識した記号領域R1に対応するフレームの位置とサイズをマークアップ言語ファイル9に記述する。処理回路は、フレーム内に収める記号列をマークアップ言語ファイル9に記述する。処理回路は、フレーム内に収める記号列の記述のうち、取消線8と重なる記号を除去し、除去した記号に続く記号を行の先頭側にずらす。取消線8と重なる記号のみが適切に除去されるように、マークアップ言語ファイル9の記述を自動的に改変することができる。単語間に大きな空白ができないように、除去した記号に続く文字等の位置を自動的にずらすことができる。 The processing circuit generates a markup language file 9 described using tags. The processing circuit recognizes the position and size of the symbol region R1 in the scanned image data 7. The processing circuit describes the position and size of the frame corresponding to the recognized symbol region R1 in the markup language file 9. The processing circuit describes the symbol string to be stored in the frame in the markup language file 9. The processing circuit removes the symbol overlapping the strikethrough 8 from the description of the symbol string to be stored in the frame, and shifts the symbol following the removed symbol to the head side of the line. The description in the markup language file 9 can be automatically modified so that only the symbol that overlaps the strikethrough 8 is properly removed. The position of characters, etc. following the removed symbol can be automatically shifted so that there is no large space between words.

処理回路は、XML形式のファイルをマークアップ言語ファイル9として生成する。マークアップ言語ファイル9として、XML形式のファイルを得ることができる。 The processing circuit generates an XML format file as a markup language file 9. An XML format file can be obtained as the markup language file 9.

本発明の実施形態を説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で種々の変更を加えて実施することができる。 Although the embodiment of the present invention has been described, the scope of the present invention is not limited to this, and various modifications can be made without departing from the gist of the invention.

本発明は、原稿を読み取り、画像データを扱う画像処理装置に利用可能である。 The present invention can be used in an image processing device that reads a document and handles image data.

100 複合機(画像処理装置) 10 制御回路(処理回路)
3 原稿読取部 4 操作パネル
7 読取画像データ 8 取消線
9 マークアップ言語ファイル R1 記号領域
100 Multifunction device (image processing device) 10 Control circuit (processing circuit)
3 Document reader 4 Operation panel 7 Scanned image data 8 Strikes 9 Markup language file R1 Symbol area

Claims (5)

原稿を読み取る原稿読取部と、
原稿の読み取りで得られた読取画像データを解析して、前記読取画像データが含む線と、記号を含む記号領域を認識し、
前記記号領域が含む記号を認識し、
マークアップ言語を用いて、前記記号領域、前記線、及び、前記記号領域と前記線以外のそれぞれについて記述することにより、前記読取画像データの構造を記述したマークアップ言語ファイルを生成し、
前記マークアップ言語ファイルの前記線の記述のうち、文字と重なる前記線である取消線の記述を除去し、
前記マークアップ言語ファイルの前記記号領域の記述のうち、前記取消線と重なる1又は複数の前記記号を除去し、除去した前記記号に続く前記記号の位置をずらして、前記記号の除去によってできる空白を埋める処理回路と、を含むことを特徴とする画像処理装置。
A document reader that reads documents and
The scanned image data obtained by scanning the document is analyzed to recognize the line included in the scanned image data and the symbol area including the symbol.
Recognize the symbol contained in the symbol area and
By using the markup language to describe the symbol area, the line, and each of the symbol area and other than the line, a markup language file describing the structure of the read image data is generated.
From the description of the line in the markup language file, the description of the strikethrough line that overlaps with the characters is removed.
In the description of the symbol area of the markup language file, one or a plurality of the symbols overlapping the strikethrough are removed, the position of the symbol following the removed symbol is shifted, and a blank created by removing the symbol. An image processing apparatus characterized by including a processing circuit that fills the space.
前記処理回路は、前記取消線と、前記取消線と重なる前記記号の除去後の前記マークアップ言語ファイルを変換して、前記マークアップ言語ファイルとフォーマットが異なる出力用ファイルを生成することを特徴とする請求項1に記載の画像処理装置。 The processing circuit is characterized in that the strikethrough and the markup language file after removal of the symbol overlapping the strikeoff line are converted to generate an output file having a format different from that of the markup language file. The image processing apparatus according to claim 1. 生成する前記出力用ファイルの前記フォーマットの指定を受け付ける操作パネルを含み、
前記処理回路は、前記マークアップ言語ファイルを変換して、前記操作パネルで指定された前記フォーマットの前記出力用ファイルを生成することを特徴とする請求項2に記載の画像処理装置。
Includes an operation panel that accepts the format specification of the output file to be generated.
The image processing apparatus according to claim 2, wherein the processing circuit converts the markup language file to generate the output file in the format specified by the operation panel.
前記処理回路は、
タグを用いて記述された前記マークアップ言語ファイルを生成し、
前記読取画像データのうち、前記記号領域の位置とサイズを認識し、
認識した前記記号領域に対応するフレームの位置とサイズを前記マークアップ言語ファイルに記述し、
前記フレーム内に収める前記記号列を前記マークアップ言語ファイルに記述し、
前記フレーム内に収める前記記号列の記述のうち、前記取消線と重なる前記記号を除去し、除去した前記記号に続く前記記号を行の先頭側にずらすことを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
The processing circuit is
Generate the markup language file described using tags,
Recognize the position and size of the symbol area in the scanned image data,
Describe the position and size of the frame corresponding to the recognized symbol area in the markup language file.
The symbol string to be contained in the frame is described in the markup language file, and the symbol string is described in the markup language file.
The first to third aspects of the description of the symbol string to be accommodated in the frame, wherein the symbol overlapping the strike-through line is removed, and the symbol following the removed symbol is shifted to the head side of the line. The image processing apparatus according to any one of the following items.
前記処理回路は、XML形式のファイルを前記マークアップ言語ファイルとして生成することを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。 The image processing apparatus according to any one of claims 1 to 4, wherein the processing circuit generates an XML format file as the markup language file.
JP2020086071A 2020-05-15 2020-05-15 Image processing apparatus Pending JP2021180456A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020086071A JP2021180456A (en) 2020-05-15 2020-05-15 Image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020086071A JP2021180456A (en) 2020-05-15 2020-05-15 Image processing apparatus

Publications (1)

Publication Number Publication Date
JP2021180456A true JP2021180456A (en) 2021-11-18

Family

ID=78510567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020086071A Pending JP2021180456A (en) 2020-05-15 2020-05-15 Image processing apparatus

Country Status (1)

Country Link
JP (1) JP2021180456A (en)

Similar Documents

Publication Publication Date Title
JP5712487B2 (en) Image processing apparatus, image processing system, image processing method, and program
US9361536B1 (en) Identifying user marks using patterned lines on pre-printed forms
CN102331914A (en) Form processing system, ocr device, form creation device, and form procrssing method
JP2013041539A (en) Information extraction device
JP6950320B2 (en) Image processing device
JP2003018393A (en) Image processing system
US7983485B2 (en) System and method for identifying symbols for processing images
US8339623B2 (en) Paper document processing apparatus, paper document processing method, and computer readable medium
JP2007005950A (en) Image processing apparatus and network system
JP4165435B2 (en) Image forming apparatus and program
JP2021180456A (en) Image processing apparatus
US10498921B2 (en) Electronic imprinting device that affixes imprint data to document data
JP2006196976A (en) Copying system with automatic clean copy function using ocr
JP2021092999A (en) Image processor and control method therefor
JP2009223363A (en) Document processor and document processing program
JP5789621B2 (en) Image forming apparatus and image forming system
JP6205973B2 (en) Change history output device, program
JP2003058824A (en) Printer and document reader
JP2020123811A (en) Image processing apparatus and controlling method of image processing apparatus
JP5634350B2 (en) Information extraction device
JP5935376B2 (en) Copy machine
CN110971780B (en) Image processing apparatus and control method of image processing apparatus
JP2020195113A (en) Image processing apparatus
JP2021164096A (en) Image processing device
JP6624037B2 (en) Image forming device