JP2021128488A - 画像処理システムおよび画像処理プログラム - Google Patents

画像処理システムおよび画像処理プログラム Download PDF

Info

Publication number
JP2021128488A
JP2021128488A JP2020022093A JP2020022093A JP2021128488A JP 2021128488 A JP2021128488 A JP 2021128488A JP 2020022093 A JP2020022093 A JP 2020022093A JP 2020022093 A JP2020022093 A JP 2020022093A JP 2021128488 A JP2021128488 A JP 2021128488A
Authority
JP
Japan
Prior art keywords
image
tile
segmentation
specific
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020022093A
Other languages
English (en)
Other versions
JP7417192B2 (ja
Inventor
篤志 西田
Atsushi Nishida
篤志 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020022093A priority Critical patent/JP7417192B2/ja
Priority to US17/172,253 priority patent/US11496644B2/en
Publication of JP2021128488A publication Critical patent/JP2021128488A/ja
Application granted granted Critical
Publication of JP7417192B2 publication Critical patent/JP7417192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
    • H04N1/00026Methods therefor
    • H04N1/00039Analysis, i.e. separating and studying components of a greater whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
    • H04N1/00005Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for relating to image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
    • H04N1/00026Methods therefor
    • H04N1/00037Detecting, i.e. determining the occurrence of a predetermined state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/38Circuits or arrangements for blanking or otherwise eliminating unwanted parts of pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40093Modification of content of picture, e.g. retouching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Facsimiles In General (AREA)

Abstract

【課題】 画像から手書きの部分を高精度かつ高速に検出することができる画像処理システムおよび画像処理プログラムを提供する。
【解決手段】 画像形成装置のCNN31は、画像を特定のサイズに分割したタイル画像毎にタイル画像の情報を圧縮するエンコーダー31aと、エンコーダー31aによって圧縮されたタイル画像の情報を復元するデコーダー31bと、タイル画像が白紙の画像であるか否かを判定する白紙判定部31cとを備え、セグメンテーション画像生成部32は、タイル画像が白紙の画像であると白紙判定部31cによって判定された場合に、セグメンテーション画像22のうち、このタイル画像に対応する部分の画像として、白紙の画像を使用し、タイル画像が白紙の画像ではないと白紙判定部31cによって判定された場合に、セグメンテーション画像22のうち、このタイル画像に対応する部分の画像としてデコーダー31bの出力画像を使用する。
【選択図】 図5

Description

本発明は、画像から手書きの部分を検出する画像処理システムおよび画像処理プログラムに関する。
従来、画像から手書きの部分を検出した後、検出した手書きの部分を除去した画像を生成する画像処理システムが知られている(例えば、特許文献1、2参照。)。
特開2005−276188号公報 特開2019−057779号公報
しかしながら、従来の画像処理システムにおいては、画像から手書きの部分を高精度かつ高速に検出することができないという問題がある。
そこで、本発明は、画像から手書きの部分を高精度かつ高速に検出することができる画像処理システムおよび画像処理プログラムを提供することを目的とする。
本発明の画像処理システムは、手書きである確率を画像の画素毎に判定する畳み込みニューラルネットワークと、前記畳み込みニューラルネットワークによる判定結果に基づいてセグメンテーション画像を生成するセグメンテーション画像生成部とを備え、前記畳み込みニューラルネットワークは、前記画像を特定のサイズに分割したタイル画像毎に前記タイル画像の情報を圧縮するエンコーダーと、前記エンコーダーによって圧縮された前記タイル画像の情報を復元するデコーダーと、前記タイル画像が特定の画像であるか否かを判定する特定画像判定部とを備え、前記セグメンテーション画像生成部は、前記タイル画像が前記特定の画像であると前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記特定の画像を使用し、前記タイル画像が前記特定の画像ではないと前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分のデコーダーの出力画像を使用することを特徴とする。
この構成により、本発明の画像処理システムは、畳み込みニューラルネットワークを使用して画像から手書きの部分を検出するので、画像から手書きの部分を高精度に検出することができる。また、本発明の画像処理システムは、特定の画像に対してデコーダーの処理を省略するので、画像から手書きの部分を高速に検出することができる。
本発明の画像処理システムにおいて、前記特定画像判定部は、前記エンコーダーの出力に基づいて前記タイル画像が前記特定の画像であるか否かを判定しても良い。
この構成により、本発明の画像処理システムは、エンコーダーによってサイズが圧縮された画像に基づいて特定の画像であるか否かを判定するので、特定の画像であるか否かを判定する速度を向上することができ、その結果、画像から手書きの部分を検出する速度を向上することができる。
本発明の画像処理システムは、手書きの部分が除去された画像を生成する除去処理部と、手書きの部分が強調された画像を生成する強調処理部とを備え、前記除去処理部は、前記確率が第1の閾値以上である画素の画像を除去し、前記強調処理部は、前記確率が前記第1の閾値より小さい第2の閾値以上である画素の画像を強調しても良い。
この構成により、本発明の画像処理システムは、手書きの部分を除去する場合には、手書きの部分を強調する場合より大きい閾値で手書きの部分を検出するので、手書き以外の部分が手書きとして誤検出される可能性を低減することができ、その結果、手書き以外の部分が誤って除去される可能性を低減することができる。一方、本発明の画像処理システムは、手書きの部分を強調する場合には、手書きの部分を除去する場合より小さい閾値で手書きの部分を検出するので、手書きの部分が検出される可能性を向上することができ、その結果、手書きの部分が強調されない可能性を低減することができる。
本発明の画像処理プログラムは、手書きである確率を画像の画素毎に判定する畳み込みニューラルネットワークと、前記畳み込みニューラルネットワークによる判定結果に基づいてセグメンテーション画像を生成するセグメンテーション画像生成部とをコンピューターに実現させ、前記畳み込みニューラルネットワークは、前記画像を特定のサイズに分割したタイル画像毎に前記タイル画像の情報を圧縮するエンコーダーと、前記エンコーダーによって圧縮された前記タイル画像の情報を復元するデコーダーと、前記タイル画像が特定の画像であるか否かを判定する特定画像判定部とを備え、前記セグメンテーション画像生成部は、前記タイル画像が前記特定の画像であると前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記特定の画像を使用し、前記タイル画像が前記特定の画像ではないと前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記デコーダーの出力画像を使用することを特徴とする。
この構成により、本発明の画像処理プログラムを実行するコンピューターは、畳み込みニューラルネットワークを使用して画像から手書きの部分を検出するので、画像から手書きの部分を高精度に検出することができる。また、本発明の画像処理プログラムを実行するコンピューターは、特定の画像に対してデコーダーの処理を省略するので、画像から手書きの部分を高速に検出することができる。
本発明の画像処理システムおよび画像処理プログラムは、画像から手書きの部分を高精度かつ高速に検出することができる。
本発明の一実施の形態に係る画像形成装置のブロック図である。 原稿の画像に対して手書きの部分が除去された画像を印刷する処理の実行が指示された場合の図1に示す画像形成装置の動作の流れを示す図である。 原稿の画像に対して手書きの部分が強調された画像を印刷する処理の実行が指示された場合の図1に示す画像形成装置の動作の流れを示す図である。 (a)図2または図3に示す入力画像の一例を示す図である。 (b)図2に示す出力画像の一例を示す図である。 (c)図3に示す出力画像の一例を示す図である。 図2または図3に示すセマンティックセグメンテーション部の動作の流れを示す図である。 図5に示すエンコーダーの動作の流れを示す図である。 図6に示す畳み込み層による畳み込み演算の一例を示す図である。 図6に示すプーリング層によるプーリング処理の一例を示す図である。 図5に示すデコーダー31bの動作の流れを示す図である。
以下、本発明の実施の形態について、図面を用いて説明する。
まず、本発明の一実施の形態に係る画像処理システムとしての画像形成装置の構成について説明する。
図1は、本実施の形態に係る画像形成装置10のブロック図である。
図1に示すように、画像形成装置10は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部11と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部12と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター13と、原稿から画像を読み取る読取デバイスであるスキャナー14と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部15と、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部16と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部17と、画像形成装置10全体を制御する制御部18とを備えているMFP(Multifunction Peripheral)である。
記憶部17は、画像を処理するための画像処理プログラム17aを記憶している。画像処理プログラム17aは、例えば、画像形成装置10の製造段階で画像形成装置10にインストールされていても良いし、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から画像形成装置10に追加でインストールされても良いし、ネットワーク上から画像形成装置10に追加でインストールされても良い。
記憶部17は、手書きの部分を除去する除去処理のための閾値である第1の閾値17bと、手書きの部分を強調する強調処理のための閾値である第2の閾値17cとを記憶している。第2の閾値17cは、第1の閾値17bより小さい。
記憶部17は、特定の画像としての白紙の画像のデータである白紙データ17dを記憶している。白紙データ17dによって示される画像は、手書きである確率(以下「手書き確率」という。)が全ての画素について0である。
制御部18は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部18のCPUの作業領域として用いられるメモリーとしてのRBM(Random Bccess Memory)とを備えている。制御部18のCPUは、記憶部17または制御部18のROMに記憶されているプログラムを実行する。すなわち、画像形成装置10は、コンピューターである。
制御部18は、画像処理プログラム17aを実行することによって、スキャナー14によって原稿を読み取ることによって原稿の画像(以下「入力画像」という。)を取得する入力画像取得部18aと、入力画像からセグメンテーション画像を生成するセマンティックセグメンテーション部18bと、セグメンテーション画像を手書きの部分か否かによって2値化する2値化部18cと、入力画像に対して手書きの部分が除去された出力画像を生成する除去処理部18dと、入力画像に対して手書きの部分が強調された出力画像を生成する強調処理部18eと、出力画像をプリンター13によって印刷する画像印刷部18fとを実現する。
次に、画像形成装置10の動作について説明する。
まず、原稿の画像に対して手書きの部分が除去された画像を印刷する処理の実行が指示された場合の画像形成装置10の動作について説明する。
図2は、原稿の画像に対して手書きの部分が除去された画像を印刷する処理の実行が指示された場合の画像形成装置10の動作の流れを示す図である。
利用者は、スキャナー14に原稿をセットした上で、原稿の画像に対して手書きの部分が除去された画像を印刷する処理の実行を操作部11を介して指示することができる。
原稿の画像に対して手書きの部分が除去された画像を印刷する処理の実行が指示されると、図2に示すように、入力画像取得部18aは、スキャナー14によって原稿を読み取ることによって入力画像21を取得する。
次いで、セマンティックセグメンテーション部18bは、入力画像21からセグメンテーション画像22を生成する。なお、セマンティックセグメンテーション部18bは、入力画像21の画素毎に手書き確率を判定し、判定した手書き確率をセグメンテーション画像22の各画素に付与する。
次いで、2値化部18cは、セグメンテーション画像22を第1の閾値17bで2値化することによって、2値化済みのセグメンテーション画像23Aを生成する。すなわち、2値化部18cは、セグメンテーション画像22の各画素のうち、手書き確率が第1の閾値17b以上である画素を、手書きの部分の画素とするとともに、手書き確率が第1の閾値17b未満である画素を、手書き以外の部分の画素とする。
次いで、除去処理部18dは、入力画像21に対して2値化済みのセグメンテーション画像23Aの手書きの部分を除去した出力画像24Aを生成する
最後に、画像印刷部18fは、出力画像24Aをプリンター13によって印刷する。
以上のようにして、画像形成装置10は、原稿の画像に対して手書きの部分が除去された画像を印刷する。
次に、原稿の画像に対して手書きの部分が強調された画像を印刷する処理の実行が指示された場合の画像形成装置10の動作について説明する。
図3は、原稿の画像に対して手書きの部分が強調された画像を印刷する処理の実行が指示された場合の画像形成装置10の動作の流れを示す図である。
利用者は、スキャナー14に原稿をセットした上で、原稿の画像に対して手書きの部分が強調された画像を印刷する処理の実行を操作部11を介して指示することができる。
原稿の画像に対して手書きの部分が強調された画像を印刷する処理の実行が指示されると、図3に示すように、入力画像取得部18aは、スキャナー14によって原稿を読み取ることによって入力画像21を取得する。
次いで、セマンティックセグメンテーション部18bは、入力画像21からセグメンテーション画像22を生成する。なお、セマンティックセグメンテーション部18bは、手書き確率を入力画像21の画素毎に判定し、判定した手書き確率をセグメンテーション画像22の各画素に付与する。
次いで、2値化部18cは、セグメンテーション画像22を第2の閾値17cで2値化することによって、2値化済みのセグメンテーション画像23Bを生成する。すなわち、2値化部18cは、セグメンテーション画像22の各画素のうち、手書き確率が第2の閾値17c以上である画素を、手書きの部分の画素とするとともに、手書き確率が第2の閾値17c未満である画素を、手書き以外の部分の画素とする。
次いで、強調処理部18eは、入力画像21に対して2値化済みのセグメンテーション画像23Bの手書きの部分を強調した出力画像24Bを生成する
最後に、画像印刷部18fは、出力画像24Bをプリンター13によって印刷する。
以上のようにして、画像形成装置10は、原稿の画像に対して手書きの部分が強調された画像を印刷する。
図4(a)は、図2または図3に示す入力画像21の一例を示す図である。図4(b)は、図2に示す出力画像24Aの一例を示す図である。図4(c)は、図3に示す出力画像24Bの一例を示す図である。
画像形成装置10は、図2に示す動作によって、図4(a)に示す入力画像21に対して手書きの部分が除去された、図4(b)に示す出力画像24Aを印刷することができる。
画像形成装置10は、図3に示す動作によって、図4(a)に示す入力画像21に対して手書きの部分が強調された、図4(c)に示す出力画像24Bを印刷することができる。
次に、セマンティックセグメンテーション部18bの動作について詳細に説明する。
図5は、セマンティックセグメンテーション部18bの動作の流れを示す図である。
図5に示すように、セマンティックセグメンテーション部18bは、入力画像21の画素毎の手書き確率を判定する畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))31と、CNN31による判定結果に基づいてセグメンテーション画像22を生成するセグメンテーション画像生成部32とを備えている。
CNN31は、大きな画像に対して一度に処理を実行する場合、RAMの使用サイズが非常に大きくなる。したがって、CNN31は、RAMの使用サイズを抑えるために、入力画像21に対して特定の小さなサイズのタイル単位の画像(以下「タイル画像」という。)毎に処理を実行する。CNN31は、画像の情報を圧縮するエンコーダー31aと、エンコーダー31aによって圧縮された画像の情報を復元するデコーダー31bと、エンコーダー31aの出力に基づいてタイル画像が白紙の画像、すなわち、特定の画像であるか否かを判定する特定画像判定部としての白紙判定部31cとを備えている。
白紙判定部31cは、タイル画像が白紙の画像であると判定すると、エンコーダー31aの出力をデコーダー31bに入力することなく、白紙データ17dへのポインターをセグメンテーション画像生成部32に通知する。一方、白紙判定部31cは、タイル画像が白紙の画像ではないと判定すると、エンコーダー31aの出力をデコーダー31bに入力する。
セグメンテーション画像生成部32は、タイル画像に対して白紙データ17dへのポインターが白紙判定部31cから通知されると、セグメンテーション画像22のうち、このタイル画像に対応する部分の画像として白紙データ17dによって示される画像を使用する。一方、セグメンテーション画像生成部32は、タイル画像に対してデコーダー31bの出力画像を受けると、セグメンテーション画像22のうち、このタイル画像に対応する部分の画像として、デコーダー31bの出力画像を使用する。
図6は、エンコーダー31aの動作の流れを示す図である。
図6に示すように、エンコーダー31aは、畳み込み層(Convolution Layer)と、プーリング層(Pooling Layer)とを備えている。畳み込み層は、畳み込み演算が実行される層である。プーリング層は、プーリング処理が実行される層である。
図7は、図6に示す畳み込み層による畳み込み演算の一例を示す図である。
図7に示すように、畳み込み層は、例えば微分フィルターF1〜F3などの複数のフィルターを画像データのRGBの各データの全ての位置について畳み込んでエッジを抽出する。これにより、畳み込み層は、エッジ情報を含む特徴マップを表す畳み込みデータを生成することができる。
微分フィルターの重みは、学習によって調整または決定することができる。学習は、手書きの画像と、手書きではない印刷画像とを教師(訓練)データとして使用することによって、例えば誤差逆伝播法で教師あり機械学習として実現することができる。
図8は、図6に示すプーリング層によるプーリング処理の一例を示す図である。
図8に示すように、プーリング層は、特徴マップのサイズを縮小し、すなわち位置的な情報を破棄して、大局的な処理を可能とする。ただし、プーリング層は、デコーダー31bで使用するために位置的な情報である位置情報を別途保存する。
このように、エンコーダー31aは、畳み込み層およびプーリング層で、局所的で低次な情報を合成して、より大局的で高次な情報を抽出することができる。すなわち、エンコーダー31aは、ピクセル情報からエッジ情報へ、エッジ情報から筆跡情報へと、画像データを順に変換していくことができる。
図9は、デコーダー31bの動作の流れを示す図である。
図9に示すように、デコーダー31bは、アンプーリング層と、畳み込み層と、出力層とを備えている。デコーダー31bは、アンプーリング層および畳み込み層を使用して、手書き特徴量のアップサンプリングを実行し、画像データの各画素について手書き確率を特定する処理である。
アンプーリング層は、プーリング処理で保存した位置情報を使用して正確な分類マップを再現する。分類マップは、手書き特徴量を格納するマップである。畳み込み層は、手書き特徴量を有するピクセル情報に変換して、画像データの各画素について手書き特徴量を特定することができる。
出力層は、手書き特徴量を画素毎にソフトマックス関数で正規化し、手書き画像の分類確率である手書き確率を出力する。手書き確率は、0〜1.0の数値によって表される。
これにより、デコーダー31bは、画像領域分類データを生成することができる。画像領域分類データは、画像データの各画素について手書き確率でラベル付けしたデータである。
以上に説明したように、画像形成装置10は、CNN31を使用して画像から手書きの部分を検出するので、画像から手書きの部分を高精度に検出することができる。また、画像形成装置10は、白紙の画像に対してデコーダー31bの処理を省略するので、画像から手書きの部分を高速に検出することができる。したがって、画像形成装置10は、画像から手書きの部分を高精度かつ高速に検出することができる。
画像形成装置10は、タイル画像単位で処理するようになっており、タイル画像のサイズが小さいほど、タイル画像が白紙の画像である可能性が向上するので、デコーダー31bの処理を省略する確率を向上することができ、その結果、画像から手書きの部分を検出する速度を向上することができる。
画像形成装置10は、エンコーダー31aによってサイズが圧縮された画像に基づいてタイル画像が白紙の画像であるか否かを判定するので、タイル画像が白紙の画像であるか否かを判定する速度を向上することができ、その結果、画像から手書きの部分を検出する速度を向上することができる。
画像形成装置10は、手書きの部分を除去する場合には、手書きの部分を強調する場合より大きい第1の閾値17bで手書きの部分を検出するので、手書き以外の部分が手書きとして誤検出される可能性を低減することができ、その結果、手書き以外の部分が誤って除去される可能性を低減することができる。
画像形成装置10は、手書きの部分を強調する場合には、手書きの部分を除去する場合より小さい第2の閾値17cで手書きの部分を検出するので、手書きの部分が検出される可能性を向上することができ、その結果、手書きの部分が強調されない可能性を低減することができる。
本発明の画像処理システムは、本実施の形態において、1台のMFPによって構成されている。しかしながら、本発明の画像処理システムは、例えばコピー専用機など、MFP以外の画像形成装置によって構成されても良いし、例えばPC(Personal Computer)など、画像形成装置以外の画像処理システムでも良い。また、本発明の画像処理システムは、複数台の装置によって実現されても良い。
10 画像形成装置(画像処理システム、コンピューター)
17a 画像処理プログラム
17b 第1の閾値
17c 第2の閾値
17d 白紙データ(特定の画像のデータ)
18d 除去処理部
18e 強調処理部
22 セグメンテーション画像
31 CNN(畳み込みニューラルネットワーク)
31a エンコーダー
31b デコーダー
31c 白紙判定部(特定画像判定部)
32 セグメンテーション画像生成部

Claims (4)

  1. 手書きである確率を画像の画素毎に判定する畳み込みニューラルネットワークと、
    前記畳み込みニューラルネットワークによる判定結果に基づいてセグメンテーション画像を生成するセグメンテーション画像生成部と
    を備え、
    前記畳み込みニューラルネットワークは、
    前記画像を特定のサイズに分割したタイル画像毎に前記タイル画像の情報を圧縮するエンコーダーと、
    前記エンコーダーによって圧縮された前記タイル画像の情報を復元するデコーダーと、
    前記タイル画像が特定の画像であるか否かを判定する特定画像判定部と
    を備え、
    前記セグメンテーション画像生成部は、
    前記タイル画像が前記特定の画像であると前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記特定の画像を使用し、
    前記タイル画像が前記特定の画像ではないと前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記デコーダーの出力画像を使用することを特徴とする画像処理システム。
  2. 前記特定画像判定部は、前記エンコーダーの出力に基づいて前記タイル画像が前記特定の画像であるか否かを判定することを特徴とする請求項1に記載の画像処理システム。
  3. 手書きの部分が除去された画像を生成する除去処理部と、
    手書きの部分が強調された画像を生成する強調処理部と
    を備え、
    前記除去処理部は、前記確率が第1の閾値以上である画素の画像を除去し、
    前記強調処理部は、前記確率が前記第1の閾値より小さい第2の閾値以上である画素の画像を強調することを特徴とする請求項1または請求項2に記載の画像処理システム。
  4. 手書きである確率を画像の画素毎に判定する畳み込みニューラルネットワークと、
    前記畳み込みニューラルネットワークによる判定結果に基づいてセグメンテーション画像を生成するセグメンテーション画像生成部と
    をコンピューターに実現させ、
    前記畳み込みニューラルネットワークは、
    前記画像を特定のサイズに分割したタイル画像毎に前記タイル画像の情報を圧縮するエンコーダーと、
    前記エンコーダーによって圧縮された前記タイル画像の情報を復元するデコーダーと、
    前記タイル画像が特定の画像であるか否かを判定する特定画像判定部と
    を備え、
    前記セグメンテーション画像生成部は、
    前記タイル画像が前記特定の画像であると前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記特定の画像を使用し、
    前記タイル画像が前記特定の画像ではないと前記特定画像判定部によって判定された場合に、前記セグメンテーション画像のうち、このタイル画像に対応する部分の画像として、前記デコーダーの出力画像を使用することを特徴とする画像処理プログラム。
JP2020022093A 2020-02-13 2020-02-13 画像処理システムおよび画像処理プログラム Active JP7417192B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020022093A JP7417192B2 (ja) 2020-02-13 2020-02-13 画像処理システムおよび画像処理プログラム
US17/172,253 US11496644B2 (en) 2020-02-13 2021-02-10 Image processing system and non-transitory computer-readable recording medium having stored thereon image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020022093A JP7417192B2 (ja) 2020-02-13 2020-02-13 画像処理システムおよび画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2021128488A true JP2021128488A (ja) 2021-09-02
JP7417192B2 JP7417192B2 (ja) 2024-01-18

Family

ID=77273143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020022093A Active JP7417192B2 (ja) 2020-02-13 2020-02-13 画像処理システムおよび画像処理プログラム

Country Status (2)

Country Link
US (1) US11496644B2 (ja)
JP (1) JP7417192B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7282314B2 (ja) * 2019-08-29 2023-05-29 京セラドキュメントソリューションズ株式会社 画像処理装置、画像処理方法及び画像処理プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020017274A (ja) * 2018-07-19 2020-01-30 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120297B2 (en) * 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
JP2005276188A (ja) 2004-02-26 2005-10-06 Yokohama Tlo Co Ltd 手書き文字除去画像処理装置、及び手書き文字除去画像処理方法
JP6822359B2 (ja) 2017-09-20 2021-01-27 京セラドキュメントソリューションズ株式会社 画像形成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020017274A (ja) * 2018-07-19 2020-01-30 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PALOMA G. S. SILVA 等: "Speeding-up the Handwritten Signature Segmentation Process through an Optimized Fully Convolutional", 2019 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), JPN6023050013, 25 September 2019 (2019-09-25), US, pages 1417 - 1423, XP033701284, ISSN: 0005213073, DOI: 10.1109/ICDAR.2019.00228 *
山本 祐美 等: "ホワイトボードからの文字抽出手法の検討", 情報処理学会 研究報告 数理モデル化と問題解決(MPS) 2019−MPS−126, JPN6023050014, 4 December 2019 (2019-12-04), JP, pages 1 - 4, ISSN: 0005213074 *

Also Published As

Publication number Publication date
JP7417192B2 (ja) 2024-01-18
US11496644B2 (en) 2022-11-08
US20210258447A1 (en) 2021-08-19

Similar Documents

Publication Publication Date Title
JP4745830B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP5699623B2 (ja) 画像処理装置、画像処理システム、画像処理方法、および、プログラム
US8131081B2 (en) Image processing apparatus, and computer program product
US20060010116A1 (en) Image processing system and image processing method
JP2011008549A (ja) 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
JP2019057174A (ja) スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
US20220319215A1 (en) Image processing method, device, electronic apparatus, and storage medium
US11496644B2 (en) Image processing system and non-transitory computer-readable recording medium having stored thereon image processing program
JP4544315B2 (ja) 紙文書処理装置及びプログラム
JP4419893B2 (ja) 画像処理装置及び画像処理方法
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP4396710B2 (ja) 画像処理装置、画像処理装置の制御方法、および画像処理装置の制御プログラム
JP2012049860A (ja) 画像処理装置、画像処理方法およびプログラム
JP2015177265A (ja) 画像処理装置、画像処理システム、情報記憶方法およびプログラム
US20240062567A1 (en) Learning Image Generation Apparatus, Learning Image Generation Method, And Non-Transitory Computer-Readable Recording Medium
JP2015159427A (ja) 画像読取装置、画像読取装置の制御方法及び制御プログラム
JP2013172260A (ja) 画像処理装置及びプログラム
JP7452060B2 (ja) 情報処理装置及びプログラム
JP7342518B2 (ja) 画像処理装置及び画像処理プログラム
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JP2011070327A (ja) 画像属性判定装置、画像属性判定方法および画像属性判定プログラム
JP2008181383A (ja) 文字認識装置、文字認識装置の制御方法、および文字認識装置の制御プログラム
JP2022015969A (ja) データ生成システムおよびデータ生成プログラム
JP2009071781A (ja) 画像処理装置及び画像処理プログラム
JP2021117649A (ja) 画像処理装置および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231219

R150 Certificate of patent or registration of utility model

Ref document number: 7417192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150