JP2020170309A - 画像処理システム、画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理システム、画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2020170309A
JP2020170309A JP2019070710A JP2019070710A JP2020170309A JP 2020170309 A JP2020170309 A JP 2020170309A JP 2019070710 A JP2019070710 A JP 2019070710A JP 2019070710 A JP2019070710 A JP 2019070710A JP 2020170309 A JP2020170309 A JP 2020170309A
Authority
JP
Japan
Prior art keywords
image
font
conversion
characters
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019070710A
Other languages
English (en)
Inventor
啓水 奥間
Hiromi Okuma
啓水 奥間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019070710A priority Critical patent/JP2020170309A/ja
Priority to US16/830,042 priority patent/US11521365B2/en
Publication of JP2020170309A publication Critical patent/JP2020170309A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】処理対象の画像に使用されているフォントによらずOCRの認識精度を向上させる。【解決手段】画像形成装置100は、原稿をスキャンして得られたスキャン画像を取得し、サーバ101へ送信する。サーバ101は、スキャン画像の中で文字を含む文字領域を抽出する。更に、サーバ101は、入力された画像内のOCR非推奨フォント(第1フォント)の文字をOCR推奨フォント(第2フォント)の文字に変換するように予め学習が行われた学習済モデルを用いて、スキャン画像に対して、抽出された文字領域に含まれる文字のフォントをOCR非推奨フォントからOCR推奨フォントに変換する変換処理を行う。画像形成装置100は、変換後のスキャン画像をサーバ101から受信し、受信したスキャン画像に対してOCRを実行する。【選択図】図5

Description

本発明は、画像処理システム、画像処理装置、画像処理方法、及びプログラムに関するものである。
原稿の画像をスキャナで読み取り、得られたスキャン画像内の文字をコード化する技術としてOCR(Optional Character Recognition/Reader)が知られている。OCRでは、印刷された文字をスキャナで光学的に読み取り、予め記憶されたフォントの文字形状(OCR推奨フォント)との照合により文字情報を特定する。そのため、記憶されていないフォントの文字(OCR非推奨フォント)が読み取られた場合、文字形状の照合を正しく行うことができずに文字情報の誤認識が生じ、OCRの認識精度が低下する課題がある。
上記の課題を解決するため、画像のプリント出力前に、当該画像内の文字のフォントをOCR非推奨フォントからOCR推奨フォントに変換することでOCR精度を高める技術が知られている。特許文献1では、印刷用のPDLデータ内のフォント情報をOCR推奨フォントのフォント情報に書き換えた後に、当該PDLデータからラスタ画像を生成してプリント出力することで、OCRの認識精度を高めている。
特開2007−166287号公報 特開2013−182512号公報
An End-To-End Deep Chinese Font Generation System(http://www.icst.pku.edu.cn/zlian/SA2017-DCFont/) ImageNet Classification with Deep Convolutional Neural Networks(https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf)
上述の従来技術では、プリント出力前の画像に使用されるフォントをOCRに適したフォントに変換することで、プリント出力された画像に対するOCRの認識精度を高められる。しかし、既にプリント出力された画像にOCRに適さないフォントの文字が含まれる場合、そのような画像に対するOCRの認識精度を高めることはできない。
本発明は、上述の課題に鑑みてなされたものである。本発明は、処理対象の画像に使用されているフォントによらずOCRの認識精度を向上させる技術を提供することを目的とする。
本発明の一態様に係る画像処理システムは、原稿をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、入力された画像内の第1フォントの文字を第2フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第1フォントから前記第2フォントに変換する変換処理を行う変換手段と、前記変換手段による変換後の前記スキャン画像に対してOCRを実行する実行手段と、を備えることを特徴とする。
本発明によれば、処理対象の画像に使用されているフォントによらずOCRの認識精度を向上させることが可能になる。
画像処理システムの構成例を示す図。 画像形成装置のハードウェア構成例を示すブロック図。 サーバのハードウェア構成例を示すブロック図。 情報端末のハードウェア構成例を示すブロック図。 画像処理システムの機能構成例及び動作例を示す図。 学習データの生成処理の手順を示すフローチャート。 学習データとして用いられる学習用画像の一例を示す図。 学習データの保存用のデータベースの一例を示す図。 フォント変換の学習処理を示すフローチャート。 OCR処理の手順を示すフローチャート。 フォント変換処理の手順を示すフローチャート。 スキャン画像及び当該スキャン画像内の文字領域の一例を示す図。 フォント変換の一例を示す図。 文字が劣化した画像の一例を示す図。 学習データとして用いられる学習用画像の一例を示す図。 学習データの保存用のデータベースの一例を示す図。 フォント変換の一例を示す図。 フォント変換処理の手順を示すフローチャート。 学習データを保存用のデータベースの一例を示す図。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一又は同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1実施形態]
第1実施形態では、シートに印刷された画像に対してOCRを行う際に、当該画像に含まれる文字のフォント(文字形状)をOCR推奨フォントに変換してからOCR処理を実行することで、OCRの認識精度を向上させる例について説明する。
<画像処理システムの構成>
図1は、本実施形態に係る画像処理システムの全体の構成例を示す図である。本画像処理システムは、画像形成装置(画像処理装置)100、サーバ(サーバ装置)101、及び情報端末102で構成され、有線LAN等のネットワーク103を介して相互に接続されている。サーバ101は、ネットワーク103を介して画像形成装置100及び情報端末102のそれぞれと通信可能である。なお、本画像処理システムには、任意の数の画像形成装置100、及び任意の数の情報端末102が存在しうる。
<画像形成装置の構成>
図2は、本実施形態に係る画像形成装置100のハードウェア構成例を示すブロック図である。画像形成装置100は、CPU201、RAM202、ROM203、ネットワークI/F(インタフェース)204、スキャナ部(読取部)205、印刷部206、操作部207、及びHDD208を有する。画像形成装置100内のこれらのデバイスは、システムバス209に接続されている。
CPU201は、画像形成装置100全体の制御を行う。CPU201は、ROM203又はHDD208等の記憶装置に格納されたプログラムをRAM202に読み出して実行することで、各種処理を実行する。ROM203は、CPU201を起動するためのプログラムを含む各種プログラムを格納している。RAM202は、CPU201が動作するためのシステムワークメモリとして用いられ、画像データを一時的に保存するためのメモリとしても用いられる。HDD208は、画像データ等の各種データを保存するために用いられる不揮発性記憶装置である。
ネットワークI/F204は、ネットワーク103に接続され、外部装置との通信を行う通信I/Fとして機能する。スキャナ部205は、原稿の画像を読み取ってスキャン画像データを生成する。印刷部206は、入力された画像データに基づいてシートに画像を印刷(出力)する。操作部207は、各種情報を表示する表示部、及びユーザの操作を受け付ける入力部で構成される。入力部は、例えば表示部と一体化したタッチパネル、及び各種スイッチで構成される。
<サーバ及び情報端末の構成>
図3は、本実施形態に係るサーバ101のハードウェア構成例を示すブロック図である。サーバ101は、CPU301、RAM302、ROM303、ネットワークI/F304、キーボードI/F305、ディスプレイI/F306、外部メモリI/F307、及びマウスI/F308を有する。サーバ101内のこれらのデバイスは、システムバス313に接続されている。キーボードI/F305、ディスプレイI/F306、外部メモリI/F307、及びマウスI/F308には、それぞれ、キーボード309、ディスプレイ310、HDD等の外部メモリ311、及びマウス312が接続される。
CPU301は、サーバ101全体の制御を行う。CPU301は、ROM303又は外部メモリ311等の記憶装置に格納されたプログラムをRAM302に読み出して実行することで、各種処理を実行する。即ち、CPU301は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップの処理を実行する処理部として機能しうる。ROM303は、CPU301を起動するためのプログラムを含む各種データを格納している。RAM302は、CPU301が動作するためのシステムワークメモリとして用いられる。
図4は、本実施形態に係る情報端末102のハードウェア構成例を示すブロック図である。情報端末102は、CPU401、RAM402、ROM403、ネットワークI/F404、キーボードI/F405、ディスプレイI/F406、外部メモリI/F407、及びマウスI/F408を有する。情報端末102内のこれらのデバイスは、システムバス413に接続されている。キーボードI/F405、ディスプレイI/F406、外部メモリI/F407、及びマウスI/F408には、それぞれ、キーボード409、ディスプレイ410、HDD等の外部メモリ411、及びマウス412が接続される。
CPU401は、情報端末102全体の制御を行う。CPU401は、ROM403又は外部メモリ411等の記憶装置に格納されたプログラムをRAM402に読み出して実行することで、各種処理を実行する。即ち、CPU401は、コンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各ステップの処理を実行する処理部として機能しうる。ROM403は、CPU401を起動するためのプログラムを含む各種データを格納している。RAM402は、CPU401が動作するためのシステムワークメモリとして用いられる。
<画像処理システムの動作>
図5は、本実施形態に係る画像処理システムの機能構成及び動作の例を示す図である。画像処理システムにおいて実行される処理は、大きく分けて2つの処理で構成される。具体的には、これら2つの処理は、フォント変換を学習する学習処理(図5(A))と、フォント変換を適用してOCRを実行するOCR処理(図5(B))である。
図5(A)に示される学習処理は、サーバ101に配置された学習データ生成部500及び変換学習部501によって実行される。学習データ生成部500は、まず、情報端末102等の外部装置から複数の学習用画像510を受信する。学習用画像510は、情報端末102において動作するアプリケーションから送信される画像である。例えば、学習用画像510は、OCR非推奨フォントを用いて印刷された画像と、OCR推奨フォントを用いて印刷された画像とを含む。
OCR推奨フォントは、OCRの認識精度が高く、OCRの対象となる画像内の文字に使用されることが推奨されるフォントである。一方、OCR非推奨フォントは、OCR推奨フォントよりもOCRによる文字の認識精度が低いフォントであり、OCRの対象となる画像内の文字に使用されることが推奨されないフォントである。本実施形態では、OCR非推奨フォントは第1フォント(第1文字形状)の一例であり、OCR推奨フォントは第2フォント(第2文字形状)の一例である。
学習データ生成部500は、受信し複数の学習用画像510に基づいて、学習データ511を生成する。生成される学習データ511は、OCR非推奨フォントを用いて印刷された画像と、OCR推奨フォントを用いて印刷された画像とをセットとして含む。生成された学習データ511は、学習データ生成部500から変換学習部501へ入力される。
変換学習部501は、学習データ511を用いて、処理対象の画像に含まれる文字のフォントを変換するための学習を行う。変換学習部501は、例えば非特許文献1に記載のような、画像内の文字を別の形状の文字へ変換するための既存のディープラーニング技術を使用する。非特許文献1では、あるフォントの文字画像とその手書き文字画像とのセットを学習データとして用いて、当該学習データを未学習モデルへ入力して学習を行うことにより、あるフォントの文字を手書き文字へ変換可能な学習済モデル(変換モデル)を生成する。この学習済モデルに対して任意の文字画像を入力することにより、入力された文字画像が、手書きで書かれたような文字画像へ変換される。
本実施形態では、変換学習部501は、あるフォントの文字画像と別のフォントの文字画像とをセットとして含む学習データ511を、未学習モデルへ入力して学習を行う。これにより、変換学習部501は、処理対象の画像内のあるフォントの文字を別のフォントの文字へ変換可能な学習済モデル512を生成する。この学習済モデル512は、入力された画像内のOCR非推奨フォント(第1フォント)の文字をOCR推奨フォント(第2フォント)の文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルに相当する。
図5(B)に示されるOCR処理は、画像形成装置100に配置されたOCR処理部503と、サーバ101に配置されたフォント変換部502によって実行される。まず、画像形成装置100のOCR処理部503は、シート原稿(原稿)513の画像をスキャナ部205により読み取って(スキャンして)得られた画像(スキャン画像)を、サーバ101へ送信する。原稿513は、フォント変換前の画像514としてサーバ101へ送信される。
サーバ101は、フォント変換前の画像514を受信した後、当該画像514をフォント変換部502へ入力する。フォント変換部502は、前述の変換学習部501によって生成された学習済モデル512を取得し、フォント変換前の画像514を学習済モデル512へ入力する。これにより、学習済モデル512は、入力されたフォント変換前の画像514を、フォント変換後の画像515に変換して出力する。サーバ101は、フォント変換部502から出力されたフォント変換後の画像515を、画像形成装置100へ送信する。
画像形成装置100は、サーバ101からフォント変換後の画像515を受信した後、当該画像515をOCR処理部503へ入力する。OCR処理部503は、フォント変換後の画像515に対してOCRを実行することにより、OCR結果516を出力する。OCR結果516は、例えば、テキストファイル形式、又はスキャン画像とOCRにより得られた文字情報とが1つのファイルとして保存されたPDF(Portable Document Format)ファイル形式で出力される。
<学習データの生成処理>
図6は、サーバ101における、学習データ生成部500による学習データの生成処理の手順を示すフローチャートである。図6の各ステップの処理は、ROM303、RAM302又は外部メモリ311に格納されたプログラムをCPU301が実行することによって実現されうる。
S600で、CPU301(学習データ生成部500)は、情報端末102から送信された複数の学習用画像510を受信することで、複数の学習用画像510を取得する。サーバ101は、図7に示されるような、OCR推奨フォントで印刷された画像700と、画像700に対応する、OCR非推奨フォントで印刷された画像701とを、学習用画像510として受信する。なお、サーバ101は、情報端末102から学習用画像510を受信する以外に、サーバ101内で学習用画像510を生成してもよい。
本実施形態の学習用画像510は、図7の画像700及び701のように、画像内に文字が一文字だけ含まれる画像である。各画像は、文字コード表において表現される漢字、カタカナ、ひらがな、句読点等の記号が文字として印刷された画像である。画像700及び701のうち、一方の画像内の文字の位置が、他方の画像内の文字の位置に対してずれたり傾いたりせずに、両画像内の文字の位置が合っていることが望ましい。
次にS601で、CPU301は、S600で取得した学習用画像510に基づいて学習データ511を生成し、生成した学習データ511を外部メモリ311に保存し、処理を終了する。ここで、図8は、サーバ101において外部メモリ311に設けられる、学習データ511の保存用のデータベース(DB)の例を示す図である。DB800は、識別子(ID)801のフィールド、変換前画像802のフィールド、及び正解画像803のフィールドで構成される。
本実施形態では、CPU301は、学習用画像510として取得した、OCR推奨フォントで印刷された画像700と、OCR非推奨フォントで印刷された、対応する画像701とのセットを含む学習データ511を生成し、DB800に保存する。OCR推奨フォントで印刷された画像700は、変換前画像802としてDB800に保存される。また、OCR非推奨フォントで印刷された画像701は、対応する正解画像803としてDB800に保存される。
より具体的には、図8に示されるように、1つの画像700と対応する1つの画像701とのセットにID801が付与されて、当該セットが1つのデータ項目としてDB800に格納される。その際、画像700は変換前画像802として、画像701は正解画像803としてDB800に格納される。ID801は、変換前画像802と正解画像803との異なるセットを識別するために、各セットに付与される。このように、変換前画像802のフィールドは、OCR非推奨フォントを用いて印刷された画像を保持するために用いられる。また、正解画像803のフィールドは、OCR推奨フォントを用いて印刷された画像を保持するために用いられる。DB800に格納されたデータは、変換学習部501による学習に用いられる学習データ511を構成する。
本実施形態では、変換前画像802は、OCR非推奨フォント(第1フォント)で表された文字を含む第1画像の一例である。また、正解画像803は、第1画像に含まれる文字と同じ文字であってOCR推奨フォント(第2フォント)で表された文字を含む第2画像の一例である。学習データ生成部500は、このような変換前画像802(第1画像)と正解画像803(第2画像)とを含む学習データ511を生成する。本実施形態では、図8に示されるように、学習データ生成部500は、それぞれ一文字だけ含む変換前画像802と正解画像803とを含む学習データ511を生成する。
<フォント変換の学習処理>
図9は、サーバ101における、変換学習部501によるフォント変換の学習処理の手順を示すフローチャートである。図9の各ステップの処理は、ROM303、RAM302又は外部メモリ311に格納されたプログラムをCPU301が実行することによって実現されうる。変換学習部501は、学習データ生成部500によって生成された学習データ511に基づく学習を行うことで、変換モデルである学習済モデルを生成する。
まずS900で、CPU301(変換学習部501)は、DB800から学習データを取得する。図8に示されるように、DB800から取得される学習データは、変換前画像802と対応する正解画像803とで各セットが構成される複数のセットを含む。次にS901で、CPU301は、取得した学習データを未学習モデル(又は学習中のモデル)に入力して、フォント変換の学習を行う。学習データの入力対象の学習モデルでは、入力された学習データに基づいて、変換前画像802(OCR非推奨フォントを用いて印刷された画像)を正解画像803(OCR推奨フォントを用いて印刷された画像)へ変換するための学習が行われる。
その後S902で、CPU301は、学習が終了したか否か判定する。本例では、CPU301は、学習の実行回数が予め指定された学習回数に達したか否かを判定する。CPU301は、実行回数が学習回数に達した場合には学習が終了したと判定し、S903へ処理を進め、実行回数が学習回数に達していない場合には学習が終了していないと判定し、S900へ処理を戻す。
学習回数は、DB800に保存されている各画像を学習に使用する回数である。一例として、DB800に保存されている全ての画像について同一の学習回数が予め指定されるが、画像ごとに異なる学習回数が指定されてもよい。例えば、図7及び図8に示されるように、画像内に文字が一文字だけ含まれる画像を用いて学習を行う場合、学習用画像として使用される画像の数は、ひらがな、カタカナ及び句読点のような文字の画像よりも漢字の画像の方が非常に多くなる。このため、学習の結果、漢字のフォントの変換精度が相対的に高く、ひらがな及びカタカナのフォントの変換精度が相対的に低い学習済モデルが生成される可能性がある。この場合、ひらがな、カタカナ、及び句読点のような記号についての学習回数を多く設定し、漢字の学習回数を少なく設定してもよい。
S903で、CPU301は、S901における学習により得られたモデルを、学習済モデル512として外部メモリ311に保存し、処理を終了する。
<OCR処理及びフォント変換処理>
図10は、画像形成装置100における、OCR処理部503によるOCR処理の手順を示すフローチャートである。図10の各ステップの処理は、画像形成装置100において、ROM203、RAM202又はHDD208に格納されたプログラムをCPU201が実行することによって実現されうる。また、図11は、サーバ101における、フォント変換部502によって実行されるフォント変換処理の手順を示すフローチャートである。図11の各ステップの処理は、サーバ101において、ROM303、RAM302又は外部メモリ311に格納されたプログラムをCPU301が実行することによって実現されうる。
(画像形成装置100の処理)
以下の処理において、画像形成装置100は、OCR処理部503によって取得されたスキャン画像をサーバ101へ送信し、フォント変換部502による変換後のスキャン画像をサーバ101から受信する。画像形成装置100では、OCR処理部503は、サーバ101から受信されたスキャン画像に対してOCRを実行する。
まずS1000で、CPU201(OCR処理部503)は、原稿513の画像をスキャナ部205により読み取ることでスキャン画像を取得する。ここでは、一例として、図12(A)に示されるスキャン画像が得られた場合について説明する。
その後S1001で、CPU201は、スキャン画像をサーバ101へ送信する。サーバ101では、送信されたスキャン画像に対してフォント変換処理が実行され、当該処理の結果として、フォント変換後の画像がサーバ101から画像形成装置100へ送信される。そこで、CPU201は、S1002で、フォント変換後の画像をサーバ101から受信したか否かを判定することで、サーバ101からフォント変換後の画像を受信するまで待機する。
(サーバ101の処理)
サーバ101側では、S1100で、CPU301(フォント変換部502)は、S1001で画像形成装置100から送信されるスキャン画像を、フォント変換前の画像514として受信する。フォント変換前の画像514の受信後、S1101で、CPU301は、受信された画像に対して像域分離処理を実行することで、受信された画像から文字領域を抽出する。例えば、画像形成装置100から受信された、図12(A)の画像に対して像域分離処理が実行されると、図12(B)において点線枠で示される領域が、文字領域1200,1201,1202として抽出される。
次にS1102で、CPU301は、S1101で抽出された文字領域から所定サイズの領域を順に切り出し、S1103へ処理を進める。本実施形態では、所定サイズの領域は、一文字を含む領域である。即ち、CPU301は、S1102において、文字領域から一文字ずつ各文字を切り出す。文字の切り出しには、既存の文字切り出し技術(例えば特許文献2)を使用可能である。例えば、図13(A)に示される文字領域1200に対して文字の切り出しを行うと、図13(B)において点線枠で示されるような、文字ごとの文字画像が得られる。
S1103で、CPU301は、処理対象の文字領域から切り出した画像(本実施形態では文字画像)を学習済モデル512へ入力する。これにより、CPU301は、入力した画像に対応する、フォント変換後(入力した画像に含まれる文字のフォントの変換後)の画像を生成し、S1104へ処理を進める。このように本実施形態では、CPU301(フォント変換部502)は、文字領域に含まれる文字を一文字ずつ順に切り出し、切り出した文字の画像を学習済モデル512に入力することで変換処理を行う。なお、S1103では、S903で外部メモリ311に保存された学習済モデル512が読み出されて使用される。
S1104で、CPU301は、フォント変換前の画像内で、切り出した行われた領域(切り出された文字)を、S1103で得られたフォント変換後の画像で置き換える。その後S1105で、CPU301は、フォント変換処理が完了したか否かを判定する。具体的には、CPU301は、S1101で抽出された全ての文字領域に含まれる文字について、S1102〜S1104の処理が完了(即ち、全ての文字領域に含まれる文字についてフォント変換後の文字への置き換えが完了)したか否かを判定する。CPU301は、フォント変換処理が完了していないと判定した場合、S1102へ処理を戻し、別の文字領域を処理対象として、S1102〜S1104の処理を再び実行する。
CPU301は、フォント変換処理が完了していないと判定した場合、S1105からS1106へ処理を進める。フォント変換処理が完了した場合、図13(C)に示されるように、全ての文字領域1200,1201,1202に含まれる文字のフォントが変換された画像が得られる。S1106で、CPU301は、S1100で受信された画像に対応するフォント変換後の画像を画像形成装置100へ送信し、処理を終了する。
(画像形成装置100の処理)
図10のフローチャートの説明に戻り、CPU201は、フォント変換後の画像をサーバ101から受信すると、S1002からS1003へ処理を進める。S1003で、CPU201は、受信したフォント変換後の画像に対してOCRを実行する。これにより、スキャン画像内に含まれる文字情報が得られる。
その後S1004で、CPU201は、OCR結果を出力し、OCR処理を終了する。OCR結果は、例えば、テキストファイル形式又はPDFファイル形式で出力される。CPU201は、テキストファイルを出力する場合、S1003で得られた文字情報をテキストファイルへ書き込む。また、CPU201は、PDFファイルを出力する場合、S1000で取得したスキャン画像と、S1003で得られた文字情報とを合わせてPDFファイルへ書き込む。
以上説明したように、本実施形態では、画像形成装置100(OCR処理部503)は、原稿をスキャンして得られたスキャン画像を取得し、サーバ101へ送信する。サーバ101(フォント変換部502)は、スキャン画像の中で文字を含む文字領域を抽出する。更に、サーバ101(フォント変換部502)は、スキャン画像に対して、抽出された文字領域に含まれる文字のフォントをOCR非推奨フォント(第1フォント)からOCR推奨フォント(第2フォント)に変換する変換処理を行う。この変換処理には、入力された画像内のOCR非推奨フォント(第1フォント)の文字をOCR推奨フォント(第2フォント)の文字に変換するように予め学習が行われた学習済モデルが用いられる。画像形成装置101は、変換後のスキャン画像をサーバ101から受信し、受信したスキャン画像に対してOCRを実行する。
より具体的には、サーバ101は、OCR非推奨フォントを用いて印刷された画像とOCR推奨フォントを用いて印刷された画像とのセットを学習データとして生成し、当該学習データに基づく学習を行う。これにより、未知のOCR非推奨フォントを用いて印刷された画像を、OCR推奨フォントを用いて印刷された画像に変換できる。更に、変換後の画像に対してOCRを実行することで、OCRの認識精度を高めることができる。即ち、処理対象の画像に使用されているフォントによらずOCRの認識精度を向上させることが可能になる。
本実施形態では、学習データ生成部500、変換学習部501、及びフォント変換部502をサーバ101に配置する例について説明したが、これら全てを画像形成装置100に配置することも可能である。即ち、図5(A)に示される学習処理と図5(B)に示されるOCR処理とを、全て画像形成装置100上で実行することも可能である。即ち、画像形成装置100を、学習データ生成部500、変換学習部501、フォント変換部502、及びOCR処理部503を備えるように構成することも可能である。
また、本実施形態では、ある一種類のOCR非推奨フォントを用いて印刷された画像と、ある一種類のOCR推奨フォントを用いて印刷された画像とのセットを学習データとして使用する例について説明した。しかし、一種類のOCR非推奨フォントではなく、異なる複数の種類のOCR非推奨フォントを用いて印刷された画像を用いて学習データを生成してもよい。即ち、異なる複数の種類のOCR非推奨フォントを用いて印刷された画像から、ある一種類のOCR推奨フォントを用いて印刷された画像へ変換可能な学習済モデルを生成してもよい。これにより、スキャン対象の原稿の画像に、複数の種類のOCR非推奨フォントの文字が含まれていた場合でも、それら全ての種類のOCR非推奨フォントについて学習済みであれば、各文字のフォントをある一種類のOCR推奨フォントに変換可能になる。
また、変換前画像802として用いられる画像は、OCR推奨フォントを用いて印刷された画像が劣化した画像であってもよい。即ち、学習データ生成部500は、変換前画像802として、正解画像803に含まれるOCR推奨フォントで表された文字が劣化した状態に変化した文字を含む画像を用いて、変換前画像802と正解画像803とのセットを含む学習データを生成してもよい。
例えば、図14に示されるように、OCR推奨フォントを用いて印刷された画像に含まれる各文字が、FAX送信により潰れた状態に変化した画像が、変換前画像802として用いられてもよい。FAX送信により潰れた状態に変化した文字は、OCR推奨フォントで印刷された文字であっても形状が大きく変化しているため、OCRによるこのような文字の認識精度は一般的に低下する。この場合、FAX送信による潰れた状態に変化した文字の画像を変換前画像802として、FAX送信前の文字の画像を正解画像803として用いて学習を行ってもよい。このような学習により、FAX送信による潰れた状態に変化した文字を、FAX送信前の(潰れた状態に変化する前の)文字に変換可能な学習済モデルを生成できる。また、生成した学習済モデルを用いてフォント変換及びOCRを実行することで、OCRの認識精度を高めることが可能になる。
[第2実施形態]
第1実施形態では、変換学習部501による学習に用いられる学習用画像として、画像内に文字が一文字だけ含まれる画像を用いる例を説明した。第2実施形態では、画像内に複数の文字が含まれる画像を学習用画像として用いる例について説明する。以下では、第1実施形態と共通する部分については説明を省略し、異なる部分について説明する。
<学習データの生成処理>
本実施形態において、学習データ生成部500は、第1実施形態と同様、図6に示す手順に従って学習データの生成処理を実行する。本実施形態では、学習データ生成部500は、それぞれ複数の文字を含む変換前画像802(第1画像)と正解画像803(第2画像)とのセットを含む学習データ511を生成する。
まずS600で、学習データ生成部500(CPU301)は、情報端末102から送信された文章画像を受信し、受信した文章画像に基づいて複数の学習用画像を取得する。図15(A)は、情報端末102から送信される学習用の文章画像のペアの例を示している。画像1500は、OCR推奨フォントで表された文章を含む第1文章画像であり、画像1501は、画像1500に対応する、OCR非推奨フォントで表された文章を含む第2文章画像である。S600で、学習データ生成部500は、画像1500及び1501のような学習用の文章画像のペアから、図15(B)に示される画像1510及び1511のような画像を切り出す処理を行うことで、学習用画像を生成する。
このように、OCR推奨フォントを用いて印刷された第1文章画像と、OCR非推奨フォントを用いて印刷された、対応する第2文章画像とのペアが受信され、学習用画像の生成に使用される。学習データ生成部500は、第1文章画像と第2文章画像とのそれぞれにおいて、所定サイズの(同じ位置に相当する)領域を切り出して部分画像を得る。学習データ生成部500は、このような部分画像の切り出しを、第1文章画像と第2文章画像とのそれぞれにおいて、1回ごとに異なる領域を対象として複数回にわたって行う。これにより、変換前画像802(第1画像)と正解画像803(第2画像)として用いられる部分画像を学習用画像として生成する。受信した文書画像に含まれる全ての文字が、取得される複数の部分画像のいずれかに含まれるように、このような切り出し処理が行われうる。
なお、S1600では、それぞれ異なる文書(文字)を含む複数の文書画像が情報端末102から受信され、学習用画像の生成に使用されてもよい。また、情報端末102から受信される文書画像は、どのような文書を含む画像であってもよいが、OCRが行われる頻度の高い文書を含む画像であることが望ましい。また、上述の切り出し処理の実行回数は、例えば、文章画像に含まれる文字数に応じて定められてもよい。
次にS601で、CPU301は、S600で取得した学習用画像に基づいて学習データ511を生成し、生成した学習データ511を外部メモリ311に保存し、処理を終了する。ここで、図16は、本実施形態に係る、サーバ101において外部メモリ311に設けられる、学習データ511の保存用のDBの例を示す図である。本実施形態では、DB1600には、第1実施形態のDB800と異なり、変換前画像802及び正解画像803として、S600で生成された、複数の文字を含む画像(例えば、画像1500及び1501)が、学習データ511として格納される。
<フォント変換の学習処理>
本実施形態において、変換学習部501は、第1実施形態と同様、図9に示す手順に従ってフォント変換の学習処理を実行する。変換学習部501は、DB1600に保存されている学習データ511を未学習モデル(又は学習中のモデル)に入力する(S900)。これにより、変換学習部501は、複数の文字を含む画像に対して、OCR非推奨フォントからOCR推奨フォントへのフォント変換を行うことが可能な学習済モデルを生成し、生成した学習済モデルを外部メモリ311に保存する(S903)。
<OCR処理及びフォント変換処理>
本実施形態では、画像形成装置100のOCR処理部503は、第1実施形態と同様、図10に示される手順に従ってOCR処理を実行する。また、サーバ101のフォント変換部502は、第1実施形態と同様、図11に示される手順に従ってフォント変換処理を実行する。
ただし、本実施形態では、フォント変換部502(CPU301)は、S1102において、S1101で抽出した文字領域から所定サイズの領域を順に切り出す際に、複数の文字を含むサイズの領域の切り出しを行う。例えば、フォント変換部502は、図17(A)に示される文字領域1200に対して切り出し行う場合、図17(B)において点線枠で示されるサイズの領域について、順に切り出しを行う。
その後、フォント変換部502は、S1103〜S1106において第1実施形態と同様の処理を行う。本実施形態のフォント変換処理が完了すると(S1105で「YES」)、第1実施形態と同様、図13(C)に示されるような、全ての文字領域1200,1201,1202に含まれる文字のフォントが変換された画像が得られる。フォント変換後の画像は、サーバ101から画像形成装置100へ送信される。
OCR処理部503は、第1実施形態と同様、サーバ101から受信したフォント変換後の画像に対してOCRを実行し(S1003)、OCR結果を出力し(S1004)、処理を終了する。
以上説明したように、本実施形態では、フォント変換部502は、スキャン画像から抽出された文字領域から所定サイズの領域を順に切り出し、切り出した領域の画像を学習済モデル512に入力することでフォント変換処理を行う。本実施形態によれば、第1実施形態で必要であった、文字領域から一文字ずつ文字を切り出す処理が不要となる。
[第3実施形態]
第1実施形態では、スキャン画像に含まれる文字のフォントをOCR推奨フォントへ変換する例を説明した。しかし、実際のスキャン画像には、種々のフォントを用いて印刷された文字が含まれうるため、フォント変換前の文字が、既にOCR推奨フォントの文字である場合もありうる。本実施形態では、既にOCR推奨フォントを用いて印刷された文字についてフォント変換を行わないようにすることで、フォント変換処理に要する時間を短縮する。以下では、第1実施形態と共通する部分については説明を省略し、異なる部分について説明する。
<フォント変換処理>
本実施形態では、サーバ101のフォント変換部502は、図18に示される手順に従ってフォント変換処理を実行する。図18のフローチャートは、S1102とS1103との間にS1800が追加されている点で、第1実施形態における図11のフローチャートと異なっている。
本実施形態では、フォント変換部502(CPU301)は、S1102で、S1101で抽出された文字領域から所定サイズの領域を順に切り出した後、S1800へ処理を進める。
S1800で、フォント変換部502は、切り出し領域が、フォント変換の対象領域であるか否かを判定する。具体的には、フォント変換部502は、切り出し領域にOCR非推奨フォントの文字が含まれる場合には、切り出し領域がフォント変換の対象領域であると判定し、S1103へ処理を進める。一方、フォント変換部502は、切り出し領域にOCR非推奨フォントの文字が含まれない場合には、切り出し領域がフォント変換の対象領域ではないと判定し、S1102へ処理を戻す。
S1800の判定処理は、例えば、非特許文献2に記載のような、ディープラーニングを用いた画像分類技術を用いて実現できる。非特許文献2では、入力画像が、予め定義された数百種類のカテゴリのうちでどのカテゴリに分類されるかを、学習済モデルを用いて判定する。学習済モデルは、画像とともに、画像のカテゴリをタグ情報としてセットで用いて学習を行うことによって生成される。
本実施形態では、文字を含む画像とともに、OCR推奨フォント又はOCR非推奨フォントをタグ情報としてセットで用いて学習を行うことで、学習済モデルを生成する。この学習済モデルに対して、文字を含む画像を入力すると、入力された画像がOCR推奨フォントを用いて印刷された画像であるか、OCR非推奨フォントを用いて印刷された画像であるかを判定できる。
以上説明したように、本実施形態では、フォント変換部502は、スキャン画像から抽出された文字領域に含まれる文字のうち、OCR推奨フォント(第2フォント)の文字に対してフォント変換処理を行わない。このように、OCR推奨フォントで印刷された画像に対してフォント変換処理を実行しないことにより、フォント変換処理に要する時間を短縮することが可能になる。
[第4実施形態]
OCR推奨フォントを用いて印刷された、劣化の無い画像に対してOCRを行った場合でも、文字の認識精度が低い場合がある。例えば、拗音又は促音を表す小文字(「っ」、「ょ」、「ャ」等)に対してOCRを行った場合に、このような文字が小文字ではなく大文字として誤認識される可能性がある。
そこで、第4実施形態では、小文字の正解画像として通常の文字サイズよりも小さいサイズの小文字を含む正解画像を生成し、生成した正解画像を学習データに含めて、フォント変換の学習処理に使用する。これにより、小文字のフォント変換において、通常の文字サイズよりも小さいサイズの文字への変換を行い、OCRによる小文字の認識精度を高めることを可能にする。以下では、第1実施形態と共通する部分については説明を省略し、異なる部分について説明する。
図19(A)は、第1実施形態におけるDB800に保存される学習データの例を示している。DB800に保存される変換前画像802及び正解画像803では、拗音又は促音を表す小文字は通常のサイズで含められている。一方、図19(B)は、本実施形態に係るDB1900を示している。DB1900には、小文字を含む正解画像として、図19(A)に示される正解画像1901に含まれる小文字よりもサイズの小さい小文字を含む正解画像1902が格納される。
以上説明したように、本実施形態では、変換前画像802(第1画像)に小文字が含まれる場合、正解画像803(第2画像)に含まれる小文字のサイズを、変換前画像802に含まれる小文字のサイズより小さくする。フォント変換の学習処理において上述のような学習データを用いることにより、小文字を含む画像を、通常の文字サイズよりも小さいサイズの文字を含む画像に変換する学習済モデルが生成される。更に、生成された学習済モデルを用いて、第1乃至第3実施形態のようにフォント変換を適用したOCR処理が行われる。これにより、OCRにおける小文字の認識精度を高めることが可能である。
[その他の実施形態]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上述の実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。したがって、発明の範囲を公にするために請求項を添付する。
100:画像形成装置、101:サーバ、102:情報端末

Claims (15)

  1. 原稿をスキャンして得られたスキャン画像を取得する取得手段と、
    前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、
    入力された画像内の第1フォントの文字を第2フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第1フォントから前記第2フォントに変換する変換処理を行う変換手段と、
    前記変換手段による変換後の前記スキャン画像に対してOCRを実行する実行手段と、
    を備えることを特徴とする画像処理システム。
  2. 前記第1フォントで表された文字を含む第1画像と、前記第1画像に含まれる文字と同じ文字であって前記第2フォントで表された文字を含む第2画像とのセットを含む学習データを生成する生成手段と、
    前記生成手段によって生成された前記学習データに基づく学習を行うことで前記変換モデルを生成する学習手段と、
    を更に備えることを特徴とする請求項1に記載の画像処理システム。
  3. 前記生成手段は、それぞれ一文字だけ含む前記第1画像と前記第2画像とのセットを含む学習データを生成し、
    前記変換手段は、前記文字領域に含まれる文字を一文字ずつ順に切り出し、切り出した文字の画像を前記変換モデルに入力することで前記変換処理を行う
    ことを特徴とする請求項2に記載の画像処理システム。
  4. 前記生成手段は、それぞれ複数の文字を含む前記第1画像と前記第2画像とのセットを含む学習データを生成し、
    前記変換手段は、前記文字領域から所定サイズの領域を順に切り出し、切り出した領域の画像を前記変換モデルに入力することで前記変換処理を行う
    ことを特徴とする請求項2に記載の画像処理システム。
  5. 前記生成手段は、前記第1フォントで表された文章を含む第1文章画像と前記第2フォントで表された文章を含む第2文章画像とのそれぞれの中で、前記所定サイズの領域を切り出すことで、前記第1画像と前記第2画像とのセットを生成する
    ことを特徴とする請求項4に記載の画像処理システム。
  6. 前記生成手段は、前記第1文章画像、及び前記第2文章画像の中で、1回ごとに異なる領域を対象として複数回にわたって前記所定サイズの領域を切り出すことで、前記第1画像と前記第2画像との複数のセットを生成する
    ことを特徴とする請求項5に記載の画像処理システム。
  7. 前記生成手段は、前記第1画像に小文字が含まれる場合、前記第2画像に含まれる小文字のサイズを、前記第1画像に含まれる小文字のサイズより小さくする
    ことを特徴とする請求項2から6のいずれか1項に記載の画像処理システム。
  8. 前記生成手段は、前記第1画像として、前記第2画像に含まれる前記第2フォントで表された文字が劣化した状態に変化した文字を含む画像を用いて、前記第1画像と前記第2画像とのセットを含む学習データを生成する
    ことを特徴とする請求項2から7のいずれか1項に記載の画像処理システム。
  9. 前記変換手段は、前記文字領域に含まれる文字のうち、前記第2フォントの文字に対して前記変換処理を行わない
    ことを特徴とする請求項1から8のいずれか1項に記載の画像処理システム。
  10. 前記第1フォントは、前記第2フォントよりも前記OCRによる文字の認識精度が低いフォントである
    ことを特徴とする請求項1から9のいずれか1項に記載の画像処理システム。
  11. 前記画像処理システムは、画像処理装置と前記画像処理装置と通信可能なサーバ装置とを備え、
    前記画像処理装置は、前記取得手段と前記実行手段とを含み、
    前記サーバ装置は、前記抽出手段と前記変換手段とを含む
    ことを特徴とする請求項1から10のいずれか1項に記載の画像処理システム。
  12. 前記画像処理装置は、前記取得手段によって取得された前記スキャン画像を前記サーバ装置へ送信し、前記変換手段による変換後の前記スキャン画像を前記サーバ装置から受信し、
    前記実行手段は、前記サーバ装置から受信された前記スキャン画像に対して前記OCRを実行する
    ことを特徴とする請求項11に記載の画像処理システム。
  13. 原稿をスキャンしてスキャン画像を生成する読取手段と、
    前記スキャン画像の中で文字を含む文字領域を抽出する抽出手段と、
    入力された画像内の第1フォントの文字を第2フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第1フォントから前記第2フォントに変換する処理を行う変換手段と、
    前記変換手段による変換後の前記スキャン画像に対してOCRを実行する実行手段と、
    を備えることを特徴とする画像処理装置。
  14. 画像処理方法であって、
    原稿をスキャンして得られたスキャン画像を取得する取得工程と、
    前記スキャン画像の中で文字を含む文字領域を抽出する抽出工程と、
    入力された画像内の第1フォントの文字を第2フォントの文字に変換して変換後の画像を出力するように予め学習が行われた変換モデルを用いて、前記スキャン画像に対して、前記抽出された文字領域に含まれる文字のフォントを前記第1フォントから前記第2フォントに変換する処理を行う変換工程と、
    前記変換工程での変換後の前記スキャン画像に対してOCRを実行する実行工程と、
    を含むことを特徴とする画像処理方法。
  15. 請求項14に記載の画像処理方法の各工程をコンピュータに実行させるためのプログラム。
JP2019070710A 2019-04-02 2019-04-02 画像処理システム、画像処理装置、画像処理方法、及びプログラム Pending JP2020170309A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019070710A JP2020170309A (ja) 2019-04-02 2019-04-02 画像処理システム、画像処理装置、画像処理方法、及びプログラム
US16/830,042 US11521365B2 (en) 2019-04-02 2020-03-25 Image processing system, image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019070710A JP2020170309A (ja) 2019-04-02 2019-04-02 画像処理システム、画像処理装置、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2020170309A true JP2020170309A (ja) 2020-10-15

Family

ID=72662646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019070710A Pending JP2020170309A (ja) 2019-04-02 2019-04-02 画像処理システム、画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US11521365B2 (ja)
JP (1) JP2020170309A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7208771B2 (ja) 2018-11-22 2023-01-19 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム、並びに、画像形成システム
JP7277128B2 (ja) * 2018-12-25 2023-05-18 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
JP2020170309A (ja) * 2019-04-02 2020-10-15 キヤノン株式会社 画像処理システム、画像処理装置、画像処理方法、及びプログラム
CN114330236A (zh) * 2021-12-29 2022-04-12 北京字跳网络技术有限公司 文字生成方法、装置、电子设备及存储介质
CN116343242B (zh) * 2023-05-30 2023-08-11 山东一品文化传媒有限公司 基于图像数据的试题实时批阅方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007166287A (ja) 2005-12-14 2007-06-28 Fuji Xerox Co Ltd 画像処理装置、および画像処理方法
JP2013182512A (ja) 2012-03-02 2013-09-12 Casio Comput Co Ltd 手書き文字処理装置およびプログラム
CN104462068B (zh) * 2013-09-12 2017-11-07 北大方正集团有限公司 字符转换系统和字符转换方法
US11843633B2 (en) * 2018-07-25 2023-12-12 Nippon Telegraph And Telephone Corporation Analysis device, analysis method, and analysis program
WO2020059527A1 (ja) * 2018-09-20 2020-03-26 富士フイルム株式会社 フォント作成装置、フォント作成方法及びフォント作成プログラム
JP2020170309A (ja) * 2019-04-02 2020-10-15 キヤノン株式会社 画像処理システム、画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
US20200320325A1 (en) 2020-10-08
US11521365B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
JP2020170309A (ja) 画像処理システム、画像処理装置、画像処理方法、及びプログラム
KR20190109732A (ko) 한자 인쇄 문자 이미지 합성 방법 및 장치
US20020135786A1 (en) Printing control interface system and method with handwriting discrimination capability
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
US20060285748A1 (en) Document processing device
US8508795B2 (en) Information processing apparatus, information processing method, and computer program product for inserting information into in image data
JP2020173808A (ja) ページ記述言語ジョブの解析によるニューラルネットワーク用光学式文字認識トレーニングデータの生成
KR102503880B1 (ko) 머신 판독 가능 보안 마크 및 이를 생성하는 프로세스
EP3540644B1 (en) Image processing device, image processing method, and image processing program
JP2021043650A (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
US20180270387A1 (en) Printing apparatus, server, printing method, and control method
US20170161595A1 (en) Direct character recognition from page description language document
US20220269898A1 (en) Information processing device, information processing system, information processing method, and non-transitory computer readable medium
US9208381B1 (en) Processing digital images including character recognition using ontological rules
WO2020105366A1 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体、並びに、画像形成システム
JP6763173B2 (ja) 文書修正方法、文書修正装置、およびコンピュータプログラム
JP2020184275A (ja) 画像処理装置、画像処理方法、及びプログラム
US20020181779A1 (en) Character and style recognition of scanned text
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP3159087B2 (ja) 文書照合装置および方法
US11128775B2 (en) Meta information transmission system through printed matter, printing control apparatus, printed matter reading apparatus, method for applying meta information for printed matter, and method for acquiring meta information from printed matter
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP6613871B2 (ja) 情報処理装置、画像読み取り装置、および、プログラム
US8340434B2 (en) Image processing apparatus, image processing system and computer readable medium
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113