JP2019185138A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2019185138A
JP2019185138A JP2018071142A JP2018071142A JP2019185138A JP 2019185138 A JP2019185138 A JP 2019185138A JP 2018071142 A JP2018071142 A JP 2018071142A JP 2018071142 A JP2018071142 A JP 2018071142A JP 2019185138 A JP2019185138 A JP 2019185138A
Authority
JP
Japan
Prior art keywords
character string
image
feature amount
recorded
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018071142A
Other languages
English (en)
Other versions
JP6791191B2 (ja
Inventor
杉本 充
Mitsuru Sugimoto
充 杉本
克彦 近藤
Katsuhiko Kondo
克彦 近藤
裕一 中谷
Yuichi Nakatani
裕一 中谷
秋山隼哉
Junya Akiyama
隼哉 秋山
哲 ▲瀬▼川
哲 ▲瀬▼川
Satoru Segawa
康 日高
Yasushi Hidaka
康 日高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2018071142A priority Critical patent/JP6791191B2/ja
Priority to SG11202009518SA priority patent/SG11202009518SA/en
Priority to EP19780887.6A priority patent/EP3779781A4/en
Priority to US17/044,112 priority patent/US11514700B2/en
Priority to PCT/JP2019/012884 priority patent/WO2019194026A1/ja
Publication of JP2019185138A publication Critical patent/JP2019185138A/ja
Application granted granted Critical
Publication of JP6791191B2 publication Critical patent/JP6791191B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】光学的文字認識の結果の精度を評価できるようにする。【解決手段】画像処理装置が、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する画像出力部と、を備える。【選択図】図3

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。
光学的文字認識で読み取った内容の評価に関して幾つかの技術が提案されている。
例えば、特許文献1には、広告審査の支援のために、広告コンテンツに対して光学文字認識ソフト等を用いてテキスト変換し、テキスト情報における特徴語同士を比較することによって類似度を判定することが記載されている。
また、特許文献2には、レセプトのイメージデータに対して光学的文字認識を適用した際に、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断することが記載されている。
特開2017−173881号公報 特開2006−079190号公報
光学的文字認識で読み取った内容の評価だけでなく、光学的文字認識の結果の精度の評価も重要である。例えば、光学的文字認識の結果のチェック者が、読み取り結果の信頼度を知ることができれば、信頼度の低い場合には特に念入りにチェックを行う、あるいは2人のチェック者でダブルチェックを行うといった対策を講じることができる。
本発明は、上述の課題を解決することのできる画像処理装置、画像処理方法およびプログラムを提供することを目的としている。
本発明の第1の態様によれば、画像処理装置は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する画像出力部と、を備える。
本発明の第2の態様によれば、画像処理方法は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、を含む。
本発明の第3の態様によれば、プログラムは、コンピュータに、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、を実行させるためのプログラムである。
この発明によれば、光学的文字認識の結果の精度を評価することができる。
実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。 実施形態に係る画像処理装置のハードウェア構成例を示す図である。 第一実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。 文書帳票の一例を示す図である。 第一実施形態に係るデータベースが記憶する記録テーブルの概要を示す図である。 第一実施形態に係る画像処理装置の処理フローを示す第一の図である。 第一実施形態に係る画像処理装置の処理フローを示す第二の図である。 第一実施形態に係る表示部が表示する確認画面の表示例を示す図である。 第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。 第二実施形態に係る画像処理装置の処理フローを示す第一の図である。 第二実施形態に係る画像処理装置の処理フローを示す第二の図である。 実施形態に係る画像処理装置の構成の例を示す図である。
以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。
図1に示す構成で、画像処理システム100は画像処理装置1、画像読取装置2、記録装置3およびデータベース4により構成される。
画像処理装置1は画像読取装置2と通信ケーブルにより接続されている。画像読取装置2は光学的に文書帳票などの画像データを取得して画像処理装置1へ出力する。画像処理装置1は文書帳票の画像データをOCR処理し文字認識する。画像処理装置1は文字認識結果を記録装置3に出力し、記録装置3がその文字認識結果をデータベースに記録する。なお、画像処理装置1が対象とする文書は、特定の種類のものに限定されない。OCR処理可能ないろいろな文書を、画像処理装置1の処理対象とすることができる。
データベース4は画像処理装置1と記録装置3とに接続されている。データベース4は記録装置3から過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうち記録対象となる文字列を示す記録文字列の対応関係を記憶している。記録文字列が示す文字列は文書帳票に記述される文字列のうちデータベース4に記録、保存しておくべき重要な文字列である。画像処理システム100を利用する作業者は予め、記録装置3を用いて過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうちの記録文字列をデータベース4に登録しておく。
作業者を、画像処理装置1のユーザ、または単にユーザとも称する。
そしてデータベース4には文書帳票の画像データとその画像データに含まれる文字列の情報のうち記録対象となる文字列を示す記録文字列の情報との対応関係が、多くの文書帳票について十分に記録されているものとする。このような状態において、画像処理装置1は処理を行う。
図2は画像処理装置のハードウェア構成例を示す図である。
図2に示す構成で、画像処理装置1は、画像処理装置本体10と、表示装置17と、入力デバイス18とを備える。
画像処理装置本体10は、CPU(Central Processing Unit)11、IF(Interface)12、通信モジュール13、ROM(Read Only Memory)14、RAM(Random Access Memory)15、HDD(Hard Disk Drive)16などの構成を備えたコンピュータである。通信モジュール13は画像読取装置2、記録装置3、データベース4との間で無線通信を行うものであっても、有線通信を行うものであってもよく、それら2つの機能を有していてもよい。
表示装置17は、例えば液晶パネルまたはLED(Light Emitting Diode)パネル等の表示画面を備える。
入力デバイス18は、例えばキーボードおよびマウス、あるいは、表示装置17の表示画面に設けられてタッチパネルを構成するタッチセンサ、あるいはこれらの組み合わせなど、ユーザ操作を受ける装置である。
<第一実施形態>
図3は、第一実施形態に係る画像処理装置1の機能構成を示す概略ブロック図である。
通信部110は、図2の通信モジュールを用いて構成され、他の装置と通信を行う。特に、通信部110は、画像読取装置2、記録装置3、データベース4と通信を行う。
表示部120は、図2の表示装置17を用いて構成され、各種画像を表示する。
特に、表示部120は画像出力部の例に該当し、信頼度算出部196が算出した信頼度に応じた表示態様で特定項目の文字列を表した文字認識処理結果画像を出力する。このように、画像処理装置1は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置1は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
但し、出力部が文字認識処理結果画像を出力する方法は、画像を表示する方法に限定されない。例えば、通信部110が出力部として機能し、文字認識処理結果画像の画像データを他の装置に送信して表示させるようにしてもよい。
操作入力部130は、図2の入力デバイスを用いて構成され、ユーザ操作を受け付ける。
記憶部180は、図2のROM14、RAM15およびHDD16を用いて構成され、各種データを記憶する。
制御部190は、図2のCPU11が、記憶部180(図2のROM14、RAM15およびHDD16)からプログラムを読み出して実行することで構成される。制御部190は、画像処理装置1の各部を制御して各種処理を実行する。
取得部191は、文書帳票の画像データを取得する。
特徴量抽出部192は、複数の文書帳票の画像データの認識処理結果に基づいて、文書帳票の画像データに含まれる記録文字列の特徴を示す第一特徴量を文書帳票の画像データ毎に抽出する。特徴量の抽出を特徴量の生成とも称する。
特に、特徴量抽出部192は、文字認識処理された文書画像に含まれる記録文字列を特定し、特定した記録文字列の文書画像中における第一特徴量を抽出する。具体的には、特徴量抽出部192は記録文字列特定部の例に該当し、処理対象の文書画像の文字認識の結果得られた文字列のうち、記録文字列として指定された文字列を特定する。記録文字列の候補を複数特定した場合、特徴量抽出部192は、表示部120に確認画面を出力させ、確認画面においてユーザが特定した位置における記録文字列の特徴量を抽出する。特に、特徴量抽出部192は、文字列を特定する表示を行った文書画像上でのユーザ操作にて特定された文字列を記録文字列として特徴量の抽出を行う。
ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
記録部193は、新たな文書帳票の画像データにおける文字列の特徴量を用いて、新たな文書帳票の画像データから読み取った文字列の情報のうちの記録文字列を抽出して記録する。特に、記録部193は記録文字列抽出部の例に該当し、特徴量抽出部192が抽出した記録文字列の特徴量を用いて、新たな文書画像の文字認識結果から記録文字列を抽出する。
信頼度算出部196は、画像処理装置1の処理結果の信頼度を算出する。特に、信頼度算出部196は、画像処理システム100の実運用の際、画像処理装置1が新たな文書帳票の画像から記録文字列を抽出すると、得られた記録文字列の書式的な信頼度を算出する。具体的には、信頼度算出部196は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。ここでいう特定項目の文字列は、記録文字列であってもよいし、記録文字列以外の所定の文字列であってもよい。例えば、特定項目の文字列が、記録文字列以外の文字列、かつ、予め位置を指定された文字列であってもよい。
信頼度算出部196が信頼度算出に用いる特徴量として、いろいろな特徴量を用いることができる。
例えば、信頼度算出部196が、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、信頼度を算出するようにしてもよい。例えば、信頼度算出部196が、特定項目の文字列に含まれる文字の属性、または、その文字列の範囲の座標など、特定項目の文字列の書式的な特性に関する特徴量に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
ここでいう書式には、文字の属性と、文字列の範囲の座標とが含まれる。
ここでいう文字の属性(文字属性)は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。以下、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
あるいは、信頼度算出部196が、文字認識そのものの信頼度と、特定項目の文字列の書式的な特性に関する特徴量との両方に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
信頼度算出部196が、特定項目の文字列の書式的な特性に関する特徴量に基づいて画像処理装置1の処理結果の信頼度を算出する場合、処理対象の文書画像に限らず、文書の書式(Format)の解析等で処理済みの文書画像の特徴量を用いるようにしてもよい。
例えば、信頼度算出部196が、処理済みの文書画像について予め記録された特徴量のばらつき度合いに基づいて信頼度を算出するようにしてもよい。特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
一方、特徴量のばらつき度合いが小さい場合、画像処理装置に与えられる文書の書式が一定しており、かつ、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していると考えられる。この場合、処理対象の文書画像の処理機が、画像処理装置1が想定している書式と同じであり、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
あるいは、信頼度算出部196が、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出するようにしてもよい。ここでいう偏差の度合いは、平均値、中央値または最頻値などの標準値との差の大きさである。偏差の度合いが大きいとは、標準値との差が大きいことである。偏差の度合いが小さいとは、標準値との差が小さいことである。
偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
一方、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いが小さい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と同じであり、かつ、画像処理装置1が解析した書式の特徴が、処理対象の文書画像について適切であると考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
このような処理により画像処理装置1は新たな文書帳票の画像データに含まれる記録するべき文字列情報の記録の労力を軽減する。
図4は文書帳票の一例を示す図である。
この図が示すように文書帳票には、その文書を作成した企業のマーク、作成日、作成担当者、文書内容が、その文書帳票に特有のフォーマットで記述されている。文書内容は、例えば文書帳票が発注票であれば発注した商品名やその発注個数などの情報の組が1つまたは複数示される。作業者はある1つの文書帳票に基づいて、その文書帳票に記述されている文字列のうち記録すべき特定の文字列(記録文字列)を、記録装置3を用いてデータベース4へ記録する。具体的には作業者は文書帳票を見ながら記録装置3がデータベース4に記録すべき記録文字列を入力する。また作業者は文書帳票の画像データを画像読取装置2に読み込ませる。文書帳票は作業者の操作に基づいて画像読取装置2が読み取り画像処理装置1へ出力する。そして記録装置3は作業者の操作と画像処理装置1の制御とに基づいて、1つの文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けてデータベース4に記録する。図4の例においては、日付51、発注先52、商品名53、数量54、金額55が記録文字列である。文書帳票5には作業者によって記録されない非記録文字列等のその他の情報も印字されている。当該情報は例えば文書帳票を発行した発注者の名称501、発注者のエンブレム画像502、文書帳票のタイトル503、挨拶文504などである。
図5はデータベースが記憶する記録テーブルの概要を示す図である。
図5で示すようにデータベース4は文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けて記録テーブルに記憶する。
図6は第一実施形態に係る画像処理装置の処理フローを示す第一の図である。図6は、画像処理装置1が第一特徴量を抽出する処理手順の例を示す。
次に画像処理装置1の処理フローについて順を追って説明する。
まずデータベース4にはある文書帳票についての画像データと、その文書帳票に記述されている記録文字列との組み合わせが、同じ書式(Format)の文書帳票複数枚分記録されている。例えば図4で示す文書帳票5の書式の記録文字列情報(記録文字列を示す情報)が複数枚分記録されているとする。
これら画像データと記録文字列情報との組み合わせとして、例えば過去の業務で扱われた文書帳票の画像データおよび記録文字列情報を用いることができる。過去の業務から画像データおよび記録文字列情報を必要量確保できる場合、画像処理装置に第一特徴量を取得させるために画像データおよび記録文字列情報を別途用意する必要はない。
このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
画像処理装置1の取得部191は、通信部110を制御してデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る(ステップS601)。取得部191は画像データと記録文字列とを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して画像データ中の全ての文字列と、当該文字列の範囲を示す画像データ内の座標とを検出する(ステップS602)。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部192は他の文字との間隔などによってその1つの纏まりの範囲を解析し、その範囲に含まれる1つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。
特徴量抽出部192はOCR処理により画像データから抽出した文字列と、画像データと共にデータベース4から読み取った記録文字列とを比較する。特徴量抽出部192はOCR処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する(ステップS603)。
ここでいう文字の属性(文字属性)は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。以下、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
また、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部192が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部192が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。
なお、特徴量抽出部192が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置1が、その文書画像を処理対象(第一特徴量の抽出対象)から除外するようにしてもよい。あるいは、画像処理装置1が、記録文字列の候補それぞれの範囲を枠で示した画像を表示部120に表示させ、作業者によって選択された文字列に記録文字列を特定するようにしてもよい。ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
次に、特徴量抽出部192は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する(ステップS604)。
具体的には、特徴量抽出部192は、記録文字列毎に、複数の文書帳票におけるその記録文字列の文字列属性を解析して、1つの記録文字列に1つの特徴量を抽出する。
特徴量抽出部192が、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する方法は、特定の方法に限定されない。例えば、特徴量抽出部192が、複数の文書帳票から得られた複数の文字列属性について、先頭の文字の座標、末尾の文字の座標、文字の種類、文字の高さ、フォントの種類などの項目毎に最頻値(Mode)を求めるようにしてもよい。また、特徴量抽出部192が、先頭の文字の座標、末尾の文字の座標、文字の高さ、文字間の距離など数値で示される属性について項目毎に平均値(Average)または中央値(Median)を求めるようにしてもよい。また、特徴量抽出部192が、数値で表される項目について、その最大値および最小値を特徴量とするなど、範囲を有する特徴量、あるいは、複数の数値で表される特徴量を用いるようにしてもよい。また、特徴量抽出部192が、文字の種類、フォントの種類など数値以外の属性を数値化して特徴量を求めるようにしてもよい。また、特徴量抽出部192が、公知の機械学習アルゴリズムを用いて特徴量を抽出するようにしてもよい。
特徴量抽出部192が、文書帳票の1つの書式かつ1つの記録文字列について複数の数値を取得した場合、これら複数の数値をベクトル化して1つのベクトルの特徴量を抽出するようにしてもよい。
特徴量抽出部192が抽出した、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を第一特徴量と称する。特徴量抽出部192は、同じ書式の複数枚の文書帳票を用いて、その書式における記録文字列それぞれの第一特徴量を抽出する。第一特徴量は記録文字列を抽出するための特徴量である。第一特徴量に、文字の属性を示す情報、文字列の範囲を示す座標の何れか、またはこれらの組み合わせが含まれていてもよい。
特徴量抽出部192は、記録文字列毎に得られた第一特徴量を、文書帳票の書式の識別子に紐づけてデータベース4に記録する(ステップS605)。
例えば特徴量抽出部192は、図4の文書帳票5の書式に含まれる記録文字列である日付51、発注先52、商品名53、数量54、金額55それぞれの、文字属性、文字列の範囲を示す座標などを示す各第一特徴量を、文書帳票5の書式識別子に紐づけてデータベース4に記録する。
ステップS605の後、画像処理装置1は、図6の処理を終了する。
以上の処理により画像処理装置1は、作業者の記録文字列を記録する労力を軽減するために利用する情報(第一特徴量)を抽出してデータベース4に蓄積することができる。これにより画像処理装置1は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動でデータベース4に記録していくことができる。図7を参照して、その処理について説明する。
図7は第一実施形態に係る画像処理装置の処理フローを示す第二の図である。図7は、画像処理装置1が、新たに入力された画像データから記録文字列を抽出する処理手順の例を示す。
作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS701)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS702)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS703)。つまり第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。その後、特徴量抽出部192はデータベース4から記録文字列毎の第一特徴量を読み出す(ステップS704)。特徴量抽出部192は記録部193へ第三特徴量と第一特徴量とを出力する。
記録部193は画像データ中の文字列毎の第三特徴量と、記録文字列毎の第一特徴量とを取得する。記録部193は、各第一特徴量に対して第三特徴量が一意に対応付けられるかを判定する(ステップS705)。例えば、第一特徴量が文字列の範囲を示す座標を含んで構成されており、記録部193は、各第一特徴量に含まれる文字列の範囲を示す座標を用いて、各第一特徴量が示す当該座標に対応する座標を有する第三特徴量が全て存在するかを判定する。
各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合(ステップS705:YES)には、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には、文書帳票内の何れかの記載事項に文字の記載が無い状態である。
ステップS705でYESの場合、記録部193は、第一特徴量に含まれる文字属性と、その第一特徴量に対応する第三特徴量に含まれる文字属性がそれぞれ一致するかどうかを判定する(ステップS706)。
記録部193は、ステップS706の判定結果がYESとなり文字属性が一致する場合(ステップS706:YES)、現在処理している画像データにおいて1つまたは複数の第三特徴量が示す座標に基づく記録文字列の範囲に矩形枠を表示した確認画面を生成する。記録部193はその確認画面をモニタに出力する(ステップS707)。作業者はこの確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより作業者は記録文字列に不足が無いかを確認することができる。すなわち、作業者は全ての記録文字列が選択されているか(確認画面において矩形枠で囲まれているか)確認することができる。
確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
なお確認画面をモニタに出力する理由を、図4を用いて説明する。図4では、記録文字列のうち商品名53が6つ記入されている。過去の文書帳票においても6つの商品名53の記入が最大だった場合、新たな文書帳票に対して、商品名53は1〜6個の範囲内で自動的に記録文字列と判定される。したがって、例えば新たな帳票では商品名53が7つ記載されていた場合、1〜6個目までの部分については、ステップS705、S706いずれもYESとなるため、画像処理装置1は7個目の文字列を記録せずに終了してしまう。このような事象が改善されるように、画像処理装置1は、ステップS707で記録文字列を記録する前に、確認画面を表示して、作業者に対して、記録して終了してよいかの確認を行う。
表示部120は、確認画面において記録文字列をその信頼度に応じた態様で表示する。
図8は、表示部120が表示する確認画面の表示例を示す図である。図8の例で、表示部120は、文書帳票の画像における文字列C1〜C4のOCR処理結果として得られた4つの記録文字列を領域A1〜A4に示している。表示部120はこれらの記録文字列をその信頼度に応じた態様で表示している。
図8の例では、画像処理装置1によるOCR結果の信頼度が記録文字毎に3段階で示されている。領域A1およびA2に示す記録文字列が信頼度「高」なっており、領域A3に示す記録文字列が信頼度「中」となっており、領域A4に示す記録文字列が信頼度「低」となっている。表示部120は、これらの信頼度に応じた態様で領域A1〜A4の矩形を表示することで、記録文字列の信頼度を表示している。
表示部120が信頼度を表示するために、信頼度算出部196が記録文字列毎に信頼度を算出する。上述したように、信頼度算出部196が、信頼度の算出に用いる特徴量として、いろいろな特徴量を用いることができる。また、信頼度算出部196が、記録文字列毎の信頼度に加えて、あるいは代えて、文書全体の信頼度を算出するようにしてもよい。
記録部193は作業者のボタンのアイコン画像の押下に応じて、全ての記録文字列が選択されているかを判定する(ステップS708)。記録部193は全ての記録文字列が選択されている場合(ステップS708:YES)には、記録文字列を文書帳票の識別情報に対応付けて記録テーブルに記録する(ステップS709)。
例えば、文書帳票の画像データ中から第三特徴量a3、第三特徴量b3、第三特徴量c3、第三特徴量d3が取得できたとする。そして第三特徴量a3が予めデータベースに記録されている第一特徴量a1と、第三特徴量b3が第一特徴量b1と、第三特徴量c3が第一特徴量c1と、第三特徴量d3が第一特徴量d1とそれぞれ特徴量が一致したとする。この場合、記録部193は、第三特徴量a3、第三特徴量b3、第三特徴量c3、第三特徴量d3それぞれに対応する文字列を、記録文字列として文書帳票の記録テーブルに記録する。ここでいう第三特徴量に対応する文字列は、その第三特徴量の抽出元の文字列である。
ステップS709の後、画像処理装置1は、図7の処理を終了する。
上述のステップS705でNOの場合、またはステップS706でNOの場合、またはステップS708でNOの場合、記録部193は、第一特徴量が示す当該座標に対応する座標を有する第三特徴量が存在しなかった場合の処理を行う。具体的には記録部193は、画像データ中の対応する座標の第三特徴量が存在しなかった第一特徴量の座標の範囲に入力欄を設けた帳票画像(文書帳票の画像)の入力用画像データを生成してモニタに出力する(ステップS710)。入力用画像データはHTMLやXMLなどのマークアップ言語で記述されたデータであってよい。ステップS707での確認画面の表示の場合と同様、表示部120が、特定できた記録文字列をその信頼度に応じた表示態様で帳票画像上に表示するようにしてもよい。
作業者はこの入力用画像データを見ながら、画像処理装置1のキーボード等の入力装置を操作して、モニタに表示されている入力用画像データ内の入力欄に記録文字列を入力する。当該入力用画像データには保存ボタンが表示されており、保存ボタンの押下操作をすると記録部193は既に文書帳票について取得した第三特徴量の他、新たに入力用画像データの入力欄に入力された文字列を含む第三特徴量を抽出する(ステップS711)。
記録部193は帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS712)。具体的には、記録部193は、ステップS711で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
ステップS712の後、画像処理装置1は、図7の処理を終了する。
画像処理装置1が、図7の処理で第一特徴量を更新するようにしてもよい。例えば画像処理装置1が、ステップS711の後、図6の処理フローを再度実施するようにしてもよい。あるいは画像処理装置1が、ステップS711の後に追加学習を行うことで、図6で処理済みのデータについては再度処理を行うことなく第一特徴量を更新するようにしてもよい。さらに、画像処理装置1が、ステップS708でYESの場合も、図6の処理フローの再実施または追加学習にて第一特徴量を更新するようにしてもよい。
画像処理装置1が、図7の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図7の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
図7に示す処理によれば、画像処理装置1は予め作業者が記録しておいた文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置1は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。
また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
<第二実施形態>
第二実施形態では、画像処理装置1が、文書帳票の複数の書式に対応する場合について説明する。
図9は第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。
図9に示すように第二実施形態に係る画像処理装置1は、図3で示した各機能部に加え、さらにグループ分類部194、グループ特定部195の機能を有する。
図10は第二実施形態に係る画像処理装置の処理フローを示す第一の図である。
次に第二実施形態に係る画像処理装置1の処理フローについて順を追って説明する。
データベース4には書式が異なる複数の文書帳票についての画像データと、各文書帳票に記述されている記録文字列の組み合わせが、その文書帳票毎に多数記録されている。このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
画像処理装置1の取得部191はデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだかを判定する(ステップS901)。NOの場合、取得部191はデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る(ステップS902)。取得部191は画像データと記録文字列とを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して画像データ中の全ての文字列とその画像データ内の座標とを検出する(ステップS903)。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部192は他の文字との間隔などによってその1つの纏まりの範囲を解析し、その範囲に含まれる1つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。
特徴量抽出部192はOCR処理により画像データから抽出した文字列と、画像データと共にデータベース4から読み取った記録文字列とを比較する。特徴量抽出部192はOCR処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する(ステップS904)。
第一実施形態で説明したように、文字の属性は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
第一実施形態の場合と同様、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部192が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部192が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。
なお、特徴量抽出部192が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置1が、その文書画像を処理対象(第一特徴量の抽出対象)から除外するようにしてもよい。あるいは、画像処理装置1が、記録文字列の候補それぞれの範囲を枠で示した画像を表示部120に表示させ、作業者によって選択された文字列に記録文字列を特定するようにしてもよい。第一実施形態で説明したように、ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
次に、特徴量抽出部192は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ記録文字列毎の特徴量を抽出する(ステップS905)。具体的には、特徴量抽出部192は、ステップS904で記録文字列に対応付けた文字列の文字列属性を特徴量化する。第二実施形態では複数種類の書式を対象とするため、文書帳票を書式毎にグループ分けしていないステップS905の時点では、図7のステップS604の場合と異なり直接第一特徴量を抽出することはできない。そこで、特徴量抽出部192は、グループ毎の第一特徴量を抽出する準備として、文書帳票毎かつ記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ記録文字列毎の特徴量を個別第一特徴量と称する。
特徴量抽出部192は、得られた個別第一特徴量を、文書帳票の識別子および記録文字列の識別子に紐づけてデータベース4に記録する(ステップS906)。記録文字列の識別子として、例えばその記録文字列の位置を示す座標値を用いることができる。
例えば特徴量抽出部192は、図4の文書帳票5の書式に含まれる記録文字列である日付51、発注先52、商品名53、数量54、金額55それぞれの、文字属性、文字列の範囲を示す座標などを示す個別第一特徴量を、文書帳票毎かつ記録文字列毎に、文書帳票5の識別子および記録文字列の識別子に紐づけてデータベース4に記録する。
特徴量抽出部192はまた、記録文字列に含まれる文字情報と一致しない画像データ中の非記録文字列と、その非記録文字列の文字列属性とを抽出する(ステップS907)。上述したように、非記録文字列は、作業者によって記録されない文字列、すなわち、記録文字列以外の文字列である。文字列属性には、その文字列に含まれる文字の属性を示す情報、その文字列の範囲の座標を示す情報の何れか一方あるは両方が含まれていてもよい。
特徴量抽出部192は、文書帳票毎かつ非記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ非記録文字列毎の特徴量を抽出する(ステップS908)。
具体的には、特徴量抽出部192は、ステップS904で何れの記録文字列にも対応付けられなかった文字列の各々について、その文字列の属性(文字列属性)を特徴量化する。第一特徴量の場合と同様、文書帳票を書式毎にグループ分けしていないステップS908の時点では、同じ書式の文書帳票に共通の特徴量を生成することはできない。そこで、特徴量抽出部192は、グループ毎の第二特徴量を抽出する準備として、文書帳票毎かつ非記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ非記録文字列毎の特徴量を個別第二特徴量と称する。
特徴量抽出部192が、文書帳票毎、かつ、複数の非記録文字列を纏めた個別第二特徴量を生成するようにしてもよい。例えば、特徴量抽出部192が、1つの文書帳票につき1つの個別第二特徴量を生成するようにしてもよい。
特徴量抽出部192は、得られた個別第二特徴量を、文書帳票の識別子および非記録文字列の識別子に紐づけてデータベース4に記録する(ステップS909)。非記録文字列の識別子として、例えばその非記録文字列の位置を示す座標値を用いることができる。
例えば特徴量抽出部192は、図4の文書帳票5の書式に含まれる非記録文字列である発注者の名称501、発注者のエンブレム画像、文書帳票のタイトル503、挨拶文504などを示す個別第二特徴量を、文書帳票5の識別子および非記録文字列の識別子に紐づけてデータベース4に記録する。
データベース4には、文書帳票の複数の書式それぞれについて、その書式の文書帳票の画像データとその画像データに対応する記録文字列の情報が記録されている。画像処理装置1の取得部191は全ての文書帳票についての画像データと記録文字列の情報を読み込むまでステップS901〜ステップS909の処理を繰り返す。
ステップS901で、取得部191がデータベース4から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだと判定した場合(ステップS901:YES)、グループ分類部194が文書帳票をグループ分けする(ステップS921)。グループ分類部194は、文書帳票の画像データに含まれる個別第二特徴量に基づいて、文書帳票をグループ分けする。例えばグループ分類部194は、各文書帳票を、個別第二特徴量が示す非記録文字列の一致度や、エンブレム画像の一致度、非記録文字列の座標範囲の一致度などに基づいてグループ分けする。グループ分類部194はこのグループ分けの処理において文書帳票のグループ識別子を決定する。グループ分類部194は全ての文書帳票についてグループ分けが終了したかを判定する(ステップS922)。
グループ分類部194は全ての文書帳票のグループ分けが完了していない場合にはステップS921の処理を繰り返す。具体的には、ステップS922で、グループ分けを終了していない文書帳票があるとグループ分類部194が判定した場合(ステップS922:NO)、処理がステップS921へ戻る。
グループ分類部194は、全ての文書帳票のグループ分けが完了した場合(ステップS922:YES)、文書帳票の識別子とその文書帳票に付与されたグループ識別子とを対応付けてデータベース4のグループテーブル(記録テーブル)に記録する(ステップS923)。
そして特徴量抽出部192は、あるグループに属する1つまたは複数の文書帳票の各個別第一特徴量および各個別第二特徴量をデータベース4から読み取り、グループに属する文書帳票の各個別第一特徴量および各個別第二特徴量に対応する各グループ第一特徴量、各グループ第二特徴量を抽出する(ステップS924)。各グループ第一特徴量はグループに属する文書帳票の各個別第一特徴量の平均等の値であってもよい。同様に各グループ第二特徴量はグループに属する文書帳票の各個別第二特徴量の平均等の値であってもよい。各グループ第一特徴量、各グループ第二特徴量は、各個別第一特徴量の平均、各個別第二特徴量の平均でなくとも、所定の統計処理や機械学習等の手法を用いて、グループに属する1つ又は複数の文書帳票の記録文字列や非記録文字列を特定できるよう算出された特徴量であれば、どのような手法を用いて、各グループ第一特徴量、各グループ第二特徴量を抽出してもよい。
例えば、特徴量抽出部192がステップS924で、同一グループに属する複数の文書帳票から記録文字列毎に文字列属性を抽出して(直接的に)グループ第一特徴量を生成するようにしてもよい。この場合、特徴量抽出部192が、ステップS905およびステップS906での個別第一特徴量の抽出および記録をパスする(特に何も処理を行わない)。
一方、個別第二特徴量については、ステップS921でのグループ分けで使用できるように、特徴量抽出部192がステップS908で抽出しておく。但し、ステップ921で、グループ分類部194が、個別第二特徴量を用いず非記録文字列を用いて文書帳票のグループ分けを行うようにしてもよい。この場合、特徴量抽出部192がステップS924で、同一グループに属する複数の文書帳票の非記録文字列の文字列属性から(直接的に)グループ第二特徴量を抽出するようにしてもよい。この場合、特徴量抽出部192は、ステップS907〜ステップS909では特に何も処理を行わない。
特徴量抽出部192は、グループそれぞれについて各グループ第一特徴量、各グループ第二特徴量を算出し、グループの識別子に対応付けてデータベース4に記録する(ステップS925)。
ステップS925の後、画像処理装置1は、図10の処理を終了する。
以上の処理により画像処理装置1は、作業者の記録文字列を記録する労力を軽減するために必要な情報(グループ第一特徴量およびグループ第二特徴量)を文書帳票のグループ毎に抽出してデータベース4に蓄積することができる。これにより画像処理装置1は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動でデータベース4に記録していくことができる。図11を参照して、その処理について説明する。
図11は第二実施形態に係る画像処理装置の処理フローを示す第二の図である。図11は、画像処理装置1が、新たに入力された画像データから記録文字列を抽出する処理手順の例を示す。
作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS1001)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS1002)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS1003)。第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。
次にグループ特定部195が、データベース4が記憶しているグループ第二特徴量のうち新たな文書帳票のグループ特定に利用するグループ第二特徴量を読み取る。当該グループ第二特徴量は例えば文書帳票の画像データに表示される発注者のエンブレム画像502に対応する特徴量であってよい。グループ特定部195はあるグループ第二特徴量に示す情報が、ステップS1001で取得した文書帳票の画像データから特定できるかどうかを判定する。グループ特定部195は全てのグループについてのグループ第二特徴量を用いて同様の処理を行う。グループ特定部195はデータベース4から読み取ったグループ第二特徴量に一致する情報が新たに読み込んだ文書帳票の画像データから特定できた場合、そのグループ第二特徴量を有するグループを、新たに読み込んだ文書帳票の画像データのグループと特定する(ステップS1004)。その後、グループ特定部195はデータベース4からそのグループについての1つまたは複数のグループ第一特徴量を読み出す(ステップS1005)。グループ特定部195は記録部193へ第三特徴量と1つまたは複数のグループ第一特徴量とを出力する。グループ第一特徴量はそのグループに属する文書帳票内の1つまたは複数の記録文字列を特定するための特徴量である。
記録部193は画像データ中の1つまたは複数の文字列についての第三特徴量と、1つまたは複数のグループ第一特徴量とを取得する。記録部193は各グループ第一特徴量に含まれる文字列の範囲を示す座標を用いて、各グループ第一特徴量が示す当該座標に対応する座標を有する第三特徴量が全て存在するかを判定する(ステップS1006)。各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合には、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各グループ第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には、文書帳票内の何れかの記載事項に文字の記載が無い状態である。
ステップS1006でYESの場合、記録部193は、グループ第一特徴量に含まれる文字属性と、座標に基づいて特定された対応する第三特徴量に含まれる文字属性とがそれぞれ一致するかどうかを判定する(ステップS1007)。
記録部193は、ステップS1007の判定結果がYESとなり文字属性が一致する場合、現在処理している画像データにおいて1つまたは複数の第三特徴量が示す座標に基づく記録文字列の範囲に矩形枠を表示した確認画面を生成する。記録部193はその確認画面をモニタに出力する(ステップS1008)。図7のステップS707の場合と同様、表示部120は、確認画面において記録文字列をその信頼度に応じた態様で表示する。
作業者はこの確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより作業者は記録文字列に不足が無いかを確認することができる。すなわち、作業者は全ての記録文字列が選択されているか(確認画面において矩形枠で囲まれているか)確認することができる。
確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
記録部193は作業者のボタンのアイコン画像の押下に応じて、全ての記録文字列が選択されているかを判定する(ステップS1009)。記録部193は全ての記録文字列が選択されている場合(ステップS1009:YES)には、記録文字列を文書帳票の識別情報に対応付けて記録テーブルに記録する(ステップS1010)。
例えば、文書帳票の画像データ中から第三特徴量a3、第三特徴量b3、第三特徴量c3、第三特徴量d3が取得できたとする。そして第三特徴量a3が予めデータベースに記録されているグループ第一特徴量g11と、第三特徴量b3がグループ第一特徴量g12と、第三特徴量c3がグループ第一特徴量g13と、第三特徴量d3がグループ第一特徴量g14とそれぞれ特徴量が一致したとする。この場合、記録部193は、第三特徴量a3、第三特徴量b3、第三特徴量c3、第三特徴量d3それぞれに対応する文字列を、記録文字列として文書帳票の記録テーブルに記録する。ここでいう第三特徴量に対応する文字列は、その第三特徴量の抽出元の文字列である。
ステップS1010の後、画像処理装置1は、図11の処理を終了する。
上述のステップS1006でNOの場合、またはステップS1007でNOの場合、またはステップS1009でNOの場合、記録部193は、グループ第一特徴量が示す当該座標に対応する座標を有する第三特徴量が存在しなかった場合の処理を行う。具体的には記録部193は、画像データ中の対応する座標の第三特徴量が存在しなかったグループ第一特徴量の座標の範囲に入力欄を設けた帳票画像(文書帳票の画像)の入力用画像データを生成してモニタに出力する(ステップS1011)。入力用画像データはHTMLやXMLなどのマークアップ言語で記述されたデータであってよい。図7のステップS710の場合と同様、表示部120が、特定できた記録文字列をその信頼度に応じた表示態様で帳票画像上に表示するようにしてもよい。
作業者はこの入力用画像データを見ながら、画像処理装置1のキーボード等の入力装置を操作して、モニタに表示されている入力用画像データ内の入力欄に記録文字列を入力する。当該入力用画像データには保存ボタンが表示されており、保存ボタンの押下操作をすると記録部193は既に文書帳票について取得した第三特徴量の他、新たに入力用画像データの入力欄に入力された文字列を含む第三特徴量を抽出する(ステップS1012)。
記録部193は帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS1013)。具体的には、記録部193は、ステップS711で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
ステップS1013の後、画像処理装置1は、図11の処理を終了する。
画像処理装置1が、図11の処理で第一特徴量を更新するようにしてもよい。例えば画像処理装置1が、ステップS1012の後、図6の処理フローを再度実施するようにしてもよい。あるいは画像処理装置1が、ステップS1012の後に追加学習を行うことで、図6で処理済みのデータについては再度処理を行うことなく第一特徴量を更新するようにしてもよい。さらに、画像処理装置1が、ステップS1009でYESの場合も、図6の処理フローの再実施または追加学習にて第一特徴量を更新するようにしてもよい。
画像処理装置1が、図11の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図11の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
図11に示す処理によれば、画像処理装置1は予め作業者が記録しておいた複数の書式それぞれの文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の種別によらずにその文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置1は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。
また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
<第三実施形態>
なお、画像処理装置1の処理の他の例としては、作業者が予め文書帳票のグループを画像処理装置1に登録しておいてもよい。例えば作業者は、過去において文書帳票の画像データを登録する際、文書帳票の種類に合わせてグループ識別子を入力しておき文書帳票の画像データと紐づけてデータベース4に登録しておく。これにより、同一グループ内に画像処理装置1の処理誤り等により異種の帳票が混じることがなくなり、精度のよい第一特徴量を抽出することができる。なおこの場合、登録時は作業者が文書帳票のグループを入力するが、新たな帳票に対しては、ステップS1004と同じく、第二特徴量を用いてグループ特定する。
<第四実施形態>
また、画像処理装置1の処理の他の例としては、画像処理装置1は第二特徴量を用いて文書帳票をグループ分けするだけでなく、第一特徴量を用いて、また第二特徴量と共に第一特徴量を用いて、文書帳票をグループ分けするようにしてもよい。第一特徴量は記録文字列の特徴量であるが、同じ種類の文書帳票であれば、記録文字列の座標やその文字属性は同じであると考えられ、第一特徴量を用いて帳票をグループ分けすることが可能となる。最初のグループ分けを第四実施形態で示すように作業者が行い、新たな文書帳票に対してはステップS1004の処理により第一特徴量を用いてグループ分けすることにより、OCR処理において精度よく記録文字列を読み取ることが可能となる。
この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そしてグループ分類部194が第一特徴量に基づいて帳票画像データをグループ分けする。そして、特徴量抽出部192は、グループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
<第五実施形態>
第二実施形態においてはステップS1004において第二特徴量に基づいて新たな帳票のグループを特定している。しかしながら、別の処理態様として、画像処理装置1はグループを特定する処理を行わずに、作業者により設定された全グループに対して、1グループごとに順に特定して第一特徴量を読み出し、第三特徴量と一致する個数をカウントする。正しいグループの場合には最も多く第一特徴量と第三特徴量とが一致するはずなので、画像処理装置1は一致個数が最も多いときの特定グループの第三特徴量それぞれに含まれる文字列をステップS1008において記録する。これにより、グループを特定しなくても記録文字列を記録することができる。
この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そして、特徴量抽出部192は、取得部191の取得した帳票画像データを認識処理した結果に基づいて、記録文字列の特徴を示す第一特徴量または記録文字列以外の認識情報を示す第二特徴量を抽出する。特徴量抽出部192は、予め設定された所定のグループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
以上のように、信頼度算出部196は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。表示部120は、信頼度算出部196が算出した信頼度に応じた表示態様で特定項目の文字列を表した文字認識処理結果画像を出力する。
このように、画像処理装置1は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置1は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
特に、信頼度算出部196が文字列の書式的な特徴量に基づいて信頼度を算出することで、画像処理装置1は、文書のフォーマットの観点から光学的文字認識の結果の精度を評価することができる。例えば、信頼度算出部196が、文字認識そのものの信頼度と、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで文字認識そのものの信頼度のみに基づく場合よりも、信頼度を高精度に算出できることが期待される。
また、信頼度算出部196は、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、信頼度を算出する。
これにより、信頼度算出部196は、記録部193が記録文字列の特定に用いる第一特徴量に基づいて信頼度を算出することができる。記録部193が記録文字列の特定に用いる特徴量に基づいて信頼度を算出する点で、信頼度算出部196が、精度の高い信頼度を算出できることが期待される。
また、信頼度算出部196は、予め記録された特徴量のばらつき度合いに基づいて信頼度を算出する。
特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
一方、特徴量のばらつき度合いが小さい場合、画像処理装置に与えられる文書の書式が一定しており、かつ、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していると考えられる。この場合、処理対象の文書画像の処理機が、画像処理装置1が想定している書式と同じであり、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
この点で、信頼度算出部196が、予め記録された特徴量のばらつき度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
また、信頼度算出部196は、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出する。
また、信頼度算出部196は、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出する。
偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
一方、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いが小さい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と同じであり、かつ、画像処理装置1が解析した書式の特徴が、処理対象の文書画像について適切であると考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的高いと考えられる。すなわち、画像処理装置1が、処理対象の画像を適切に処理していると期待される。
この点で、信頼度算出部196が、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
次に、図12を参照して、本発明の実施形態の構成について説明する。
図12は、実施形態に係る画像処理装置の構成の例を示す図である。図12に示す画像処理装置600は、信頼度算出部601と、画像出力部602と、を備える。
かかる構成にて、信頼度算出部601は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する画像出力部602は、その信頼度に応じた表示態様で特定項目の文字列を表した文字認識処理結果画像を出力する。
このように、画像処理装置600は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置600は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
特に、信頼度算出部601が文字列の書式的な特徴量に基づいて信頼度を算出することで、画像処理装置600は、文書のフォーマットの観点から光学的文字認識の結果の精度を評価することができる。例えば、信頼度算出部601が、文字認識そのものの信頼度と、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで文字認識そのものの信頼度のみに基づく場合よりも、信頼度を高精度に算出できることが期待される。
上述の各装置は内部に、コンピュータシステムを有している。そして、各装置に上述した各処理を行わせるためのプログラムは、それら装置のコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを各装置のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した各処理部の機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 画像処理装置
2 画像読取装置
3 記録装置
4 データベース
110 通信部
120 表示部
130 操作入力部
180 記憶部
190 制御部
191 取得部
192 特徴量抽出部
193 記録部
194 グループ分類部
195 グループ特定部
196 信頼度算出部

Claims (6)

  1. 文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、
    その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する画像出力部と、
    を備える画像処理装置。
  2. 前記信頼度算出部は、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、前記信頼度を算出する
    請求項1に記載の画像処理装置。
  3. 前記信頼度算出部は、予め記録された前記特徴量のばらつき度合いに基づいて前記信頼度を算出する
    請求項2に記載の画像処理装置。
  4. 前記信頼度算出部は、文字認識対象の文書画像における前記特徴量の、予め記録された前記特徴量における偏差の度合いに基づいて前記信頼度を算出する
    請求項2または請求項3に記載の画像処理装置。
  5. 文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、
    その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、
    を含む画像処理方法。
  6. コンピュータに、
    文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、
    その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、
    を実行させるためのプログラム。
JP2018071142A 2018-04-02 2018-04-02 画像処理装置、画像処理方法およびプログラム Active JP6791191B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2018071142A JP6791191B2 (ja) 2018-04-02 2018-04-02 画像処理装置、画像処理方法およびプログラム
SG11202009518SA SG11202009518SA (en) 2018-04-02 2019-03-26 Image-processing device, image-processing method, and storage medium on which program is stored
EP19780887.6A EP3779781A4 (en) 2018-04-02 2019-03-26 IMAGE PROCESSING DEVICE, IMAGE PROCESSING PROCESS, AND STORAGE MEDIA ON WHICH A PROGRAM IS STORED
US17/044,112 US11514700B2 (en) 2018-04-02 2019-03-26 Image-processing device, image-processing method, and storage medium on which program is stored
PCT/JP2019/012884 WO2019194026A1 (ja) 2018-04-02 2019-03-26 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018071142A JP6791191B2 (ja) 2018-04-02 2018-04-02 画像処理装置、画像処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019185138A true JP2019185138A (ja) 2019-10-24
JP6791191B2 JP6791191B2 (ja) 2020-11-25

Family

ID=68100758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018071142A Active JP6791191B2 (ja) 2018-04-02 2018-04-02 画像処理装置、画像処理方法およびプログラム

Country Status (5)

Country Link
US (1) US11514700B2 (ja)
EP (1) EP3779781A4 (ja)
JP (1) JP6791191B2 (ja)
SG (1) SG11202009518SA (ja)
WO (1) WO2019194026A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7301596B2 (ja) * 2019-05-09 2023-07-03 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
JP7478345B2 (ja) * 2020-05-12 2024-05-07 京セラドキュメントソリューションズ株式会社 帳票データ取得システムおよび帳票データ取得プログラム
JP2022097259A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム
JP2004152115A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 入力修正方法および入力修正支援システム
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1793338A3 (en) 1996-11-15 2007-12-19 Toho Business Management Center Business management system
JP2006079190A (ja) 2004-09-07 2006-03-23 Japan Medical Data Center Co Ltd 光学式文字読取装置
US20080008383A1 (en) 2006-07-07 2008-01-10 Lockheed Martin Corporation Detection and identification of postal metermarks
US9202127B2 (en) 2011-07-08 2015-12-01 Qualcomm Incorporated Parallel processing method and apparatus for determining text information from an image
PT2779138E (pt) * 2013-03-13 2016-02-29 Kapsch Trafficcom Ag Método de leitura de números de placa de matrícula de veículos
RU2571396C2 (ru) * 2014-03-26 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система для верификации в процессе чтения
US10089555B2 (en) * 2014-03-28 2018-10-02 Hyland Software, Inc. Method, apparatus, and computer program product for providing automated testing of an optical character recognition system
CN104239853B (zh) 2014-08-27 2018-04-27 北京捷通华声语音技术有限公司 一种图像的处理方法和装置
JP6791641B2 (ja) 2016-03-18 2020-11-25 ヤフー株式会社 広告審査支援装置、広告審査支援方法および広告審査支援プログラム
US10210384B2 (en) * 2016-07-25 2019-02-19 Intuit Inc. Optical character recognition (OCR) accuracy by combining results across video frames
US10108879B2 (en) * 2016-09-21 2018-10-23 Intuit Inc. Aggregate training data set generation for OCR processing
JP6749213B2 (ja) 2016-10-27 2020-09-02 東芝プラントシステム株式会社 耐震補修構造および耐震補修方法
US10489643B2 (en) * 2016-12-30 2019-11-26 Morphotrust Usa, Llc Identity document validation using biometric image data
JP6938228B2 (ja) * 2017-05-31 2021-09-22 株式会社日立製作所 計算機、文書識別方法、及びシステム
JP6874729B2 (ja) * 2018-04-02 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム
JP2004152115A (ja) * 2002-10-31 2004-05-27 Toshiba Corp 入力修正方法および入力修正支援システム
JP2014137605A (ja) * 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Also Published As

Publication number Publication date
US11514700B2 (en) 2022-11-29
EP3779781A1 (en) 2021-02-17
US20210192200A1 (en) 2021-06-24
JP6791191B2 (ja) 2020-11-25
WO2019194026A1 (ja) 2019-10-10
EP3779781A4 (en) 2021-04-28
SG11202009518SA (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6874729B2 (ja) 画像処理装置、画像処理方法およびプログラム
WO2019194026A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
US6525716B1 (en) Handwritten data input device having coordinate detection tablet
JP6859977B2 (ja) 画像処理装置、画像処理システム、画像処理方法およびプログラム
JP6100532B2 (ja) レシート定義データ作成装置およびそのプログラム
JP7147185B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
WO2019194052A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
KR102243794B1 (ko) 데이터 통합 장치 및 데이터 통합 방법
JP2019008775A (ja) 画像処理装置、画像処理システム、画像処理方法、プログラム
WO2019193923A1 (ja) 画像処理装置、画像処理方法および記録媒体
JP7111143B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2006323631A (ja) 成果物情報管理システムおよび成果物情報管理プログラム
WO2019194029A1 (ja) 画像処理装置、画像処理方法、及びプログラムを記憶する記憶媒体
JPH1131046A (ja) 筆記データ入力装置およびそのプログラム記録媒体
JP5950369B2 (ja) 入力支援システム、入力支援方法および入力支援プログラム
JP2023081564A (ja) 情報表現パターン生成装置および方法
JP5610019B2 (ja) 検索装置およびプログラム
JP2020119480A (ja) 様式データからデータベースアプリケーションを簡易に作成するシステム
JP2878772B2 (ja) 光学的文字読取装置
JPH08221399A (ja) 構造化文書作成方法および装置
JP2000172671A (ja) K近傍法による類似予測の結果表示装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200629

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6791191

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150