JP2019185138A - 画像処理装置、画像処理方法およびプログラム - Google Patents
画像処理装置、画像処理方法およびプログラム Download PDFInfo
- Publication number
- JP2019185138A JP2019185138A JP2018071142A JP2018071142A JP2019185138A JP 2019185138 A JP2019185138 A JP 2019185138A JP 2018071142 A JP2018071142 A JP 2018071142A JP 2018071142 A JP2018071142 A JP 2018071142A JP 2019185138 A JP2019185138 A JP 2019185138A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- image
- feature amount
- recorded
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
Description
例えば、特許文献1には、広告審査の支援のために、広告コンテンツに対して光学文字認識ソフト等を用いてテキスト変換し、テキスト情報における特徴語同士を比較することによって類似度を判定することが記載されている。
また、特許文献2には、レセプトのイメージデータに対して光学的文字認識を適用した際に、同一または外見的に類似する文字データが所定数以上連続して所定方向に並ぶ場合に、連続した文字データの一群を線として判断することが記載されている。
図1に示す構成で、画像処理システム100は画像処理装置1、画像読取装置2、記録装置3およびデータベース4により構成される。
画像処理装置1は画像読取装置2と通信ケーブルにより接続されている。画像読取装置2は光学的に文書帳票などの画像データを取得して画像処理装置1へ出力する。画像処理装置1は文書帳票の画像データをOCR処理し文字認識する。画像処理装置1は文字認識結果を記録装置3に出力し、記録装置3がその文字認識結果をデータベースに記録する。なお、画像処理装置1が対象とする文書は、特定の種類のものに限定されない。OCR処理可能ないろいろな文書を、画像処理装置1の処理対象とすることができる。
データベース4は画像処理装置1と記録装置3とに接続されている。データベース4は記録装置3から過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうち記録対象となる文字列を示す記録文字列の対応関係を記憶している。記録文字列が示す文字列は文書帳票に記述される文字列のうちデータベース4に記録、保存しておくべき重要な文字列である。画像処理システム100を利用する作業者は予め、記録装置3を用いて過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうちの記録文字列をデータベース4に登録しておく。
作業者を、画像処理装置1のユーザ、または単にユーザとも称する。
図2に示す構成で、画像処理装置1は、画像処理装置本体10と、表示装置17と、入力デバイス18とを備える。
画像処理装置本体10は、CPU(Central Processing Unit)11、IF(Interface)12、通信モジュール13、ROM(Read Only Memory)14、RAM(Random Access Memory)15、HDD(Hard Disk Drive)16などの構成を備えたコンピュータである。通信モジュール13は画像読取装置2、記録装置3、データベース4との間で無線通信を行うものであっても、有線通信を行うものであってもよく、それら2つの機能を有していてもよい。
表示装置17は、例えば液晶パネルまたはLED(Light Emitting Diode)パネル等の表示画面を備える。
入力デバイス18は、例えばキーボードおよびマウス、あるいは、表示装置17の表示画面に設けられてタッチパネルを構成するタッチセンサ、あるいはこれらの組み合わせなど、ユーザ操作を受ける装置である。
図3は、第一実施形態に係る画像処理装置1の機能構成を示す概略ブロック図である。
通信部110は、図2の通信モジュールを用いて構成され、他の装置と通信を行う。特に、通信部110は、画像読取装置2、記録装置3、データベース4と通信を行う。
表示部120は、図2の表示装置17を用いて構成され、各種画像を表示する。
特に、表示部120は画像出力部の例に該当し、信頼度算出部196が算出した信頼度に応じた表示態様で特定項目の文字列を表した文字認識処理結果画像を出力する。このように、画像処理装置1は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置1は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
但し、出力部が文字認識処理結果画像を出力する方法は、画像を表示する方法に限定されない。例えば、通信部110が出力部として機能し、文字認識処理結果画像の画像データを他の装置に送信して表示させるようにしてもよい。
記憶部180は、図2のROM14、RAM15およびHDD16を用いて構成され、各種データを記憶する。
制御部190は、図2のCPU11が、記憶部180(図2のROM14、RAM15およびHDD16)からプログラムを読み出して実行することで構成される。制御部190は、画像処理装置1の各部を制御して各種処理を実行する。
取得部191は、文書帳票の画像データを取得する。
特に、特徴量抽出部192は、文字認識処理された文書画像に含まれる記録文字列を特定し、特定した記録文字列の文書画像中における第一特徴量を抽出する。具体的には、特徴量抽出部192は記録文字列特定部の例に該当し、処理対象の文書画像の文字認識の結果得られた文字列のうち、記録文字列として指定された文字列を特定する。記録文字列の候補を複数特定した場合、特徴量抽出部192は、表示部120に確認画面を出力させ、確認画面においてユーザが特定した位置における記録文字列の特徴量を抽出する。特に、特徴量抽出部192は、文字列を特定する表示を行った文書画像上でのユーザ操作にて特定された文字列を記録文字列として特徴量の抽出を行う。
ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか1つを、1つの記録文字列に決定することである。
信頼度算出部196は、画像処理装置1の処理結果の信頼度を算出する。特に、信頼度算出部196は、画像処理システム100の実運用の際、画像処理装置1が新たな文書帳票の画像から記録文字列を抽出すると、得られた記録文字列の書式的な信頼度を算出する。具体的には、信頼度算出部196は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する。ここでいう特定項目の文字列は、記録文字列であってもよいし、記録文字列以外の所定の文字列であってもよい。例えば、特定項目の文字列が、記録文字列以外の文字列、かつ、予め位置を指定された文字列であってもよい。
例えば、信頼度算出部196が、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、信頼度を算出するようにしてもよい。例えば、信頼度算出部196が、特定項目の文字列に含まれる文字の属性、または、その文字列の範囲の座標など、特定項目の文字列の書式的な特性に関する特徴量に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
ここでいう文字の属性(文字属性)は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。以下、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。
あるいは、信頼度算出部196が、文字認識そのものの信頼度と、特定項目の文字列の書式的な特性に関する特徴量との両方に基づいて、画像処理装置1の処理結果の信頼度を算出するようにしてもよい。
例えば、信頼度算出部196が、処理済みの文書画像について予め記録された特徴量のばらつき度合いに基づいて信頼度を算出するようにしてもよい。特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
この図が示すように文書帳票には、その文書を作成した企業のマーク、作成日、作成担当者、文書内容が、その文書帳票に特有のフォーマットで記述されている。文書内容は、例えば文書帳票が発注票であれば発注した商品名やその発注個数などの情報の組が1つまたは複数示される。作業者はある1つの文書帳票に基づいて、その文書帳票に記述されている文字列のうち記録すべき特定の文字列(記録文字列)を、記録装置3を用いてデータベース4へ記録する。具体的には作業者は文書帳票を見ながら記録装置3がデータベース4に記録すべき記録文字列を入力する。また作業者は文書帳票の画像データを画像読取装置2に読み込ませる。文書帳票は作業者の操作に基づいて画像読取装置2が読み取り画像処理装置1へ出力する。そして記録装置3は作業者の操作と画像処理装置1の制御とに基づいて、1つの文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けてデータベース4に記録する。図4の例においては、日付51、発注先52、商品名53、数量54、金額55が記録文字列である。文書帳票5には作業者によって記録されない非記録文字列等のその他の情報も印字されている。当該情報は例えば文書帳票を発行した発注者の名称501、発注者のエンブレム画像502、文書帳票のタイトル503、挨拶文504などである。
図5で示すようにデータベース4は文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けて記録テーブルに記憶する。
次に画像処理装置1の処理フローについて順を追って説明する。
まずデータベース4にはある文書帳票についての画像データと、その文書帳票に記述されている記録文字列との組み合わせが、同じ書式(Format)の文書帳票複数枚分記録されている。例えば図4で示す文書帳票5の書式の記録文字列情報(記録文字列を示す情報)が複数枚分記録されているとする。
これら画像データと記録文字列情報との組み合わせとして、例えば過去の業務で扱われた文書帳票の画像データおよび記録文字列情報を用いることができる。過去の業務から画像データおよび記録文字列情報を必要量確保できる場合、画像処理装置に第一特徴量を取得させるために画像データおよび記録文字列情報を別途用意する必要はない。
このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
具体的には、特徴量抽出部192は、記録文字列毎に、複数の文書帳票におけるその記録文字列の文字列属性を解析して、1つの記録文字列に1つの特徴量を抽出する。
特徴量抽出部192が、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する方法は、特定の方法に限定されない。例えば、特徴量抽出部192が、複数の文書帳票から得られた複数の文字列属性について、先頭の文字の座標、末尾の文字の座標、文字の種類、文字の高さ、フォントの種類などの項目毎に最頻値(Mode)を求めるようにしてもよい。また、特徴量抽出部192が、先頭の文字の座標、末尾の文字の座標、文字の高さ、文字間の距離など数値で示される属性について項目毎に平均値(Average)または中央値(Median)を求めるようにしてもよい。また、特徴量抽出部192が、数値で表される項目について、その最大値および最小値を特徴量とするなど、範囲を有する特徴量、あるいは、複数の数値で表される特徴量を用いるようにしてもよい。また、特徴量抽出部192が、文字の種類、フォントの種類など数値以外の属性を数値化して特徴量を求めるようにしてもよい。また、特徴量抽出部192が、公知の機械学習アルゴリズムを用いて特徴量を抽出するようにしてもよい。
特徴量抽出部192が、文書帳票の1つの書式かつ1つの記録文字列について複数の数値を取得した場合、これら複数の数値をベクトル化して1つのベクトルの特徴量を抽出するようにしてもよい。
特徴量抽出部192は、記録文字列毎に得られた第一特徴量を、文書帳票の書式の識別子に紐づけてデータベース4に記録する(ステップS605)。
ステップS605の後、画像処理装置1は、図6の処理を終了する。
作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS701)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS702)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS703)。つまり第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。その後、特徴量抽出部192はデータベース4から記録文字列毎の第一特徴量を読み出す(ステップS704)。特徴量抽出部192は記録部193へ第三特徴量と第一特徴量とを出力する。
各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在する場合(ステップS705:YES)には、記録文字列に対応する文書帳票内の全ての記載事項に文字の記載が存在する。一方、各第一特徴量の座標に対応する座標を有する第三特徴量が全て存在しない場合には、文書帳票内の何れかの記載事項に文字の記載が無い状態である。
確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
図8は、表示部120が表示する確認画面の表示例を示す図である。図8の例で、表示部120は、文書帳票の画像における文字列C1〜C4のOCR処理結果として得られた4つの記録文字列を領域A1〜A4に示している。表示部120はこれらの記録文字列をその信頼度に応じた態様で表示している。
図8の例では、画像処理装置1によるOCR結果の信頼度が記録文字毎に3段階で示されている。領域A1およびA2に示す記録文字列が信頼度「高」なっており、領域A3に示す記録文字列が信頼度「中」となっており、領域A4に示す記録文字列が信頼度「低」となっている。表示部120は、これらの信頼度に応じた態様で領域A1〜A4の矩形を表示することで、記録文字列の信頼度を表示している。
ステップS709の後、画像処理装置1は、図7の処理を終了する。
記録部193は帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS712)。具体的には、記録部193は、ステップS711で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
ステップS712の後、画像処理装置1は、図7の処理を終了する。
画像処理装置1が、図7の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図7の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
第二実施形態では、画像処理装置1が、文書帳票の複数の書式に対応する場合について説明する。
図9は第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。
図9に示すように第二実施形態に係る画像処理装置1は、図3で示した各機能部に加え、さらにグループ分類部194、グループ特定部195の機能を有する。
次に第二実施形態に係る画像処理装置1の処理フローについて順を追って説明する。
データベース4には書式が異なる複数の文書帳票についての画像データと、各文書帳票に記述されている記録文字列の組み合わせが、その文書帳票毎に多数記録されている。このような状態で作業者が画像処理装置1を起動し、当該画像処理装置1へ処理開始を指示する。
特徴量抽出部192が、1つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか1つを選択することで、記録文字列が一意に特定される。
特徴量抽出部192は、得られた個別第一特徴量を、文書帳票の識別子および記録文字列の識別子に紐づけてデータベース4に記録する(ステップS906)。記録文字列の識別子として、例えばその記録文字列の位置を示す座標値を用いることができる。
具体的には、特徴量抽出部192は、ステップS904で何れの記録文字列にも対応付けられなかった文字列の各々について、その文字列の属性(文字列属性)を特徴量化する。第一特徴量の場合と同様、文書帳票を書式毎にグループ分けしていないステップS908の時点では、同じ書式の文書帳票に共通の特徴量を生成することはできない。そこで、特徴量抽出部192は、グループ毎の第二特徴量を抽出する準備として、文書帳票毎かつ非記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ非記録文字列毎の特徴量を個別第二特徴量と称する。
特徴量抽出部192が、文書帳票毎、かつ、複数の非記録文字列を纏めた個別第二特徴量を生成するようにしてもよい。例えば、特徴量抽出部192が、1つの文書帳票につき1つの個別第二特徴量を生成するようにしてもよい。
例えば特徴量抽出部192は、図4の文書帳票5の書式に含まれる非記録文字列である発注者の名称501、発注者のエンブレム画像、文書帳票のタイトル503、挨拶文504などを示す個別第二特徴量を、文書帳票5の識別子および非記録文字列の識別子に紐づけてデータベース4に記録する。
グループ分類部194は、全ての文書帳票のグループ分けが完了した場合(ステップS922:YES)、文書帳票の識別子とその文書帳票に付与されたグループ識別子とを対応付けてデータベース4のグループテーブル(記録テーブル)に記録する(ステップS923)。
一方、個別第二特徴量については、ステップS921でのグループ分けで使用できるように、特徴量抽出部192がステップS908で抽出しておく。但し、ステップ921で、グループ分類部194が、個別第二特徴量を用いず非記録文字列を用いて文書帳票のグループ分けを行うようにしてもよい。この場合、特徴量抽出部192がステップS924で、同一グループに属する複数の文書帳票の非記録文字列の文字列属性から(直接的に)グループ第二特徴量を抽出するようにしてもよい。この場合、特徴量抽出部192は、ステップS907〜ステップS909では特に何も処理を行わない。
特徴量抽出部192は、グループそれぞれについて各グループ第一特徴量、各グループ第二特徴量を算出し、グループの識別子に対応付けてデータベース4に記録する(ステップS925)。
ステップS925の後、画像処理装置1は、図10の処理を終了する。
作業者は新たな文書帳票を画像読取装置2に読み取らせる操作を行う。これにより画像読取装置2は文書帳票の画像データを生成して画像処理装置1へ出力(送信)する。画像処理装置1の取得部191は、通信部110の受信データから画像データを取得する(ステップS1001)。取得部191は画像データを特徴量抽出部192へ出力する。特徴量抽出部192は画像データをOCR処理して、文字列と、その文字列に含まれる文字の特徴(文字属性)と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する(ステップS1002)。特徴量抽出部192はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する(ステップS1003)。第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。
作業者はこの確認画面に表示された矩形領域を確認して、画像処理装置1が記録しようとする記録文字列を確認することができる。これにより作業者は記録文字列に不足が無いかを確認することができる。すなわち、作業者は全ての記録文字列が選択されているか(確認画面において矩形枠で囲まれているか)確認することができる。
確認画面にはOKまたはNGの何れかのボタンのアイコン画像が表示されている。このボタンのアイコン画像のうちOKのボタンを選択することにより作業者は記録文字列としての選択に不足がないことを指示することができる。他方、ボタンのアイコン画像のうちNGのボタンを選択することにより作業者は記録文字列としての選択に不足があることを指示することができる。
ステップS1010の後、画像処理装置1は、図11の処理を終了する。
記録部193は帳票画像データの識別子と記録文字列とを対応付けてデータベース4に記録する(ステップS1013)。具体的には、記録部193は、ステップS711で入力欄に入力された文字列については、入力された文字列を記録文字列とし、それ以外の記録文字については、第一特徴量と第三特徴量との比較で特定された文字列を記録文字列とする。そして、記録部193は、記録文字列と帳票画像データの識別子とを対応付けてデータベース4に記録する。
ステップS1013の後、画像処理装置1は、図11の処理を終了する。
画像処理装置1が、図11の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置1が記録文字列を抽出する精度が向上することが期待される。また、図11の処理で記録文字列が追加された場合、画像処理装置1が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。
また文書帳票に記録文字列が記載されていない場合でも、本来、記載されているべき記録文字列に対応する記載事項が記載されていない場合には画像処理装置1は入力用画像データを出力する。これにより文書帳票において記載すべき記載事項に対して入力していない誤りが見つかると共に、その記載事項が示す記録文字列を容易に記録することができる。
なお、画像処理装置1の処理の他の例としては、作業者が予め文書帳票のグループを画像処理装置1に登録しておいてもよい。例えば作業者は、過去において文書帳票の画像データを登録する際、文書帳票の種類に合わせてグループ識別子を入力しておき文書帳票の画像データと紐づけてデータベース4に登録しておく。これにより、同一グループ内に画像処理装置1の処理誤り等により異種の帳票が混じることがなくなり、精度のよい第一特徴量を抽出することができる。なおこの場合、登録時は作業者が文書帳票のグループを入力するが、新たな帳票に対しては、ステップS1004と同じく、第二特徴量を用いてグループ特定する。
また、画像処理装置1の処理の他の例としては、画像処理装置1は第二特徴量を用いて文書帳票をグループ分けするだけでなく、第一特徴量を用いて、また第二特徴量と共に第一特徴量を用いて、文書帳票をグループ分けするようにしてもよい。第一特徴量は記録文字列の特徴量であるが、同じ種類の文書帳票であれば、記録文字列の座標やその文字属性は同じであると考えられ、第一特徴量を用いて帳票をグループ分けすることが可能となる。最初のグループ分けを第四実施形態で示すように作業者が行い、新たな文書帳票に対してはステップS1004の処理により第一特徴量を用いてグループ分けすることにより、OCR処理において精度よく記録文字列を読み取ることが可能となる。
この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そしてグループ分類部194が第一特徴量に基づいて帳票画像データをグループ分けする。そして、特徴量抽出部192は、グループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
第二実施形態においてはステップS1004において第二特徴量に基づいて新たな帳票のグループを特定している。しかしながら、別の処理態様として、画像処理装置1はグループを特定する処理を行わずに、作業者により設定された全グループに対して、1グループごとに順に特定して第一特徴量を読み出し、第三特徴量と一致する個数をカウントする。正しいグループの場合には最も多く第一特徴量と第三特徴量とが一致するはずなので、画像処理装置1は一致個数が最も多いときの特定グループの第三特徴量それぞれに含まれる文字列をステップS1008において記録する。これにより、グループを特定しなくても記録文字列を記録することができる。
この場合、取得部191が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そして、特徴量抽出部192は、取得部191の取得した帳票画像データを認識処理した結果に基づいて、記録文字列の特徴を示す第一特徴量または記録文字列以外の認識情報を示す第二特徴量を抽出する。特徴量抽出部192は、予め設定された所定のグループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。
このように、画像処理装置1は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置1は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
特に、信頼度算出部196が文字列の書式的な特徴量に基づいて信頼度を算出することで、画像処理装置1は、文書のフォーマットの観点から光学的文字認識の結果の精度を評価することができる。例えば、信頼度算出部196が、文字認識そのものの信頼度と、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで文字認識そのものの信頼度のみに基づく場合よりも、信頼度を高精度に算出できることが期待される。
これにより、信頼度算出部196は、記録部193が記録文字列の特定に用いる第一特徴量に基づいて信頼度を算出することができる。記録部193が記録文字列の特定に用いる特徴量に基づいて信頼度を算出する点で、信頼度算出部196が、精度の高い信頼度を算出できることが期待される。
特徴量のばらつき度合いが大きい場合、画像処理装置に与えられる文書の書式が一定していない、あるいは、画像処理装置1が解析した書式の特徴が実際の書式を十分に反映していないといった原因が考えられる。この場合、処理対象の文書画像についても、画像処理装置1が想定している書式と異なる書式である可能性が比較的高い。この点で、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が低いと考えられる。
この点で、信頼度算出部196が、予め記録された特徴量のばらつき度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
また、信頼度算出部196は、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出する。
偏差の度合いが大きい場合、処理対象の文書画像の書式が、画像処理装置1が想定している書式と異なる、あるいは、想定している書式は合っていても画像処理装置1が解析した書式の特徴が、処理対象の文書画像については適切でないといった原因が考えられる。この場合、処理対象の文書画像に対する画像処理装置1の処理結果の信頼度が比較的低いと考えられる。
この点で、信頼度算出部196が、文字認識対象の文書画像における特徴量の、予め記録された特徴量における偏差の度合いに基づいて信頼度を算出することで、高精度に信頼度を算出できる。
図12は、実施形態に係る画像処理装置の構成の例を示す図である。図12に示す画像処理装置600は、信頼度算出部601と、画像出力部602と、を備える。
かかる構成にて、信頼度算出部601は、文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する画像出力部602は、その信頼度に応じた表示態様で特定項目の文字列を表した文字認識処理結果画像を出力する。
このように、画像処理装置600は、信頼度の計算によって光学的文字認識の結果の精度を評価することができる。そして、画像処理装置600は、信頼度を表示することで光学的文字認識の結果の精度の評価を作業者に提示することができる。作業者は、信頼度の表示を参照して注意すべき部分を把握することができ、必要に応じて対策を講じることができる。
特に、信頼度算出部601が文字列の書式的な特徴量に基づいて信頼度を算出することで、画像処理装置600は、文書のフォーマットの観点から光学的文字認識の結果の精度を評価することができる。例えば、信頼度算出部601が、文字認識そのものの信頼度と、文字認識処理対象の文書画像の書式についての特徴量に基づいて信頼度を算出することで文字認識そのものの信頼度のみに基づく場合よりも、信頼度を高精度に算出できることが期待される。
2 画像読取装置
3 記録装置
4 データベース
110 通信部
120 表示部
130 操作入力部
180 記憶部
190 制御部
191 取得部
192 特徴量抽出部
193 記録部
194 グループ分類部
195 グループ特定部
196 信頼度算出部
Claims (6)
- 文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する信頼度算出部と、
その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する画像出力部と、
を備える画像処理装置。 - 前記信頼度算出部は、複数の文書画像を用いた学習の結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す特徴量のうち、文字認識処理対象の文書画像の書式についての特徴量に基づいて、前記信頼度を算出する
請求項1に記載の画像処理装置。 - 前記信頼度算出部は、予め記録された前記特徴量のばらつき度合いに基づいて前記信頼度を算出する
請求項2に記載の画像処理装置。 - 前記信頼度算出部は、文字認識対象の文書画像における前記特徴量の、予め記録された前記特徴量における偏差の度合いに基づいて前記信頼度を算出する
請求項2または請求項3に記載の画像処理装置。 - 文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、
その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、
を含む画像処理方法。 - コンピュータに、
文書画像に含まれる特定項目の文字列の書式的な特徴量に基づいて、文字認識処理対象の文書画像に対する文字認識処理結果の信頼度を算出する工程と、
その信頼度に応じた表示態様で前記特定項目の文字列を表した文字認識処理結果画像を出力する工程と、
を実行させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071142A JP6791191B2 (ja) | 2018-04-02 | 2018-04-02 | 画像処理装置、画像処理方法およびプログラム |
SG11202009518SA SG11202009518SA (en) | 2018-04-02 | 2019-03-26 | Image-processing device, image-processing method, and storage medium on which program is stored |
EP19780887.6A EP3779781A4 (en) | 2018-04-02 | 2019-03-26 | IMAGE PROCESSING DEVICE, IMAGE PROCESSING PROCESS, AND STORAGE MEDIA ON WHICH A PROGRAM IS STORED |
US17/044,112 US11514700B2 (en) | 2018-04-02 | 2019-03-26 | Image-processing device, image-processing method, and storage medium on which program is stored |
PCT/JP2019/012884 WO2019194026A1 (ja) | 2018-04-02 | 2019-03-26 | 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071142A JP6791191B2 (ja) | 2018-04-02 | 2018-04-02 | 画像処理装置、画像処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019185138A true JP2019185138A (ja) | 2019-10-24 |
JP6791191B2 JP6791191B2 (ja) | 2020-11-25 |
Family
ID=68100758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018071142A Active JP6791191B2 (ja) | 2018-04-02 | 2018-04-02 | 画像処理装置、画像処理方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11514700B2 (ja) |
EP (1) | EP3779781A4 (ja) |
JP (1) | JP6791191B2 (ja) |
SG (1) | SG11202009518SA (ja) |
WO (1) | WO2019194026A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7301596B2 (ja) * | 2019-05-09 | 2023-07-03 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
US11275934B2 (en) * | 2019-11-20 | 2022-03-15 | Sap Se | Positional embeddings for document processing |
JP7478345B2 (ja) * | 2020-05-12 | 2024-05-07 | 京セラドキュメントソリューションズ株式会社 | 帳票データ取得システムおよび帳票データ取得プログラム |
JP2022097259A (ja) * | 2020-12-18 | 2022-06-30 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242441A (ja) * | 2002-02-15 | 2003-08-29 | Glory Ltd | 帳票処理方法および装置並びにプログラム |
JP2004152115A (ja) * | 2002-10-31 | 2004-05-27 | Toshiba Corp | 入力修正方法および入力修正支援システム |
JP2014137605A (ja) * | 2013-01-15 | 2014-07-28 | Fujitsu Marketing Ltd | レシート定義データ作成装置およびそのプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1793338A3 (en) | 1996-11-15 | 2007-12-19 | Toho Business Management Center | Business management system |
JP2006079190A (ja) | 2004-09-07 | 2006-03-23 | Japan Medical Data Center Co Ltd | 光学式文字読取装置 |
US20080008383A1 (en) | 2006-07-07 | 2008-01-10 | Lockheed Martin Corporation | Detection and identification of postal metermarks |
US9202127B2 (en) | 2011-07-08 | 2015-12-01 | Qualcomm Incorporated | Parallel processing method and apparatus for determining text information from an image |
PT2779138E (pt) * | 2013-03-13 | 2016-02-29 | Kapsch Trafficcom Ag | Método de leitura de números de placa de matrícula de veículos |
RU2571396C2 (ru) * | 2014-03-26 | 2015-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и система для верификации в процессе чтения |
US10089555B2 (en) * | 2014-03-28 | 2018-10-02 | Hyland Software, Inc. | Method, apparatus, and computer program product for providing automated testing of an optical character recognition system |
CN104239853B (zh) | 2014-08-27 | 2018-04-27 | 北京捷通华声语音技术有限公司 | 一种图像的处理方法和装置 |
JP6791641B2 (ja) | 2016-03-18 | 2020-11-25 | ヤフー株式会社 | 広告審査支援装置、広告審査支援方法および広告審査支援プログラム |
US10210384B2 (en) * | 2016-07-25 | 2019-02-19 | Intuit Inc. | Optical character recognition (OCR) accuracy by combining results across video frames |
US10108879B2 (en) * | 2016-09-21 | 2018-10-23 | Intuit Inc. | Aggregate training data set generation for OCR processing |
JP6749213B2 (ja) | 2016-10-27 | 2020-09-02 | 東芝プラントシステム株式会社 | 耐震補修構造および耐震補修方法 |
US10489643B2 (en) * | 2016-12-30 | 2019-11-26 | Morphotrust Usa, Llc | Identity document validation using biometric image data |
JP6938228B2 (ja) * | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
JP6874729B2 (ja) * | 2018-04-02 | 2021-05-19 | 日本電気株式会社 | 画像処理装置、画像処理方法およびプログラム |
-
2018
- 2018-04-02 JP JP2018071142A patent/JP6791191B2/ja active Active
-
2019
- 2019-03-26 EP EP19780887.6A patent/EP3779781A4/en active Pending
- 2019-03-26 SG SG11202009518SA patent/SG11202009518SA/en unknown
- 2019-03-26 WO PCT/JP2019/012884 patent/WO2019194026A1/ja unknown
- 2019-03-26 US US17/044,112 patent/US11514700B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003242441A (ja) * | 2002-02-15 | 2003-08-29 | Glory Ltd | 帳票処理方法および装置並びにプログラム |
JP2004152115A (ja) * | 2002-10-31 | 2004-05-27 | Toshiba Corp | 入力修正方法および入力修正支援システム |
JP2014137605A (ja) * | 2013-01-15 | 2014-07-28 | Fujitsu Marketing Ltd | レシート定義データ作成装置およびそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11514700B2 (en) | 2022-11-29 |
EP3779781A1 (en) | 2021-02-17 |
US20210192200A1 (en) | 2021-06-24 |
JP6791191B2 (ja) | 2020-11-25 |
WO2019194026A1 (ja) | 2019-10-10 |
EP3779781A4 (en) | 2021-04-28 |
SG11202009518SA (en) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6874729B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
WO2019194026A1 (ja) | 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 | |
US6525716B1 (en) | Handwritten data input device having coordinate detection tablet | |
JP6859977B2 (ja) | 画像処理装置、画像処理システム、画像処理方法およびプログラム | |
JP6100532B2 (ja) | レシート定義データ作成装置およびそのプログラム | |
JP7147185B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
WO2019194052A1 (ja) | 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体 | |
KR102243794B1 (ko) | 데이터 통합 장치 및 데이터 통합 방법 | |
JP2019008775A (ja) | 画像処理装置、画像処理システム、画像処理方法、プログラム | |
WO2019193923A1 (ja) | 画像処理装置、画像処理方法および記録媒体 | |
JP7111143B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2006323631A (ja) | 成果物情報管理システムおよび成果物情報管理プログラム | |
WO2019194029A1 (ja) | 画像処理装置、画像処理方法、及びプログラムを記憶する記憶媒体 | |
JPH1131046A (ja) | 筆記データ入力装置およびそのプログラム記録媒体 | |
JP5950369B2 (ja) | 入力支援システム、入力支援方法および入力支援プログラム | |
JP2023081564A (ja) | 情報表現パターン生成装置および方法 | |
JP5610019B2 (ja) | 検索装置およびプログラム | |
JP2020119480A (ja) | 様式データからデータベースアプリケーションを簡易に作成するシステム | |
JP2878772B2 (ja) | 光学的文字読取装置 | |
JPH08221399A (ja) | 構造化文書作成方法および装置 | |
JP2000172671A (ja) | K近傍法による類似予測の結果表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200622 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200629 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200923 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6791191 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |