JP2019082814A

JP2019082814A - 紙帳票データ化システム、ｏｃｒエンジン学習用画像生成装置および画像分析装置

Info

Publication number: JP2019082814A
Application number: JP2017209322A
Authority: JP
Inventors: 隆司小池; Takashi Koike
Original assignee: Infordio Co Ltd
Current assignee: Infordio Co Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2019-05-30
Anticipated expiration: 2037-10-30
Also published as: JP7088661B2

Abstract

【課題】請求書などの帳票から文字情報を抽出する精度を向上させる。【解決手段】帳票をスキャンした対象画像から文字情報を抽出して外部のデータベースに出力する紙帳票データ化システム１０にＯＣＲ部２３と構造解析部２５とマッピング部２６とを備える。ＯＣＲ部２３は、ＯＣＲエンジンを用いて対象画像から文字情報を抽出する。構造解析部２５は、ＯＣＲ部２３が抽出した文字情報をその文字情報の対象画像上の位置に基づいて構造化した構造化データを生成する。マッピング部２６は、構造化データとデータベースの構造との対応関係を示すマッピングテーブルを用いて構造化データを前記データベースに入力する。【選択図】図１

Description

本発明は、帳票をスキャンした対象画像から文字情報を抽出して出力する紙帳票データ化システム、画像から文字情報を抽出するＯＣＲエンジンに画像からの文字情報の抽出を学習させるＯＣＲエンジン学習用画像生成装置および対象画像から文字情報を抽出する画像分析装置に関する。

企業において取り扱う帳票は、多岐にわたる。このような帳票には、たとえば、他社が発行した請求書や、従業員の健康診断の結果、などがある。これらの帳票の内容は、文字情報の電子データが入手できない場合も多い。

社内で作成した、あるいは、外部から受領したこのような紙の帳票から、必要な情報を電子データとしてコンピュータに入力し、各種企業活動に使用する場合がある。コンピュータへの入力の際には、帳票の画像をスキャナーで読み取ったうえで、ＯＣＲによって文字情報に変換することもある。

特開２０１５−４６０２７号公報

請求書などの帳票の画像からＯＣＲによって文字情報を抽出する精度は、近年、向上している。しかし、抽出した文字情報に誤りがある場合には、人手で一つ一つ修正をしなければならない。このため、文書画像からの文字情報の抽出の更なる精度向上が望まれる。

そこで、本発明は、請求書などの帳票から文字情報を抽出する精度を向上させることを目的とする。

上述の目的を達成するため、本発明は、帳票をスキャンした対象画像から文字情報を抽出して外部のデータベースに出力する紙帳票データ化システムにおいて、ＯＣＲエンジンを用いて前記対象画像から文字情報を抽出するＯＣＲ部と、前記ＯＣＲ部が抽出した文字情報をその文字情報の前記対象画像上の位置に基づいて構造化した構造化データを生成する構造解析部と、前記構造化データと前記データベースの構造との対応関係を示すマッピングテーブルを用いて前記構造化データを前記データベースに入力するマッピング部と、を有することを特徴とする。

また、本発明は、画像から文字情報を抽出するＯＣＲエンジンに画像からの文字情報の抽出を学習させるＯＣＲエンジン学習用画像生成装置において、特定のフォントの文字に前記学習用画像変換を施して学習用画像を生成する学習用画像生成器と、認識済み文字を含む第１画像とその認識済み文字を前記特定のフォントで表した第２画像との組を用いて第２画像を第１画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、を有することを特徴とする。

また、本発明は、対象画像から文字情報を抽出する画像分析装置において、特定のフォントの文字に前記学習用画像変換を施して学習用画像を生成する学習用画像生成器と、認識済み文字を含む第１画像とその認識済み文字を前記特定のフォントで表した第２画像との組を用いて第２画像を第１画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、前記学習用画像生成器が生成した前記学習用画像とその学習用画像に対応する文字との組を用いて画像から文字の抽出を学習させる文字認識学習部と、を備えたＯＣＲエンジン学習装置によって学習したＯＣＲエンジンと、前記ＯＣＲエンジンを用いて前記対象画像から文字情報を抽出するＯＣＲ部と、を有することを特徴とする。

また、本発明は、対象画像から文字情報を抽出する画像分析装置において、文字および文字以外の画像が混在した第１処理前画像とその第１処理前画像の文字以外の画像を除去した第１処理後画像との組を用いて文字および文字以外の画像が混在した画像から文字以外の画像を除去する第１変換を第１機械学習器に学習させる第１学習装置と、前記第１変換を含む前処理を前記対象画像に施す前処理部と、前記対象画像から文字情報を抽出するＯＣＲ部と、を有することを特徴とする。

また、本発明は、対象画像から文字情報を抽出する画像分析装置において、罫線で表組された文字群を含む第２処理後画像とその第２処理後画像の罫線を除去した第２処理前画像との組を用いて罫線を使わないで表組された文字群の画像を罫線で表組された文字群の画像へ変換する第２変換を第２機械学習器に学習させる第２学習装置と、前記第２変換を含む前処理を前記対象画像に施す前処理部と、前記対象画像から文字情報を抽出するＯＣＲ部と、を有することを特徴とする。

また、本発明は、対象画像から文字情報を抽出する画像分析装置において、文字群を含む第３処理前画像とその第３処理前画像に含まれるそれぞれの文字に互いに重ならない枠を形成した第３処理後画像との組を用いて文字群を含む画像に含まれるそれぞれの文字に互いに重ならない枠を形成する第３変換を第３機械学習器に学習させる第３学習装置と、前記第３変換を含む前処理を前記対象画像に施す前処理部と、前記対象画像から文字情報を抽出するＯＣＲ部と、を有することを特徴とする。

本発明によれば、請求書などの帳票から文字情報を抽出する精度を向上させることができる。

本発明に係る帳票データ電子化システムの一実施の形態におけるブロック図である。本発明に係る帳票データ電子化システムの一実施の形態の分析対象の帳票の平面図である。本発明に係る帳票データ電子化システムの一実施の形態の分析の流れを示すフローチャートである。本発明に係る帳票データ電子化システムの一実施の形態における前処理済画像の平面図である。本発明に係る帳票データ電子化システムの一実施の形態における罫線を使わないで表組された文字群の平面図の例である。本発明に係る帳票データ電子化システムの一実施の形態における罫線で表組された文字群の平面図の例である。本発明に係る帳票データ電子化システムの一実施の形態における文字群の平面図の例である。本発明に係る帳票データ電子化システムの一実施の形態における１文字ずつ枠で囲まれた平面図の例である。本発明に係る帳票データ電子化システムの一実施の形態における特定の文字として正しく認識された画像とその文字を特定のフォントを用いて表現した画像である。本発明に係る帳票データ電子化システムの一実施の形態における学習用画像である。本発明に係る帳票データ電子化システムの一実施の形態における帳票の一部分の例である。本発明に係る帳票データ電子化システムの一実施の形態におけるマッピング画面である。

本発明に係る画像分析装置の一実施の形態を、図面を参照して説明する。なお、この実施の形態は単なる例示であり、本発明はこれに限定されない。同一または類似の構成には同一の符号を付し、重複する説明は省略する。

図１は、本発明に係る紙帳票データ化システムの一実施の形態におけるブロック図である。

本実施の形態の紙帳票データ化システム１０は、たとえば紙に印刷された帳票などの非定型文書から文字情報を抽出して、文書上の構造に応じて構造化した文字情報を出力する画像分析装置である。また、紙帳票データ化システム１０は、構造化した文字情報をデータベースに入力する。

本実施の形態の紙帳票データ化システム１０は、画像記憶部２０と画像解析前処理部２１と前処理済画像記憶部２２とＯＣＲ部２３と画像解析後処理部２４と構造解析部２５とマッピング部２６と抽出文字列記憶部２９と辞書３０とＯＣＲエンジン学習装置７０とスキャナー１２とディスプレイ１３とキーボード１４とマウス１５とを有している。紙帳票データ化システム１０は、たとえば１台のコンピュータ上に構成される。紙帳票データ化システム１０の一部、たとえば画像記憶部２０、画像解析前処理部２１、前処理済画像記憶部２２、ＯＣＲ部２３、画像解析後処理部２４、構造解析部２５、マッピング部２６、抽出文字列記憶部２９、および、辞書３０の一部または全部は、ネットワークで互いに接続された複数のコンピュータ上に分散して配置されていてもよい。画像記憶部２０と画像解析前処理部２１と前処理済画像記憶部２２とＯＣＲ部２３と画像解析後処理部２４と構造解析部２５とマッピング部２６と抽出文字列記憶部２９と辞書３０とＯＣＲエンジン学習装置７０とは、コンピュータにそれぞれの機能を持たせるプログラムによって実現される。

画像解析前処理部２１は、第１学習装置５１と第２学習装置５２と第３学習装置５３とを有している。第１学習装置５１は、第１機械学習器６１を含む。第２学習装置５２は、第２機械学習器６２を含む。第３学習装置５３は、第３機械学習器６３を含む。第１機械学習器６１、第２機械学習器６２、および、第３機械学習器６３は、いずれもＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ：敵対的生成ネットワーク）を含む機械学習器である。

ＯＣＲエンジン学習装置７０は、学習用画像生成学習部７１と学習用画像生成器７２と文字認識学習部７３とを有している。

図２は、本実施の形態の帳票データ電子化システムの分析対象の帳票の平面図である。

本実施の形態の紙帳票データ化システム１０は、たとえば紙に印刷された一月の請求額をまとめた帳票の画像（文書画像９０）を分析する。また、紙に印刷されたものだけではなく、スマートフォンやコンピュータのディスプレイに表示された内容を分析することもできる。

次に、本実施の形態の紙帳票データ化システム１０を用いた文書画像９０の分析処理の流れを説明する。

図３は、本実施の形態の画像分析装置の分析の流れを示すフローチャートである。

文書画像９０は、たとえばスキャナー１２でスキャンされて紙帳票データ化システム１０の画像記憶部２０に記憶される（Ｓ１）。スキャナー１２の代わりに、スマートフォンなどのカメラで撮像してもよい。カメラで撮像する場合には、画像に台形補正や水平補正を施すなどしてもよい。文書画像９０は、たとえばグレースケールに変換される。

次に、画像解析前処理部２１は、画像記憶部２０に記憶された文書画像９０に対して前処理を施す（Ｓ２）。

文字以外にハッチングや網掛けなどが含まれる画像から文字を抽出すると、抽出精度が低くなる傾向にある。そこで、文字の抽出の前に、画像解析前処理部２１は、対象画像から文字以外の画像を除去する。つまり、画像解析前処理部２１は、ある画像中の文字以外の部分を除去、すなわち、たとえば白などの紙面の色に変更する。

図４は、本実施の形態における前処理済画像の平面図である。

画像解析前処理部２１は、事前に、図２に示すようなハッチングや網掛けなどが含まれる第１処理前画像（文書画像９０）から、図４に示すようなハッチングや網掛けなどの文字以外の部分を除去した第１処理後画像５４を生成する第１変換を学習している。文字以外の部分を除去した第１処理後画像５４は、画像レタッチソフトウェアなどを用いて、たとえば手動で、文字以外が含まれる文書画像９０から文字以外の部分を除去することにより生成することができる。このようなハッチングや網掛けなどが含まれる文書画像９０とハッチングや網掛けなどの文字以外の部分を除去した第１処理後画像５４との組を複数作成し、第１学習装置５１は、これらの組を用いて文字および文字以外の画像が混在した画像から文字以外の画像を除去する第１変換を第１機械学習器６１に学習させる。画像解析前処理部２１は、第１機械学習器６１を用いて文書画像９０に第１変換を施すことにより、対象画像から文字以外の画像を除去することができるようになる。

このような第１機械学習器６１を用いることにより、文書画像９０から網掛けなどのノイズを除去することができる。網掛けやハッチング以外でも、文字認識の精度を低下させるノイズがわかっている場合には、そのようなノイズを除去する画像変換を第１機械学習器６１に学習させることにより、文書画像９０からノイズを除去することができる。つまり、第１機械学習器６１を用いた画像解析前処理部２１は、人工知能を用いたノイズ除去エンジン（ＡＩ−ノイズ除去エンジン）として機能している。

図５は、本実施の形態における罫線を使わないで表組された文字群の平面図の例である。図６は、本実施の形態における罫線で表組された文字群の平面図の例である。

また、画像解析前処理部２１は、事前に、図５に示すような罫線を使わないで表組された文字群の画像を、図６に示すような罫線で表組された文字組された文字群の画像へ変換する第２変換を学習している。図６に示すような罫線で表組された文字群を含む第２処理後画像５６は、画像レタッチソフトウェアなどを用いて、たとえば手動で、図５に示すような第２処理前画像５５に罫線を付加することによって生成することができる。あるいは、画像レタッチソフトウェアなどを用いて、たとえば手動で、第２処理後画像５６から罫線を除去することによって第２処理前画像５５を生成することもできる。第２学習装置５２は、第２処理前画像５５から、第２処理後画像５６を生成する第２変換を第２機械学習器６２に学習させる。罫線を使わないで表組された文字群の第２処理前画像５５と罫線で表組された第２処理後画像５６との組を複数作成し、第２学習装置５２は、これらの組を用いて、罫線を使わないで表組された文字群の画像を罫線を用いて表組した画像へ変換する第２変換を第２機械学習器６２に学習させる。画像解析前処理部２１は、第２機械学習器６２を用いて文書画像９０に第２変換を施すことにより、対象画像の罫線を用いない表組を罫線を用いた表組の画像へ変換することができるようになる。ここで、表組に用いる罫線は、文書画像９０中の文字の色とは異なる色（たとえば青）であることが好ましい。

このような第２機械学習器６２を用いることにより、非定型の文書に含まれる表組部分を罫線がない場合であっても、表組としてとらえることができる。その結果、文書の構造化が容易になる。

図７は、本実施の形態における文字群の平面図の例である。図８は、本実施の形態における１文字ずつ枠で囲まれた平面図の例である。

また、画像解析前処理部２１は、事前に、図７に示すような文字群の画像（第３処理前画像５７）を、図８に示すような１文字ずつが互いに重ならない枠で囲まれた画像（第３処理後画像５８）へ変換する第３変換を学習している。図８に示すような、画像中の文字群のそれぞの文字が互いに重ならない枠で囲まれた第３処理後画像５８は、画像レタッチソフトウェアなどを用いて、たとえば手動で、図７に示すような第３処理前画像５７に枠を付加することによって生成することができる。第３学習装置５３は、第３処理前画像５７から、第３処理後画像５８を生成する第３変換を第３機械学習器６３に学習させる。文字群を含む第３処理前画像５７とその文字群のそれぞれの文字を枠で囲んだ第３処理後画像５８との組を複数作成し、第３学習装置５３は、これらの組を用いて、文字群を含む画像をそれぞれの文字を枠で囲んだ画像へ変換する第３変換を第３機械学習器６３に学習させる。画像解析前処理部２１は、第３機械学習器６３を用いて文書画像９０に第３変換を施すことにより、対象画像に含まれるそれぞれの文字を枠で囲んだ画像へ変換することができるようになる。ここで、文字を囲む枠は、文書画像９０中の文字の色とは異なる色（たとえば赤）であることが好ましい。

このようにして画像解析前処理部２１は、画像記憶部２０に記憶された文書画像９０に前処理を施す。文書画像９０に第１変換、第２変換および第３変換を施した前処理済画像は、前処理済画像記憶部２２に記憶される。第１変換、第２変換および第３変換は、たとえばこの順番に行われる。また、白抜き文字など、他の部分と文字と地の色が逆になっている反転文字が形成されている領域は、色を反転する前処理を施してもよい。第２変換および第３変換で付加される罫線や枠は文書画像９０とは別のレイヤーに配置してもよい。画像ファイルのフォーマットが多層構造を持てる場合には、実際の文書画像９０以外の層（レイヤー）を作成し罫線や枠を配置する。画像ファイルのフォーマットが多層構造を持てない場合には、実際の文書画像９０以外の層（レイヤー）とは別の画像ファイルを作成し罫線や枠を配置する。

次に、ＯＣＲ部２３は、前処理済画像９３を画像処理して、文字情報を抽出する（Ｓ３）。ＯＣＲ部２３は、ＯＣＲ（光学式文字認識：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）エンジンを用いる。ＯＣＲエンジンは、学習によって精度が向上する機械学習器を用いる。ＯＣＲエンジンとしては、たとえば畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）を少なくとも一部に含むものを用いる。ＯＣＲエンジンは、画像を文字に変換する対応関係を用いて対象画像から文字情報を抽出する。画像解析前処理部２１が文字以外の部分を除去しておくことにより文字認識の精度が向上する。ＯＣＲエンジンには、以下の方法で文字認識を学習させる。ＯＣＲエンジンの学習は、ＯＣＲエンジン学習装置７０が行う。

まず、特定の文字として正しく認識された画像を複数用意する。次に、その特定の文字を特定のフォントを用いて表現した画像を形成する。

図９は、本実施の形態における特定の文字として正しく認識された画像とその文字を特定のフォントを用いて表現した画像である。

図９において、特定の文字として正しく認識された画像（第１画像）とは右側の画像であり、その文字を特定のフォントを用いて表現した画像（第２画像）とは左側の画像である。

学習用画像生成学習部７１は、特定の文字を特定のフォントを用いて表現した画像（第２画像）から、その特定の文字を認識した元の画像（第１画像）への変換（学習用画像変換）を学習用画像生成器７２に学習させる。学習用画像生成器７２は、特定のフォントに含まれる一部またはすべての文字の画像に学習用画像変換を施して学習用画像を生成する。これにより、特定の文字として正しく認識された画像と同じような特徴、たとえば滲み方など、を有する学習用画像を生成することができる。

図１０は、本実施の形態における学習用画像である。

図１０において、左側は特定のフォントで表現した文字の画像であり、右側は学習用画像変換を用いて左側の画像を変換した画像である。

このように学習用画像変換と、特定のフォントに含まれる文字画像とを用いることにより、画像データが存在しない文字についても、学習用のデータ（画像）を生成することができる。文字認識学習部７３は、この学習用のデータを用いて、画像を文字に変換する対応関係をさらにＯＣＲエンジンに学習させることにより、文字認識の精度が向上する。

ＯＣＲ部２３による文字抽出の際、第２機械学習器６２によって付加された罫線、および、第３機械学習器６３によって付加された枠は、画像中の文字と異なる色としておくことにより、文字認識の精度を低下させるおそれは小さい。さらに、第３機械学習器６３がそれぞれの文字に枠を付加していることにより、隣り合う文字の一部または全部が一つの文字として認識される可能性が極めて低下する。このため文字認識の精度が向上する。

なお、罫線および枠が文字認識の精度を低下させる場合などには、特定の色を削除することなどによって罫線および枠を削除して文字認識してもよい。このとき、罫線および枠で区切られた領域を仮想的に一つのブロックとして文字認識することにより、文字認識の精度を向上させることができる。

第２機械学習器６２を用いることにより、非定型の文書に含まれる表組部分を罫線がない場合であっても、表組としてとらえることができる。その結果、文書の構造化が容易になる。つまり、第２機械学習器６２を用いた画像解析前処理部２１およびＯＣＲ部２３は、人工知能を用いた自然言語解析・構造化エンジンとして機能している。

第３機械学習器６３を用いることにより、文書画像９０中に含まれる文字を１文字ずつ把握することができるため、文字認識の精度が向上する。つまり、第３機械学習器６３を用いた画像解析前処理部２１およびＯＣＲエンジンは、人工知能を用いたＯＣＲ文字認識エンジン（ＡＩ−ＯＣＲ文字認識エンジン）として機能している。

ＯＣＲ部２３が抽出した文字情報は、その文字情報の文書画像９０上の位置とともに、抽出文字列記憶部２９に記憶される。

次に、画像解析後処理部２４は、抽出した文字情報に対して後処理を施す（Ｓ４）。後処理では、たとえば抽出した文字情報の認識の正誤を辞書３０を用いてチェックする。

図１１は、本実施の形態における文書画像の一部分の例である。

たとえば図１１に示される画像をＯＣＲした結果、「入院拾付金日額」と認識した場合について考える。「入院拾付金日額」と同じ７文字の単語を辞書３０から抽出し、それぞれと排他的論理和（ＸＯＲ）をとる。より具体的には、「入院拾付金日額」のそれぞれの文字を２進数で表したものの列と、辞書３０に含まれる同じ長さの単語のそれぞれの文字を２進数で表したものの列とのＸＯＲを計算する。このＸＯＲの計算結果が７つすべてが０の列となれば、抽出した文字列が辞書３０に含まれていることとなる。

一方、たとえば辞書３０に含まれる７文字の単語として「成人病入院特約」が存在した場合、「入院拾付金日額」とＸＯＲをとると、計算結果は７つすべて１の列となる。このように、ＸＯＲの計算結果に１が含まれている場合には、抽出した文字列は辞書３０に含まれていないことになる。

ＸＯＲの計算結果がすべて０の列の単語が辞書３０に現れるまで、同じ長さの文字列についてＸＯＲの計算を繰り返す。ＸＯＲの計算結果がすべて０の列の単語が辞書３０に存在する場合には、抽出した文字列は正しいと判定する。ＸＯＲの計算結果がすべて０の列の単語が辞書３０に存在しない場合には、抽出した文字列は誤っている可能性があると判定する。

抽出した文字列が誤っている可能性があると判定し、かつ、ＸＯＲの計算結果に１つだけ１が存在する単語がある場合には、その単語と１文字だけ誤った画像認識をした可能性が高い。そこで、その単語を正しいものとして抽出した文字列を修正する。

このようにして、文字情報の認識精度が向上する。ここで、単語の長さが短い場合には、１文字だけ異なる単語が複数存在する可能性が高いので、正誤の判定が困難である。そこで、たとえば単語の長さとして５文字以上のものだけについてチェックをするようにしてもよい。

また、後処理において、抽出した文字情報の形態素解析を行ってもよい。形態素解析によって、抽出した文字情報に含まれる文字列の品詞を分析することができる。分析した結果は、文字列とともに記憶しておく。品詞だけではなく、固有名詞に該当するか否か、日付に該当するか否か、数量に該当するか否かなどを分析してもよい。

次に、構造解析部２５は、ＯＣＲ部２３が抽出し、必要に応じて画像解析後処理部２４が修正した文字情報を構造化する（Ｓ５）。ここで構造化とは、文字情報を一群の情報ごとにまとめ、さらにそれらの情報の階層関係を特定し、表現することである。たとえば、構造化された文字情報には、最上位の階層に帳票のタイトルがあり、その下層に文書作成者、文書作成日、および、メインの内容がある。それぞれの階層の項目は、複数の階層を含んでいてもよい。たとえば帳票のタイトルが請求書である場合、メインの内容は、請求項目と、合計が含まれていて、それぞれの請求項目には、品番、単価、数量、請求額が含まれている。

階層化に際しては、キーとバリューとを特定してもよい。項目名となりうる文字列を記憶したデータベースに対象とする文字列が含まれるか否かを検索することにより、キーを特定することができる。キーとバリューの紐づけには、それぞれの文字列の相対的な位置関係を用いる。それぞれの文字列に対して、その文字列の右側（ｒｉｇｈｔ）、左側（ｌｅｆｔ）、上（ａｂｏｖｅ）、および、下（ｂｅｌｏｗ）に位置する文字列をネイバー（ｎｅｉｇｈｂｏｒ）として記憶する。ネイバーの文字列のいずれかをバリューとする。

また、項目名が記載されていないバリューの候補リストを、「商品名」などの記載されない項目名とともに、予め記憶しておいてもよい。抽出した文字情報が、この候補リストの中の一つに該当する場合には、その抽出した文字情報をバリューとし、対応する項目名をキーとして記憶してもよい。

後処理（Ｓ４）において形態素解析などを行っていた場合には、品詞などの文字列の特徴を紐づけに用いてもよい。たとえば、特定のキーに対するバリューとしては数量しか対応しないなどのルールを用いて紐づけすることもできる。

キーとバリューとは、単純な一対一の関係でなくてもよい。たとえば、一つのキーに対して複数のバリューを組み合わせてもよい。キーは、メインキーにサブキーを従属させたような階層構造（ツリー構造）になっていてもよい。この場合、階層は３以上であってもよい。

第２機械学習器６２が付加した罫線は、文書の構造化に用いることができる。したがって、罫線が付加されていない表組の文書であっても、抽出した文字情報を容易に構造化することができる。

次に、マッピング部２６は、元の文書画像９０上に抽出した文字列をデータベースにマッピングする（Ｓ６）。

図１２は、本実施の形態の画像分析装置におけるマッピング画面である。

マッピング画面４０は、ディスプレイ１３に表示される。マッピング画面４０は、画像表示部４１と対応表示部４２とを備えている。画像表示部４１には、文書画像９０が表示される。対応表示部４２には、構造化された文字情報が表示される。

抽出した文字列は、構造化された文字情報（構造化データ）として表示される。マッピング部２６は、さらに、構造解析部２５が組み合わせたキーおよびバリューの対応関係の確認をユーザーに促し、誤りがある場合には修正できるようにする。

具体的には、まず、たとえば文書画像９０および抽出した文字情報をディスプレイ１３の画像表示部４１に表示する。抽出した文字情報は、たとえば文書画像９０の左側の対応表示部４２に、構造化された文字情報として表示される。

また、文字情報を抽出した部分に色付けをする。色付けされた部分にマウスの操作などでポインターを移動させてクリックした場合には、キーおよびバリューの組が表示された部分においてその部分に該当するキーまたはバリューの文字情報が他と区別できるように、たとえば色を変化させることにより表示される。この際、文書画像９０上では、選択された部分に対応するキーまたはバリューと紐づけられている文字情報が読み取られた部分が他と区別できるように、たとえば色を変化させることにより表示される。ユーザーは、この対応関係に間違いがない場合には、放置し、あるいは、間違いがないことを入力する。この対応関係に間違いがある場合には、キーおよびバリューの組が表示された部分において、キーまたはバリューの値を修正する。

修正に際しては、文字認識の誤りであれば、キーボードなどから入力する。対応付け（紐づけ）に誤りがある場合には、対応するキーまたはバリューが記されている部分を文書画像９０上でクリックするなどして、対応関係を修正してもよい。

文字認識の結果は、たとえば、複数の候補と、それぞれの候補の確からしさとして得られる。つまり、ある文字画像を認識した結果、候補１の文字の確からしさは９０％、候補２の文字の確からしさは１０％などと表現される。文書画像９０および抽出した文字情報をディスプレイ１３の画像表示部４１に表示する際、文字認識の確からしさで文字を色分けしてもよい。たとえば、確からしさが９０％などの所定の閾値未満であれば、赤い文字で表すなどとしてもよい。このように表示することにより、文字認識の確認者（ヴェリファイヤ）が文字認識をチェックしやすくなる。色分けは、文字単位で行ってもよいし、抽出した単語ごとでもよい。あるいは、文書全体として、所定の閾値未満の確からしさの文字の割合に応じて、色分けしてもよい。この場合、文字認識の確からしさが低い文字の割合が多い文書では、このシステムによる文字認識の結果を用いずに、作業者が手入力した方が早い場合もある。

さらに、マッピング部２６は、必要に応じて修正された構造化データをマッピングテーブルを用いて、データベースに入力する。ここで、マッピングテーブルとは、文書の論理構造とデータベースの構造との対応を表すテーブル（表）である。文書の論理構造は、構造化データの構造として表現されているため、マッピングテーブルを用いることにより、容易に文字情報をデータベースに流し込むことができる。

このように、本実施の形態では、文字認識の結果をユーザーが修正することにより、誤りを低減することができる。

本実施の形態の帳票データ電子化システムは、ＯＣＲエンジンおよび前処理部にディープラーニング可能な機械学習器を備えている。このため、学習を進めることにより、文字認識の精度を向上させることができる。

さらに、ユーザーによる修正を学習することにより、文字認識の精度およびマッピング（紐づけ）の精度を向上させることができる。たとえば、特定の文字を他の文字と誤認識していて、それをユーザーが修正する回数が増えていくことにより、その特定の文字を正しく認識させるようにすることができる。また、マッピングが誤っていた場合は、ユーザーが紐づけを修正することにより、正しくキーとバリューを組み合わせられるようになっていく。

このように本実施の形態の紙帳票データ化システム１０は、文字情報の文書画像９０中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析部２５を有している。このため、分析対象画像である文書画像９０で表される文書の構造、すなわち、項目名とそれに対応する値との対応関係を把握することができる。その結果、項目名とそれに対応する値との対応関係に基づいて、文字情報の認識精度を向上させることができる。

さらに、本実施の形態において、マッピング部２６は、構造解析部２５が紐づけした文字情報の組を文書画像９０と対応付けて表示し、文字情報の組の組み合わせに誤りがある場合にユーザーによる修正の入力を受け付ける。このため、項目名とそれに対応する値との対応関係をより正確に把握することができる。さらに、ユーザーによる修正の履歴を学習していくことにより、項目名とそれに対応する値との対応関係の把握の精度を向上させることができる。

１０…紙帳票データ化システム、１２…スキャナー、１３…ディスプレイ、１４…キーボード、１５…マウス、２０…画像記憶部、２１…画像解析前処理部、２２…前処理済画像記憶部、２３…ＯＣＲ部、２４…画像解析後処理部、２５…構造解析部、２６…マッピング部、２９…抽出文字列記憶部、３０…辞書、４０…マッピング画面、４１…画像表示部、４２…対応表示部、５１…第１学習装置、５２…第２学習装置、５３…第３学習装置、５４…第１処理後画像、５５…第２処理前画像、５６…第２処理後画像、５７…第３処理前画像、５８…第３処理後画像、６１…第１機械学習器、６２…第２機械学習器、６３…第３機械学習器、７０…ＯＣＲエンジン学習装置、７１…学習用画像生成学習部、７２…学習用画像生成器、７３…文字認識学習部、９０…文書画像、９３…前処理済画像

Claims

帳票をスキャンした対象画像から文字情報を抽出して外部のデータベースに出力する紙帳票データ化システムにおいて、
ＯＣＲエンジンを用いて前記対象画像から文字情報を抽出するＯＣＲ部と、
前記ＯＣＲ部が抽出した文字情報をその文字情報の前記対象画像上の位置に基づいて構造化した構造化データを生成する構造解析部と、
前記構造化データと前記データベースの構造との対応関係を示すマッピングテーブルを用いて前記構造化データを前記データベースに入力するマッピング部と、
を有することを特徴とする紙帳票データ化システム。
文字および文字以外の画像が混在した第１処理前画像とその第１処理前画像の文字以外の画像を除去した第１処理後画像との組を用いて文字および文字以外の画像が混在した画像から文字以外の画像を除去する第１変換を第１機械学習器に学習させる第１学習装置、
を有し、
前記前処理は前記第１変換を含む、
ことを特徴とする請求項１に記載の紙帳票データ化システム。
罫線で表組された文字群を含む第２処理後画像とその第２処理後画像の罫線を除去した第２処理前画像との組を用いて罫線を使わないで表組された文字群の画像を罫線で表組された文字群の画像へ変換する第２変換を第２機械学習器に学習させる第２学習装置、
を有し、
前記前処理は前記第２変換を含む、
ことを特徴とする請求項１または請求項２に記載の帳票データ電子化システム。
文字群を含む第３処理前画像とその第３処理前画像に含まれるそれぞれの文字に互いに重ならない枠を形成した第３処理後画像との組を用いて文字群を含む画像に含まれるそれぞれの文字に互いに重ならない枠を形成する第３変換を第３機械学習器に学習させる第３学習装置、
を有し、
前記前処理は前記第３変換を含む、
ことを特徴とする請求項１ないし請求項３のいずれか１項に記載の紙帳票データ化システム。
単語を記憶する単語データベースと、
前記単語のそれぞれの文字を２進数で表した第１データと前記ＯＣＲ部が抽出した前記文字情報のそれぞれの文字を２進数で表した第２データとの排他的論理和を求め、その排他的論理和のすべてが０のときに前記ＯＣＲ部が抽出した文字情報が正しいと判定し、その排他的論理和の１つが１で他が０のときに前記文字情報をその単語に修正する画像解析後処理部と、
を有することを特徴とする請求項１ないし請求項４のいずれか１項に記載の紙帳票データ化システム。
前記ＯＣＲエンジンは、特定のフォントの文字に前記学習用画像変換を施して学習用画像を生成する学習用画像生成器と、認識済み文字を含む第１画像とその認識済み文字を前記特定のフォントで表した第２画像との組を用いて第２画像を第１画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、前記学習用画像生成器が生成した前記学習用画像とその学習用画像に対応する文字との組を用いて画像から文字の抽出を学習させる文字認識学習部と、を備えたＯＣＲエンジン学習装置によって学習したものである、
ことを特徴とする請求項１ないし請求項５のいずれか１項に記載の紙帳票データ化システム。
画像から文字情報を抽出するＯＣＲエンジンに画像からの文字情報の抽出を学習させるＯＣＲエンジン学習用画像生成装置において、
特定のフォントの文字に前記学習用画像変換を施して学習用画像を生成する学習用画像生成器と、
認識済み文字を含む第１画像とその認識済み文字を前記特定のフォントで表した第２画像との組を用いて第２画像を第１画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、
を有することを特徴とするＯＣＲエンジン学習用画像生成装置。
対象画像から文字情報を抽出する画像分析装置において、
特定のフォントの文字に前記学習用画像変換を施して学習用画像を生成する学習用画像生成器と、認識済み文字を含む第１画像とその認識済み文字を前記特定のフォントで表した第２画像との組を用いて第２画像を第１画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、前記学習用画像生成器が生成した前記学習用画像とその学習用画像に対応する文字との組を用いて画像から文字の抽出を学習させる文字認識学習部と、を備えたＯＣＲエンジン学習装置によって学習したＯＣＲエンジンと、
前記ＯＣＲエンジンを用いて前記対象画像から文字情報を抽出するＯＣＲ部と、
を有することを特徴とする画像分析装置。
対象画像から文字情報を抽出する画像分析装置において、
文字および文字以外の画像が混在した第１処理前画像とその第１処理前画像の文字以外の画像を除去した第１処理後画像との組を用いて文字および文字以外の画像が混在した画像から文字以外の画像を除去する第１変換を第１機械学習器に学習させる第１学習装置と、
前記第１変換を含む前処理を前記対象画像に施す前処理部と、
前記対象画像から文字情報を抽出するＯＣＲ部と、
を有することを特徴とする画像分析装置。
対象画像から文字情報を抽出する画像分析装置において、
罫線で表組された文字群を含む第２処理後画像とその第２処理後画像の罫線を除去した第２処理前画像との組を用いて罫線を使わないで表組された文字群の画像を罫線で表組された文字群の画像へ変換する第２変換を第２機械学習器に学習させる第２学習装置と、
前記第２変換を含む前処理を前記対象画像に施す前処理部と、
前記対象画像から文字情報を抽出するＯＣＲ部と、
を有することを特徴とする画像分析装置。
対象画像から文字情報を抽出する画像分析装置において、
文字群を含む第３処理前画像とその第３処理前画像に含まれるそれぞれの文字に互いに重ならない枠を形成した第３処理後画像との組を用いて文字群を含む画像に含まれるそれぞれの文字に互いに重ならない枠を形成する第３変換を第３機械学習器に学習させる第３学習装置と、
前記第３変換を含む前処理を前記対象画像に施す前処理部と、
前記対象画像から文字情報を抽出するＯＣＲ部と、
を有することを特徴とする画像分析装置。