JP7437837B2

JP7437837B2 - 仮想セルを用いたｏｃｒベースの文書分析システム及び方法

Info

Publication number: JP7437837B2
Application number: JP2023506558A
Authority: JP
Inventors: リ、ビョン－チョル; ソ、グァン－イル; キム、サン－ホン; オ、チン－ソル; ファン、チャン－ヒョン
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2020-08-21
Filing date: 2020-12-03
Publication date: 2024-02-26
Anticipated expiration: 2040-12-03
Also published as: KR102211516B1; WO2022039330A1; JP2023536174A

Description

本発明は、仮想セルを用いたＯＣＲベースの文書分析システム及び方法に関する発明であって、さらに詳しくは、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせる仮想セルを用いたＯＣＲベースの文書分析システム及び方法に関する。

個人や企業は、経済活動を営む中で収集する領収書を経費報告、支出決議などの会計処理もしくは総合所得税の申告などの税務処理のための事後の証憑書類として保管して管理する。

このようにして保管及び管理される領収書は、紙ベースのものであるが故に、根本的に、原本の毀損のリスクがあり、汚損、紛失、腐敗に対する露出を予防しなければならないという技術的・経済的な負担がある他、領収書の保管量の増大に比例して領収書の保管スペースを増やさなければならないという不都合がある。

また、個人や企業の担当者は、手書きの入力方式で、従来の領収書から上記の会計処理もしくは税務処理に必要とされる情報を抽出して分類して帳簿に記入したり、会計ソフトのインストールされたパソコン（ＰＣ）に入力・保存したりするが故に、情報の抽出タスクに不便さを感じるという不都合がある。

一方、文書に含まれている文字情報（テキスト）画像は、機械エンコーディングを通じて変換することができるが、機械エンコーディングを通じて変換された文字は、電子的に編集、検索などが可能であり、変換された文字は、ファイルなどの形態でデータベースに保存することも可能になる。

かような機械エンコーディングは、主として光学式文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を通じて行われることができ、コンピューターなどを用いて画像ベースのテキスト文書を自動的に感知、識別及びエンコーディングすることができる。

大韓民国登録特許第１０－１１３９８０１号公報（発明の名称：領収書の読み取りを通じた自動情報収集システム及び方法）には、従来の領収書に印刷された購買物品、購買数量、使用金額などをＯＣＲを通じて読み取って保存することにより、当該領収書の使用者の購買情報を自動的に収集、管理する構成が開示されている。

しかしながら、従来の技術によるＯＣＲは、低品質のプリンターまたはファックスなどにおいて印刷されたり、解像度の低い撮影手段において画像化されたり、しわくちゃになったり、あるいは、傾いた状態で撮影されたりした画像の場合にＯＣＲの認識の正確度が低下するという不都合がある。

また、従来の技術による情報収集システムは、単に物品、数量、使用金額などに対する認識しか行うことができないため、認識された項目同士のつながりは分からないという不都合がある。

さらに、従来の技術による情報収集システムは、バーコード付き領収書、特に、別途のスキャナー装置を介してデジタルデータ化した領収書を認識するように構成されているため、通常の領収書の認識は行い難いという不都合がある。

さらにまた、従来の技術による情報収集システムは、文書から文字しか認識しないため、認識された文字と文字との間の関係が分からないという不都合がある。

これらに加えて、従来の技術による情報収集システムは、認識された文字と数字とを正確にマッチングさせることができないという不都合がある。

これらの不都合を解消すべく、本発明は、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせる仮想セルを用いたＯＣＲベースの文書分析システム及び方法を提供することを目的とする。

上記の目的を達成するために、本発明の一実施形態は、仮想セルを用いたＯＣＲベースの文書分析システムであって、オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式（ｆｏｒｍ）、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、ＯＣＲモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列（ｒｏｗ／ｃｏｌｕｍｎ）情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置１００を備える。

また、上記の実施形態に係るオブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク（ＰＳＥＮｅｔ：ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）に基づいたディープラーニング（深層学習）モデルを用いて、文書画像を含む学習データからの形式、文字及び数字オブジェクトの位置の検知と、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、前記表示された四角い形状のピクセル位置値の生成と、を学習することを特徴とする。

さらに、上記の実施形態に係るオブジェクト検知モデルは、原画像（オリジナル画像）、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像を基に学習データを学習することを特徴とする。

さらにまた、上記の実施形態に係る文書分析装置は、認識対象となる画像を受信する入力部と、前記受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式（ｆｏｒｍ）、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示し、表示された文字及び数字オブジェクトのピクセル位置値を生成するオブジェクト検知モデリング部と、ＯＣＲモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力するＯＣＲモデリング部と、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準としてＭ×Ｎの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部と、前記生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果と、特定の機関において使用する文書データのフォームと、を保存するデータベースと、を備えることを特徴とする。

さらにまた、上記の実施形態に係る仮想セルフォーム構成モデリング部は、文字オブジェクトの左側ヘッダー領域と上側ヘッダー領域とを区分するが、前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれている文字オブジェクト同士の間隔及び大きさを算出し、前記区分された左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを配置することを特徴とする。

さらにまた、上記の実施形態に係る仮想セルフォーム構成モデリング部は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせるが、前記マッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出し、前記算出された傾きは、右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映されるようにすることを特徴とする。

さらにまた、本発明の一実施形態は、ＯＣＲベースの文書分析方法であって、ａ）文書分析装置が、認識対象となる画像を受信するステップと、ｂ）前記文書分析装置が、受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成するステップと、ｃ）前記文書分析装置が、ＯＣＲモデルを用いて検知された四角い形状のピクセル内において認識される文字及び数字の情報を出力するステップと、ｄ）前記文書分析装置が、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域と、に区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終結果を出力するステップと、を含む。

さらにまた、上記の実施形態に係る前記ステップｄ）の文字オブジェクトの左側及び上側のピクセルの位置を基準として配置するステップは、ｄ－１）文書分析装置が、文字オブジェクトの左側ヘッダー領域と上側ヘッダー領域とを区分するステップと、ｄ－２）前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれている文字オブジェクト同士の間隔及び大きさを算出するステップと、ｄ－３）前記区分された左側ヘッダー領域と上側ヘッダー領域を基準として仮想セルオブジェクトを配置するステップと、を含むことを特徴とする。

さらにまた、上記の実施形態に係る前記ステップｄ）の配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結ぶステップは、ｄ－４）前記文書分析装置が、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出するステップと、ｄ－５）前記文書分析装置が、行／列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶステップと、を含むことを特徴とする。

本発明は、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせることができるというメリットがある。

また、本発明は、認識された項目同士の連結及び相対的な位置関係を基に、文字の配置されたパターンを分析して特定の文書または領収書などを使用する病院、保険社などの機関において使用したフォームパターンと比較することにより、迅速かつ正確なマッチングを行うことが可能であるというメリットがある。

さらに、本発明は、病院、保険社などの機関において使用したフォームパターンと比較して使用することにより、ＯＣＲは数字のみの認識に単純化させることができるというメリットがある。

さらにまた、本発明は、標準化した画像ではなくても、様々な学習データを用いたディープラーニングを通じて認識の正確度を高めることができるというメリットがある。

さらにまた、本発明は、病院、薬局・ドラッグストアなどにおいて使用する様々なフォーマットの領収書に対して正確な情報の認識を行うことができるというメリットがある。

これらに加えて、本発明は、特定の様式（フォーム）がない書類のデジタル化を行うことができるというメリットがある。

本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの構成を示すブロック図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの文字位置の検知を説明するための例示図。図２に示す文字位置の検知結果を示す例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムのＯＣＲ認識結果を示す例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの文字位置検知モデルの結果とＯＣＲモデルの結果を示す例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムにおける仮想セルの連結過程を説明するための例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムにおける仮想セルの連結過程を説明するための別の例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの位置座標に基づいた仮想セルの連結過程を説明するための例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムにおける仮想セルを用いた最終的な連結状態を示す例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムを用いた、ずれて揃っていない文字の連結状態を示す例示図。図１の実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムを用いた、歪んだ文字の連結状態を示す例示図。本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析の過程を示すフローチャート。図１２の実施形態に係る仮想セルベースの項目のマッチング過程を示すフローチャート。

以下では、本発明の好適な実施形態及び添付図面に基づいて、本発明の好適な実施形態について詳しく説明するが、同一の参照符号は、同一の構成要素を指し示しているということを前提として説明を行う。

本発明の実施のための具体的な内容について説明するに先立って、本発明の技術的要旨と直接的な連関性がない構成に対しては、本発明の技術的な要旨を曖昧にしない範囲内において省略しているということに留意しなければならない。

また、この明細書及び特許請求の範囲に用いられた用語や単語は、発明者が自分の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に踏まえて、発明の技術的な思想に相応しい意味及び概念として解釈されなければならない。

この明細書において、ある部分がある構成要素を「備える」、「含む」、もしくは「有する」という言い回しは、他の構成要素を排除するものではなく、他の構成要素をさらに備えていてもよいということを意味する。

この明細書において、「…部」、「…器」、「…モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェアやソフトウェア、またはこれらの両方の組み合わせに区別され得る。

また、「少なくとも一つの」という用語は、単数及び複数を含む用語であると定義され、たとえ少なくとも一つという用語が存在しなくても、各構成要素が単数または複数で存在することができ、単数または複数を意味する場合があるということは自明であるといえる。

さらに、各構成要素が単数または複数で備えられるということは、実施形態に応じて変更可能であるといえる。

以下、添付図面に基づいて、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システム及び方法の好適な実施形態について詳しく説明する。

図１は、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの構成を示すブロック図であり、図２から図９は、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムの動作過程を説明するための例示図である。

図１から図９に基づいて説明すると、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析システムは、オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式（ｆｏｒｍ）、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、ＯＣＲモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域５００と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域５１０と、に区分するが、前記左側ヘッダー領域５００と上側ヘッダー領域５１０を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置１００を備えていてもよい。

また、文書分析装置１００は、外部から送られてくる認識対象となる画像を受信する入力部１１０を備えていてもよい。

入力部１１０は、ネットワークを介して接続された外部の端末から送られてくる画像またはスキャナーなどを介して取り込まれた画像などを受信するデータ通信手段から構成されてもよい。

さらに、文書分析装置１００は、入力部１１０を介して受信された認識対象となる画像から、オブジェクト検知モデルを用いて、画像に含まれている任意の形式（ｆｏｒｍ）、文字及び数字オブジェクトの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して四角い形状のピクセル位置情報を生成するオブジェクト検知モデリング部１２０を備えていてもよい。

すなわち、オブジェクト検知モデリング部１２０は、形式、文字及び数字オブジェクトに対する相対的な位置の認識を行い、形式、文字及び数字オブジェクトの位置に応じた配列が確認できるように、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、表示された四角い形状のピクセル位置値（座標情報）を生成する。

ここで、オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク（ＰＳＥＮｅｔ：ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）に基づいたディープラーニングモデルを用いて、文書画像を含む学習データから、形式、文字及び数字オブジェクトとその位置を検知し、検知率の向上のために学習を行うことができる。

また、オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像ベースの学習データを用いて学習することができる。

このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真の解像度など様々な条件下で撮影され得る画像に鑑みて原画像と比較して様々なバリエーションを与えた画像を事前に学習することにより、実際の環境下で受信される画像に対する検知率または認識率を向上させることができる。

一方、本発明においては、説明のしやすさのために、認識対象となる画像の実施態様として病院の領収書と関わる画像を挙げて説明するが、本発明はこれに何ら限定されるものではなく、薬局・ドラッグストアの領収書、税金計算書、見積もり書、請求書、取引明細書、各種の計算書及び領収書などを網羅する。

また、オブジェクト検知モデルは、自動増強（ＡｕｔｏＡｕｇｍｅｎｔａｔｉｏｎ）を通じて様々なバリエーションを与えた画像を基に検知を行うに際して、最適な規則を見付けることもできる。

さらに、オブジェクト検知モデルは、検知された形式、文字及び数字のオブジェクトに対して四角い形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。

すなわち、入力された文書画像２００における任意の検知領域２１０から検知された、例えば、文字オブジェクト２１１に対して、外部面に四角い形状のボックス２１２から構成されたピクセル位置値を生成し、認識されたオブジェクト２１３に関する情報を文字の検知結果２２０に表示することにより、四角い形状に基づいたパターンの認識が行えるようにする。

この実施形態においては、説明のしやすさのために、文字オブジェクトを例にとって説明するが、本発明はこれに何ら限定されるものではなく、数字、領収書のフォームを構成する形式（ｆｏｒｍ）をオブジェクトとして含んでいてもよいということは当業者にとって自明である。

さらにまた、四角い形状のボックス２１２は、好ましくは、長方形（ｒｅｃｔａｎｇｕｌａｒ）を呈していてもよい。

さらにまた、形式の周りに沿って表示された四角い形状の構成（または、配列）パターンに基づいて事前に保存された機関（病院）の領収書の構成と比較することで、どのような機関の領収書であるかを区別することもできる。

ここで、形式は、文書テーブルを構成するフォームにおける一つのセル（Ｃｅｌｌ）であって、長方形を呈していてもよい。

さらにまた、文書分析装置１００は、オブジェクト検知モデリング部１２０において検知された形式、文字及び数字オブジェクトに対して、ＯＣＲモデルを用いて文字及び数字の認識を行うＯＣＲモデリング部１３０を備えていてもよい。

ここで、ＯＣＲモデリング部１３０は、画像ベースのテキスト文書を自動的に感知して認識する構成要素であって、公知のＯＣＲモデルを用いて構成することができる。

さらにまた、ＯＣＲモデリング部１３０は、ＯＣＲ認識結果３００に対して認識された予測情報３１０と、予測情報３１０に関する信頼点数３２０と、を算出して一緒に提供することができる。

ここで、予測情報３１０は、認識されたオブジェクトに含まれるべき文字及び数字を示すものであり、信頼点数３２０は、ＯＣＲを通じて認識する過程において、内容が鮮明ではない場合、あるいは、結ばれた部分が途切れた場合などを反映して、全体の部分における認識済みの部分の比率を算出した認識率であってもよい。

また、文書分析装置１００は、生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域５００と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域５１０と、に区分するが、前記左側ヘッダー領域５００と上側ヘッダー領域５１０を基準としてＭ×Ｎの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部１４０を備えていてもよい。

すなわち、仮想セルフォーム構成モデリング部１４０は、オブジェクト検知モデリング部１２０における検知結果とＯＣＲモデリング部１３０における予測情報に基づいて認識した予測情報がどのような項目であるかがマッチングされるようにする。

また、仮想セルフォーム構成モデリング部１４０は、オブジェクト検知モデリング部１２０における検知結果２２０とＯＣＲモデリング部１３０における予測情報３１０とをマッチングさせるために、隣り合うすべての文字及び数字オブジェクトの四角い形状のピクセルを結ぶ。

さらに、通常の領収書などの会計関係の文書は、文字からなる項目が主として文書の左側と上側に配置される。

すなわち、文書画像４００上の左側には複数の左側オブジェクト４１０が検知され、文書画像４００上の上側には複数の上側オブジェクト４２０が検知され、個別の左側オブジェクト４１０及び上側オブジェクト４２０と連動して数字オブジェクト４３０が検知される。

数字オブジェクト４３０は、当該数字オブジェクト４３０に対応する左側オブジェクト４１０と上側オブジェクト４２０により当該数字オブジェクト４３０が有する属性（ａｔｔｒｉｂｕｔｅ）が定義される。

しかしながら、数字オブジェクト４３０を隣のオブジェクトと結ぶとき、入力された文書画像に含まれている数字オブジェクトが水平方向ではなく、傾いた状態に配置された場合、左側方向に配置された文字オブジェクトと結ぶ過程において、水平方向ではなく、傾いた方向の延長線に配置された別の文字オブジェクトと結ばれてしまうことがある。

本発明の一実施形態に係る仮想セルフォーム構成モデリング部１４０は、仮想セルオブジェクトを生成して文字オブジェクト及び数字オブジェクトが結ばれるようにする。

このために、仮想セルフォーム構成モデリング部１４０は、オブジェクト検知モデリング部１２０を介して抽出された文字オブジェクトの位置座標を基に、文書画像４００上において、左側ヘッダー領域５００と上側ヘッダー領域５１０とを分離して区分する。

また、仮想セルフォーム構成モデリング部１４０は、区分された左側ヘッダー領域５００に含まれている文字オブジェクト、すなわち、図中の左側ヘッダー領域５００の垂直方向の下方向に配置された複数の左側ヘッダーオブジェクト５０１と、上側ヘッダー領域５１０に含まれている文字オブジェクト、すなわち、図中の上側ヘッダー領域５１０の水平方向の右方向に配置された上側ヘッダーオブジェクト５１１、５１２ごとに四角い形状のピクセルの位置座標値を抽出する。

さらに、仮想セルフォーム構成モデリング部１４０は、文字オブジェクトの左側ヘッダー領域５００と上側ヘッダー領域５１０に含まれている文字オブジェクトとの間の間隔及び大きさ、すなわち、左側ヘッダーオブジェクト５０１、上側ヘッダーオブジェクト５１１、上側ヘッダーオブジェクト１５１２の間の間隔及び大きさを算出し、区分された左側ヘッダー領域５００と上側ヘッダー領域５１０を基準として複数の仮想セルグループ５３０、５３０ａが行／列情報に基づいて配置される。

すなわち、仮想セルグループ５３０、５３０ａに含まれている複数の仮想セルオブジェクト５３１、５３２が左側ヘッダー領域５００と上側ヘッダー領域５１０の行／列情報に基づいて配置される。

ここで、配置される仮想セルオブジェクト５３１、５３２の数は、左側ヘッダー領域５００と上側ヘッダー領域５１０において検知された左側ヘッダーオブジェクト５０１と上側ヘッダーオブジェクト５１１の数であるＭ×Ｎ個に見合う分だけ形成される。

また、仮想セルフォーム構成モデリング部１４０は、数字オブジェクト領域５２０と仮想セルグループ５３０、５３０ａとをマッチングさせるが、左側上端に配置された仮想セルオブジェクト５３１と数字オブジェクト５２１とが優先的にマッチングされるようにする。

このとき、左側ヘッダー及び上側ヘッダーの情報と最も密接に紐付けられた情報は左側上端であるため、最も正確度の高い左側上端の仮想セルオブジェクト５３１と数字オブジェクト５２１とを優先的にマッチングさせる。

さらに、仮想セルフォーム構成モデリング部１４０は、左側上端に配置された仮想セルオブジェクト５３１と数字オブジェクト５２１とをマッチングさせると、マッチングされた数字オブジェクト５２１と仮想セルオブジェクト５３１との間の傾きを算出する。

すなわち、仮想セルフォーム構成モデリング部１４０は、文書画像に含まれている数字オブジェクト５２１が水平方向ではなく、傾いた状態に配置された場合に間違えてマッチングされてしまうことを防ぐために、文書画像の上に設定された基準座標系から、座標系内の当該ベクトルの傾きを算出し、算出された傾きに基づいて画像の全体的な傾きを算出する。

さらにまた、仮想セルフォーム構成モデリング部１４０は、画像の全体的な傾きが反映されるように左側上端においてマッチングされた数字オブジェクト５２１と仮想セルオブジェクト５３１との間の傾き情報が右側下端に配置された仮想セルオブジェクトと数字オブジェクトｎ５２３とのマッチングまで反映されるようにする。

さらにまた、仮想セルフォーム構成モデリング部１４０は、仮想セルオブジェクトを左側、上端、下端のオブジェクトと傾きライン５４０及び上側ヘッダーライン５４１を介して結ぶが、左側ヘッダーオブジェクト５０１、上側ヘッダーオブジェクト５１１、上側ヘッダーオブジェクト１５１２などから算出したオブジェクト同士の間隔及び大きさに基づいて、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）が予め設定された基準値以上であれば結ばれるようにする。

さらにまた、仮想セルフォーム構成モデリング部１４０は、仮想セルオブジェクトを用いた連結が完了すると、仮想セルオブジェクトを除去して最終的な連結画像６００を生成して出力する。

このとき、仮想セルフォーム構成モデリング部１４０は、最終的な連結画像６００をデータベース１５０に保存された特定の機関の文書のボックスの配列情報と比較して、マッチングされるか否かを確認することができる。

ここで、特定の機関は、病院、薬局・ドラッグストア、会社など、領収書及び会計関係の文書を任意のフォームにて発行するあらゆる場所を網羅する。

また、仮想セルフォーム構成モデリング部１４０は、図１０に示すように、たとえ数字オブジェクト７３０がずれて揃っていない文字画像７００が入力されるとしても、左側ヘッダーオブジェクト７１０と上側ヘッダーオブジェクト７２０を基に仮想セルオブジェクトを生成した後、例えば、下にずれて揃っていない数字オブジェクト７３０を仮想セルオブジェクトとマッチングさせて傾きに基づいて結ぶことで、文字オブジェクトと数字オブジェクトとが正確に結ばれるようにする。

さらに、仮想セルフォーム構成モデリング部１４０は、図１１に示すように、たとえ図中の片側に歪んだ（または、傾いた）文字画像８００が入力されるとしても、左側ヘッダーオブジェクト８１０と上側ヘッダーオブジェクト８２０を基に仮想セルオブジェクトを生成した後、数字オブジェクト８３０を仮想セルオブジェクトとマッチングさせて傾きに基づいて結ぶことで、文字オブジェクトと数字オブジェクトとが正確に結ばれるようにする。

さらにまた、文書分析装置１００は、仮想セルフォーム構成モデリング部１４０から出力される再構成画像、特定の機関において使用する文書データのフォーム（または、形式）、生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果などを保存するデータベース１５０を備えていてもよい。

次いで、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析方法について説明する。

図１２は、本発明の一実施形態に係る仮想セルを用いたＯＣＲベースの文書分析の過程を示すフローチャートであり、図１３は、図１２の実施形態に係る仮想セルに基づいた項目のマッチング過程を示すフローチャートである。

図１、図１２及び図１３を参照すると、文書分析装置１００は、ネットワークを介して接続された外部端末またはファックスなどを介して認識対象となる領収書の画像を受信（Ｓ１００）する。

文書分析装置１００は、受信された認識対象となる領収書の画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトとその位置を検知し、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して四角い形状のピクセル位置情報を生成する文字検知ステップを行う（Ｓ２００）。

また、ステップＳ２００において、オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク（ＰＳＥＮｅｔ：ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）に基づいたディープラーニングモデルを用いて、文書画像を含む学習データから形式、文字及び数字オブジェクトとその位置を検知し、検知率の向上のために学習を行うことができる。

さらに、オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像ベースの学習データを用いて学習することができる。

続いて、文書分析装置１００は、検知された形式、文字及び数字オブジェクトに対する四角い形状のピクセル内において、ＯＣＲモデルを用いて文字及び数字情報を認識するＯＣＲ認識ステップ（Ｓ３００）を行う。

ステップＳ３００を行った後、文書分析装置１００は、生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域５００と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域５１０と、に区分し、前記左側ヘッダー領域５００と上側ヘッダー領域５１０を基準として仮想セルオブジェクトを生成して配置し、配置された仮想セルオブジェクトと数字オブジェクトをマッチングさせて行／列情報に基づいて結ぶ（Ｓ４００）。

ステップＳ４００についてさらに詳しく説明すれば、文書分析装置１００は、文字オブジェクトの左側及び上側のピクセルの位置を基準として仮想セルオブジェクトを配置するが、文字オブジェクトの左側ヘッダー領域５００（図７参照）と上側ヘッダー領域５１０（図７参照）とを区分（Ｓ４１０）する。

また、文書分析装置１００は、区分された左側ヘッダー領域５００と上側ヘッダー領域５１０に含まれている文字オブジェクト同士の間隔及び大きさを算出（Ｓ４２０）する。

続いて、文書分析装置１００は、区分された左側ヘッダー領域５００と上側ヘッダー領域５１０を基準として検知された左側ヘッダーオブジェクト５０１と上側ヘッダーオブジェクト５１１の数であるＭ×Ｎに見合う分だけ仮想セルオブジェクトを配置（Ｓ４３０）する。

ステップＳ４３０における仮想セルオブジェクトの配置が完了すると、文書分析装置１００は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出（Ｓ４４０）する。

すなわち、ステップＳ４４０において、文書分析装置１００は、文書画像に含まれている数字オブジェクトが水平方向ではなく、傾いた状態に配置された場合に間違えてマッチングされてしまうことを防ぐために、文書画像の上に設定された基準座標系から、座標系内の当該ベクトルの傾きを算出し、算出された傾きに基づいて画像の全体的な傾きを算出する。

続いて、文書分析装置１００が行／列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶ（Ｓ４５０）。

すなわち、文書分析装置１００は、画像の全体的な傾きが反映されるように左側上端においてマッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾き情報が右側下端に配置された仮想セルオブジェクトと数字オブジェクトｎとのマッチングまで反映されるようにし、反映結果に従って配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて左側ヘッダーオブジェクト５０１と上側ヘッダーオブジェクト５１１の行／列情報に基づいて結ぶ。

ステップＳ４５０における連結が完了すると、文書分析装置１００は、ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終的な連結画像６００を生成して出力（Ｓ５００）する。

したがって、文書上の項目に記載された数字や文字を認識し、認識された文字の相対的な位置を基に仮想セルを生成して数字に関する相対的な位置情報をマッチングさせることができる。

また、認識された項目同士の連結及び相対的な位置関係を基に、文字が配置されたパターンを分析して特定の文書または領収書などを使用する病院、保険社などの機関において使用したフォームパターンと比較することにより、迅速かつ正確なマッチングを行うことができる。

さらに、病院、保険社などの機関において使用したフォームパターンと比較して使用することにより、ＯＣＲは数字のみの認識に単純化させることができ、標準化した画像ではなくても、様々な学習データを用いたディープラーニング学習を通じて認識の正確度を高めることができる。

さらにまた、病院、薬局・ドラッグストアなどにおいて使用する様々なフォーマットの領収書に対して正確な情報の認識を行うことができ、特定の様式（フォーム）がない書類をデジタル化させることができる。

以上、本発明の好適な実施形態に基づいて説明したが、当該技術分野における熟練した当業者であれば、特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内において本発明に種々の修正及び変更を加えることができるということが理解できる筈である。

また、本発明の特許請求の範囲に記載された図面符号は、説明の明瞭性と便宜性のために記載したものに過ぎず、本発明はこれに何ら限定されるものではなく、実施形態を説明する過程において、図示の線の太さや構成要素の大きさなどは、説明の明瞭性と便宜性のために誇張して示されていてもよい。

さらに、上述した用語は、本発明における機能を考慮して定義された用語であって、これは、使用者、運用者の意図又は慣例によって異なってくる可能性があるため、これらの用語に関する解釈は、この明細書の全般に亘っての内容を踏まえて行われるべきである。

さらにまた、たとえ明示的に図示されていなかったり説明されていなかったりするとしても、本発明が属する技術分野において通常の知識を有する者が本発明の記載事項から本発明による技術的思想を含む様々な形態の変形を行うことができるということは明らかであり、これは、依然として本発明の権利範囲に属する。

また、添付図面に基づいて説明された上記の実施形態は、本発明を説明するための目的で述べられたものであり、本発明の権利範囲は、このような実施形態に何ら制限されるものではない。

１００：文書分析装置
１１０：入力部
１２０：オブジェクト検知モデリング部
１３０：ＯＣＲモデリング部
１４０：仮想セルフォーム構成モデリング部
１５０：データベース
２００：文書画像
２１０：検知領域
２１１：文字オブジェクト
２１２：四角い形状のボックス
２２０：文字検知結果
２１３：認識されたオブジェクト
３００：ＯＣＲ認識結果
３１０：予測情報
３２０：信頼点数
４００：文書画像
４１０：左側オブジェクト
４２０：上側オブジェクト
４３０：数字オブジェクト
５００：左側ヘッダー領域
５０１：左側ヘッダーオブジェクト
５１０：上側ヘッダー領域
５１１：上側ヘッダーオブジェクト
５１２：上側ヘッダーオブジェクト１
５２０：数字オブジェクト領域
５２１：数字オブジェクト
５２２：数字オブジェクト１
５２３：数字オブジェクトｎ
５３０：仮想セルグループ
５３０ａ：仮想セルグループ１
５３１：仮想セルオブジェクト
５３２：仮想セルオブジェクト１
５４０：傾きライン
５４１：上側ヘッダーライン
６００：最終的に結んだ画像
７００：ずれて揃っていない文字画像
７１０：左側ヘッダーオブジェクト
７２０：上側ヘッダーオブジェクト
７３０：数字オブジェクト
８００：歪んだ文字画像
８１０：左側ヘッダーオブジェクト
８２０：上側ヘッダーオブジェクト

Claims

オブジェクト検知モデルを用いて、認識対象となる画像から、任意の形式（ｆｏｒｍ）、文字及び数字のうちの少なくとも一つのオブジェクトの位置を検知するが、前記検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成し、ＯＣＲモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力し、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域（５００）と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域（５１０）と、に区分するが、前記左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列（ｒｏｗ／ｃｏｌｕｍｎ）情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする文書分析装置（１００）を備える、仮想セルを用いたＯＣＲベースの文書分析システム。
前記オブジェクト検知モデルは、プログレッシブスケール拡張ネットワーク（ＰＳＥＮｅｔ：ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）に基づいたディープラーニングモデルを用いて、文書画像を含む学習データからの形式、文字及び数字オブジェクトの位置の検知と、検知された形式、文字及び数字オブジェクトの周りに沿って四角い形状を表示し、前記表示された四角い形状のピクセル位置値の生成と、を学習することを特徴とする、請求項１に記載の仮想セルを用いたＯＣＲベースの文書分析システム。
前記オブジェクト検知モデルは、原画像、文書の任意の部分が折り畳まれた画像、文書の位置が任意の角度で傾いた画像、任意の照度を有する明るさの調節された画像、文書に表示された内容が鮮明ではなく、途切れた連結線を有する画像、文書の任意の部分にうねりが生じた画像、数字と連結線とが重なり合った画像を基に学習データを学習することを特徴とする、請求項２に記載の仮想セルを用いたＯＣＲベースの文書分析システム。
前記文書分析装置（１００）は、認識対象となる画像を受信する入力部（１１０）と、
前記受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式（ｆｏｒｍ）、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示し、表示された文字及び数字オブジェクトのピクセル位置値を生成するオブジェクト検知モデリング部（１２０）と、
ＯＣＲモデルを用いて、前記四角い形状のピクセル内において認識される文字及び数字の情報を出力するＯＣＲモデリング部（１３０）と、
前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域（５００）と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域（５１０）と、に区分し、前記左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）を基準としてＭ×Ｎの大きさの仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるようにする仮想セルフォーム構成モデリング部（１４０）と、
前記生成された四角い形状のピクセル位置値、認識された文字、数字の情報及びマッチング結果と、特定の機関において使用する文書データのフォームと、を保存するデータベース（１５０）と、
を備えることを特徴とする、請求項１に記載の仮想セルを用いたＯＣＲベースの文書分析システム。
前記仮想セルフォーム構成モデリング部（１４０）は、文字オブジェクトの左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）とを区分するが、
前記区分された左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）に含まれている文字オブジェクト同士の間隔及び大きさを算出し、前記区分された左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）を基準として仮想セルオブジェクトを配置することを特徴とする、請求項４に記載の仮想セルを用いたＯＣＲベースの文書分析システム。
前記仮想セルフォーム構成モデリング部（１４０）は、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせるが、
前記マッチングされた数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出し、前記算出された傾きは、右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映されるようにすることを特徴とする、請求項４に記載の仮想セルを用いたＯＣＲベースの文書分析システム。
ａ）文書分析装置（１００）が、認識対象となる画像を受信するステップと、
ｂ）前記文書分析装置（１００）が、受信された認識対象となる画像から、オブジェクト検知モデルを用いて、任意の形式、文字及び数字オブジェクトのうちの少なくとも一つの位置を検知し、検知された形式、文字及び数字オブジェクトの周りに四角い形状を表示して文字及び数字オブジェクトのピクセル位置値を生成するステップと、
ｃ）前記文書分析装置（１００）が、ＯＣＲモデルを用いて検知された四角い形状のピクセル内において認識される文字及び数字の情報を出力するステップと、
ｄ）前記文書分析装置（１００）が、前記生成された文字オブジェクトのピクセル位置値を基に、画像の左側領域に文字オブジェクトが配置される左側ヘッダー領域（５００）と、画像の上側領域に文字オブジェクトが配置される上側ヘッダー領域（５１０）と、に区分し、前記左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）を基準として仮想セルオブジェクトを生成して配置し、前記配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結んで、前記ＯＣＲモデルを通じて認識された文字及び数字の情報がディスプレイされるように最終結果を出力するステップと、
を含む、仮想セルを用いたＯＣＲベースの文書分析方法。
前記ステップｄ）の文字オブジェクトの左側及び上側のピクセルの位置を基準として配置するステップは、
ｄ－１）文書分析装置（１００）が、文字オブジェクトの左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）とを区分するステップと、
ｄ－２）前記区分された左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）に含まれている文字オブジェクト同士の間隔及び大きさを算出するステップと、
ｄ－３）前記区分された左側ヘッダー領域（５００）と上側ヘッダー領域（５１０）を基準として仮想セルオブジェクトを配置するステップと、
を含むことを特徴とする、請求項７に記載の仮想セルを用いたＯＣＲベースの文書分析方法。
前記ステップｄ）の配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて行／列情報に基づいて結ぶステップは、
ｄ－４）前記文書分析装置（１００）が、左側上端に配置された仮想セルオブジェクトと数字オブジェクトとをマッチングさせて数字オブジェクトと仮想セルオブジェクトとの間の傾きを算出するステップと、
ｄ－５）前記文書分析装置（１００）が、行／列情報に基づいて順次に移動しながら、前記算出された傾きを右側下端に配置された仮想セルオブジェクトと数字オブジェクトとのマッチングまで反映して結ぶステップと、
を含むことを特徴とする、請求項７に記載の仮想セルを用いたＯＣＲベースの文書分析方法。