JP7444495B2

JP7444495B2 - Ｏｃｒベース文書分析システム及び方法

Info

Publication number: JP7444495B2
Application number: JP2022563495A
Authority: JP
Inventors: リ、ピョン－チョル; ソ、クァン－イル; キム、サン－ヒョン; オ、チン－ソル; ファン、チャン－ヒョン; チュン、アン－チェ; チェ、チュ－ヨン
Original assignee: アジャイルソーダインコーポレイテッド
Priority date: 2020-04-24
Filing date: 2020-08-21
Publication date: 2024-03-06
Anticipated expiration: 2040-08-21
Also published as: JP2023522360A; WO2021215589A1

Description

本発明は、ＯＣＲベース文書分析システム及び方法に関し、より詳細には、ＯＣＲ認識に基づいて認識されたテキストに対する相対的な位置情報、認識された項目間の連結、認識された情報に対する信頼点数を提供することによって、データテーブルの再構成、予測正確度検査者による確認作業時間を減少させることができるＯＣＲベース文書分析システム及び方法に関する。

個人や企業は、経済活動中に収集する領収書を、経費報告、支出決議などの会計処理或いは総合所得税申告などの税務処理のための事後証明書類として保管して管理する。

このように保管及び管理される領収書は紙でできているため、根本的に原本き損の危険があり、汚損、紛失、腐敗への露出を予防しなければならない技術的、経済的な負担があり、領収書保管量の増大に比例して領収書保管空間を増やさなければならないという問題点がある。

また、個人や企業の担当者は、上記の会計処理或いは税務処理に必要な情報を、手書き入力方式で従来の領収書から抽出し分類して帳簿に記入したり、会計管理プログラムが設置されたＰＣに入力、保存したりするため、情報抽出作業が不便である問題がある。

一方、文書に含まれている文字（テキスト）イメージは、機械エンコーディングによって変換できるが、機械エンコーディングによって変換された文字は電子的に編集、検索などが可能であり、変換された文字はファイルなどの形態でデータベースに保存することも可能である。

このような機械エンコーディングは、主に光学文字認識（ＯＣＲ）によって行われてよく、コンピュータなどを用いてイメージベースのテキスト文書を自動で感知、識別及びエンコードすることができる。

韓国登録特許第１０－１１３９８０１号公報（発明の名称：領収書判読を用いる自動情報収集システム及び方法）には、従来の領収書に印刷された購買物品、購買数量、使用金額などをＯＣＲで読み取って保存することによって、当該領収書の使用者の購買情報を自動で収集、管理する構成が開示されている。

しかしながら、従来技術によるＯＣＲは、低品質のプリンタ又はファクシミリなどで印刷されたり、解像度の低い撮影手段でイメージ化されたり、しわがよったり、又は傾いた状態で撮影されたりしたイメージは、ＯＣＲの認識正確度が低下する問題点がある。

また、従来技術による情報収集システムは、単に、物品、数量、使用金額などに対する認識が可能であるだけで、認識された項目間の連結関係は分からないという問題点がある。

また、従来技術による情報収集システムは、バーコード付き領収書、特に、別のスキャナー装置を用いてデジタルデータ化された領収書を認識するように構成されており、一般的な領収書は認識し難い問題点がある。

また、従来技術による情報収集システムは、文書から文字のみを認識するため、認識された文字と文字間の関係が分からない問題点がある。

また、従来技術による情報収集システムは、ＯＣＲで文字を認識しても、認識された文字を適切なＤＢのフィールドに保存できない問題点がある。

また、従来技術による情報収集システムは、新しい項目に対する認識がし難く、認識された項目を含む再構成フォームを生成できない問題点がある。

また、従来技術による情報収集システム及び方法は、ＯＣＲで収集された情報に対して、検査者が認識情報の異常有無を全て確認しなければならない問題点がある。

このような問題点を解決するために、本発明は、ＯＣＲ認識に基づいて認識されたテキストに対する相対的な位置情報、認識された項目間の連結、認識された情報に対する信頼点数を提供することによって、データテーブルの再構成、予測正確度検査者による確認作業時間を減少させることができるＯＣＲベース文書分析システム及び方法を提供することを目的とする。

上記の目的を達成するために、本発明の一実施例は、ＯＣＲベース文書分析システムであって、客体探知モデルを用いて認識対象イメージにおいて任意の形式（ｆｏｒｍ）、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置からなることを特徴とする。

また、前記実施例に係る文書分析装置は、任意の文書で用いられる文字（項目）情報を定義した項目ＤＢを生成及び保存し、

前記認識された文字に対して項目ＤＢの文字情報との比較によって矯正するか否かを決定し、認識された文字が矯正されることにより、前記認識された文字、矯正された文字及び数字情報を反映してディスプレイすることを特徴とする。

また、前記実施例に係る文書分析装置は、ＯＣＲモデルを用いた認識率に基づく認識された文字及び数字の信頼点数を算出し、算出された信頼点数を前記ディスプレイ情報に反映して視覚的に表示されるようにし、前記信頼点数は、補正モデルを用いてフォーム、形状、位置のうち少なくとも一つの補正を行うことによって算出される再建率がさらに反映されることを特徴とする。

また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部；前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部；ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部；前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部；及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース；を含むことを特徴とする。

また、上記の実施例に係る客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、前記表示された前記四角形式のピクセル位置値生成を学習することを特徴とする。

また、前記実施例に係る客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動できる。

また、前記実施例に係るフォーム構成モデリング部は、移動中に検索される全ての四角形状のピクセルを連結し、前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする。

また、前記実施例に係るフォーム構成モデリングは、生成された四角形状のピクセル中心点にマーカーを表示し、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動できる。

また、前記実施例に係るフォーム構成モデリング部は、移動中に検索される全ての四角形状のピクセルを連結し、連結された四角形状のマーカー位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする。

また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部；前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字（項目）情報を定義した項目ＤＢを生成する項目ＤＢ生成部；前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部；ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部；前記認識された文字情報を項目ＤＢと比較し、認識された文字を項目ＤＢの文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部；及び、前記生成された四角形状のピクセル位置値、矯正された文字及び数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベースを含むことを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、探知された文字に対して分析することを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、認識された文字と項目ＤＢ情報とを比較し、認識された文字に対する信頼点数を算出することを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、数字の客体の四角形状ピクセルサイズに対して、横長及び縦長が、隣接した他の四角形状ピクセルの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにすることを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、最も近い左側及び上側の四角形状ピクセルのうち少なくとも一つを連結し、連結された四角形状ピクセル内の文字の客体を探すまで連結することを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、検索された四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする。

また、前記実施例に係る文書分析装置は、信頼点数によって、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相の視覚化情報で表示されるようにすることを特徴とする。

また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部；前記受信した認識対象イメージにおいて客体探知モデルを用いて形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部；ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部；前記認識された文字を項目ＤＢの文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部；補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいて前記ディスプレイに反映して視覚的に表示されるようにする信頼度評価部；及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース；を含むことを特徴とする。

また、前記実施例に係る文書分析装置は、認識対象イメージに含まれた文字に対して任意の文書からあらかじめ設定された文字に対する項目ＤＢ情報を生成する項目ＤＢ生成部；をさらに含むことができる。

また、前記フォーム構成モデリング部は、前記探知された文字の客体に対して項目ＤＢ情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、前記矯正された文字を反映させることを特徴とする。

また、前記実施例に係るフォーム構成モデリング部は、文字及び数字の四角形状ボックスの色相が、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相で表示されることを特徴とする。

また、本発明の一実施例に係る文書分析方法は、ａ）文書分析装置が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して四角形状のピクセル位置値を生成する段階；ｂ）前記文書分析装置が、ＯＣＲモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階；及び、ｃ）前記文書分析装置が、前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせる段階；を含む。

また、前記実施例は、ａ）段階の客体探知モデルがＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形状、文字及び数字の客体の周りに沿って四角形状のボックスと前記四角形状のピクセル位置値生成を学習することを特徴とする。

また、前記実施例は、前記ａ）段階の客体探知モデルが、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする。

また、前記実施例に係るｃ）段階は、ｃ－１）生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動する段階；ｃ－２）前記文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結する段階；及び、ｃ－３）前記四角形状のピクセル位置には認識された文字と数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする。

また、前記実施例に係るｃ）段階は、ｃ’－１）前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動する段階；ｃ’－２）前記移動中に検索される全ての四角形状のピクセルを連結する段階；及び、ｃ’－３）前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする。

また、前記実施例に係るｃ）段階は、ｃ”－１）生成された四角形状のピクセルの中心点にマーカー（５２０）を表示する段階；ｃ”－２）前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結する段階；ｃ”－３）連結された四角形状のマーカー（５２０）位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較する段階；及び、ｃ”－４）前記比較結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする。

また、前記実施例に係るｂ）段階は、文書分析装置が前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字（項目）情報を定義した項目ＤＢを生成する段階；及び、文書分析装置が探知された文字の客体に対して項目ＤＢ情報とマッチさせ、マッチング結果によって、認識された文字を矯正する段階；をさらに含むことを特徴とする。

また、前記実施例に係る文書分析探知装置は、探知された文字の客体に対して自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）によって文字を分析し、分析された文字と項目ＤＢ情報との比較に基づいて、分析された文字に対する信頼点数を算出して、認識された文字を矯正するか否か判断し、前記認識された文字の矯正を行うことによってＮＬＰベースの矯正を行うことを特徴とする。

また、前記実施例に係る文書分析装置は、四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする。

また、前記実施例は、ｄ）前記文書分析装置が補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいてディスプレイに反映して視覚的に表示する段階；をさらに含むことを特徴とする。

また、前記実施例に係るｄ）段階の補正モデルは、フォーム、形状、位置のうち少なくとも一つの補正を行うことによる再建率と、項目ＤＢ情報とのマッチング結果による矯正された文字の反映有無に基づいて信頼点数を算出することを特徴とする。

また、前記実施例に係る文書分析装置は、前記生成された文字の客体のピクセル位置値に基づいて、左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるようにする特徴とする。

また、前記実施例に係る文書分析装置は、認識対象イメージを受信する入力部；前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された文字及び数字の客体のピクセル位置値を生成する客体探知モデリング部；ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部；前記生成された文字の客体のピクセル位置値に基づいて左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準にＭ×Ｎサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部；及び、前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース；を含むことを特徴とする。

また、前記実施例に係る仮想セルフォーム構成モデリング部は、文字の客体の左側ヘッダー領域と上側ヘッダー領域を区分するが、前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれた文字の客体間の間隔及びサイズを算出し、前記区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を配置することを特徴とする。

また、前記実施例に係る仮想セルフォーム構成モデリング部は、左側上端に配置された仮想セル客体と数字客体をマッチさせるが、前記マッチした数字客体と仮想セル客体間の勾配を算出し、前記算出された勾配は右側下端に配置された仮想セル客体と数字客体のマッチングまで反映されるようにすることを特徴とする。

また、本発明の一実施例はＯＣＲベース文書分析方法であって、ｉ）文書分析装置が認識対象イメージを受信する段階；ｉｉ）前記文書分析装置が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して文字及び数字の客体のピクセル位置値を生成する段階；ｉｉｉ）前記文書分析装置が、ＯＣＲモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階；及び、ｉｖ）前記文書分析装置が、前記生成された文字の客体のピクセル位置値に基づいて、左側領域に文字の客体が配置される左側ヘッダー領域と上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、前記左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるように最終結果を出力する段階；
を含む。

また、前記実施例に係るｉｖ）段階の文字の客体の左側及び上側ピクセル位置を基準に配置する段階は、ｉｖ－１）文書分析装置が、文字の客体の左側ヘッダー領域と上側ヘッダー領域を区分する段階；ｉｖ－２）前記区分された左側ヘッダー領域と上側ヘッダー領域に含まれた文字の客体間の間隔及びサイズを算出する段階；及び、ｉｖ－３）前記区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を配置する段階を含むことを特徴とする。

また、前記実施例に係るｉｖ）段階の配置された仮想セル客体と数字客体をマッチさせて行列情報に基づいて連結する段階は、ｉｖ－４）前記文書分析装置が、左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出する段階；及び、ｉｖ－５）前記文書分析装置が、行列情報によって順次に移動して前記算出された勾配を右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結する段階を含むことを特徴とする。

本発明は、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストに対する相対的な位置情報に基づいて項目間の連結関係を分析することによって、認識された数字を該当の項目にマッチさせることができる長所がある。

また、本発明は、認識された項目間の連結及び相対的な位置関係に基づいて文字が配置されたパターンを分析し、特定の文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することによって、迅速で正確なマッチングが可能であるという長所がある。

また、本発明は、病院、保険会社などの機関で使用したフォームパターンと比較して使用することによって、ＯＣＲを数字のみの認識として単純化させることができるという長所がある。

また、本発明は、標準化されたイメージでなくても、様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができる長所がある。

また、本発明は、認識対象イメージが傾いた状態で入力されても正確な認識を行うことができる長所がある。

また、本発明は、ＯＣＲによって認識された情報に対して、信頼点数に基づいて、正常認識された部分と、誤った部分又は不審な部分とを、互いに異なる色相の視覚化情報で提供することによって、検査者による確認作業時間を減少させることができる長所がある。

また、本発明は、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能である長所がある。

また、本発明は、病院、保険会社などの機関で使用する様々なフォーマットの領収書に対して正確で且つ信頼できる使用情報を提供できる長所がある。

本発明の第１実施例に係るＯＣＲベース文書分析システムの構成を示すブロック図である。

図１の実施例に係るＯＣＲベース文書分析システムの文字位置探知を説明するための例示図である。

図２による文字位置探知結果を示す例示図である。

図１の実施例に係るＯＣＲベース文書分析システムのＯＣＲ認識結果を示す例示図である。

図１の実施例に係るＯＣＲベース文書分析システムの文字位置探知モデルの結果及びＯＣＲモデルの結果を示す例示図である。

図１の実施例に係るＯＣＲベース文書分析システムの連結過程を説明するための例示図である。

図１の実施例に係るＯＣＲベース文書分析システムの四角形状連結を示す例示図である。

図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。図１の実施例に係るＯＣＲベース文書分析システムの自動増強モデリングのための学習データを示す例示図である。

本発明の一実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

図１４の実施例に係る項目マッチング過程を示すフローチャートである。

図１４の実施例に係る項目マッチング過程を示す他のフローチャートである。

図１４の実施例に係る項目マッチング過程を示すさらに他のフローチャートである。

本発明の第２実施例に係るＯＣＲベース文書分析システムの構成を示すブロック図である。

図１８の実施例に係るＯＣＲベース文書分析システムの項目ＤＢ生成を説明するための例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムの項目ＤＢを示す例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムの文字位置探知を説明するための例示図である。

図２１の実施例に係る文字位置探知結果を示す例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムのＮＬＰ過程を示す例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムのＯＣＲ認識結果を示す例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムの連結による再構成イメージを示す例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムの客体探知ボックスの連結過程を説明するための例示図である。

図１８の実施例に係るＯＣＲベース文書分析システムの客体探知ボックスの連結過程を説明するための他の例示図である。

本発明の第２実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

本発明の第３実施例に係るＯＣＲベース文書分析システムを示すブロック図である。

第３実施例に係る連結過程を説明するための例示図である。

図３０の実施例に係るＯＣＲベース文書分析システムの再構成イメージを示す例示図である。

本発明の第３実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

本発明の第４実施例に係るＯＣＲベース文書分析システムを示すブロック図である。

図３３の実施例に係るＯＣＲベース文書分析システムの仮想セル連結過程を説明するための例示図である。

図３３の実施例に係るＯＣＲベース文書分析システムの仮想セル連結過程を説明するための他の例示図である。

図３３の実施例に係るＯＣＲベース文書分析システムの位置座標に基づいて仮想セルの連結過程を説明するための例示図である。

図３３の実施例に係るＯＣＲベース文書分析システムの仮想セルを用いた最終連結状態を示す例示図である。

図３３の実施例に係るＯＣＲベース文書分析システムを用いてずれた文字連結状態を示す例示図である。

図３３の実施例に係るＯＣＲベース文書分析システムを用いて曲がった文字連結状態を示す例示図である。

本発明の第４実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

図４０の実施例に係る仮想セルベース項目マッチング過程を示すフローチャートである。

以下では本発明の好ましい実施例及び添付の図面を参照して本発明を詳細に説明するが、図中の同一の参照符号は同一の構成要素を指すことを前提にして説明する。

本発明の実施のための具体的な内容を説明するに先立ち、本発明の技術的要旨と直接の関連がない構成については、本発明の技術的要旨を乱さない範囲内で省略していることに留意されたい。

また、本明細書及び特許請求の範囲に使われる用語又は単語は、発明者が自分の発明を最善の方法で説明するために適切な用語の概念を定義することができるという原則に立ち、発明の技術的思想に符合する意味及び概念と解釈されるべきであろう。

本明細書において、あるな部分がある構成要素を「含む」という表現は、他の構成要素を排除する意味ではなく、他の構成要素をさらに含み得るということを意味する。

また、「‥部」、「‥器」、「‥モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はこれらの結合によって区別されてよい。

また、「少なくとも一つ」という用語は、単数及び複数を含む用語と定義され、「少なくとも一つ」という用語が存在しなくても、各構成要素が単数又は複数で存在してよく、単数又は複数を意味できることは明らかであろう。

また、各構成要素が単数又は複数で備えられることは、実施例によって変更可能であろう。

以下、添付の図面を参照して、本発明の一実施例に係るＯＣＲベース文書分析システム及び方法の好ましい実施例を詳細に説明する。

（第１実施例）

図１は、本発明の第１実施例に係るＯＣＲベース文書分析システムの構成を示すブロック図であり、図２は、図１の実施例に係るＯＣＲベース文書分析システムの文字位置探知を説明するための例示図であり、図３は、図２よる文字位置探知結果を示す例示図であり、図４は、図１の実施例に係るＯＣＲベース文書分析システムのＯＣＲ認識結果を示す例示図であり、図５は、図１の実施例に係るＯＣＲベース文書分析システムの文字位置探知モデルの結果及びＯＣＲモデルの結果を示す例示図であり、図６は、図１の実施例に係るＯＣＲベース文書分析システムの連結過程を説明するための例示図であり、図７は、図１の実施例に係るＯＣＲベース文書分析システムの四角形状連結を示す例示図である。

図１～図７を参照して説明すると、本発明の第１実施例に係るＯＣＲベース文書分析システムは、客体探知モデルを用いて認識対象イメージから任意の形式（ｆｏｒｍ）、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置１００からなってよい。

また、文書分析装置１００は、外部から送信される認識対象イメージを受信する入力部１１０を含んで構成されてよい。

入力部１１０は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。

また、文書分析装置１００は、入力部１１０で受信した認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式（ｆｏｒｍ）、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部１２０を含んで構成されてよい。

すなわち、客体探知モデリング部１２０は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値（座標情報）を生成する。

ここで、客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。

また、客体探知モデルは、領収書の原本イメージに基づいて、図８のように文書の任意の部分が折れたイメージ、図９のように文書の位置が任意の角度で傾いたイメージ、図１０のように任意の照度を有する明るさが調節されたイメージ、図１１のように文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、図１２のように文書の任意の部分が屈曲したイメージ、図１３のように数字と連結線が重なったイメージ、などに基づく学習データを用いて学習することができる。

このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案して、原本イメージと比較して様々な変化を与えたイメージを事前に学習することによって、実際の環境で受信されるイメージに対する探知率又は認識率を向上させることができる。

一方、本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。

また、客体探知モデルは、自動増強（ＡｕｔｏＡｕｇｍｅｎｔａｔｉｏｎ）によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。

また、客体探知モデルは、探知された形式、文字及び数字の客体に対して四角形状のピクセルを設定し、設定されたピクセルの位置値を生成することができる。

すなわち、入力された文書イメージ２００において任意の探知領域２１０から探知された、例えば文字の客体２１１に対して、外部面に四角形状のボックス２１２で構成されたピクセル位置値を生成し、認識された客体２１３に対する情報を文字探知結果２２０で表示することによって、四角形状ベースのパターン認識を可能にする。

本実施例では、説明の便宜のために、文字を客体として説明するが、これに限定されず、数字、領収書のフォームを構成する形式（ｆｏｒｍ）を客体として含んでもよいことは、当業者にとって明らかであろう。

また、四角形状のボックス２１２は、好ましくは長方形（ｒｅｃｔａｎｇｕｌａｒ）からなってよい。

また、形式の周りに沿って表示された四角形状の構成（又は、配列）パターンに基づいて、後述するフォーム構成モデリング部１４０が、あらかじめ保存された機関（病院）の領収書構成と比較して、どの機関の領収書であるかを区別することもできる。

ここで、形式は、文書テーブルを構成するフォームにおいて一つのセル（Ｃｅｌｌ）であり、長方形からなってよい。

また、文書分析装置１００は、客体探知モデリング部１２０で探知された形式、文字及び数字の客体に対してＯＣＲモデルを用いて文字及び数字を認識するＯＣＲモデリング部１３０を含んで構成されてよい。

ここで、ＯＣＲモデリング部１３０はイメージベースのテキスト文書を自動で感知して認識する構成であり、公知のＯＣＲモデルを用いて構成されてよい。

また、ＯＣＲモデリング部１３０は、ＯＣＲ認識結果３００に対して認識された予測情報３１０と、予測情報３１０に対する信頼点数３２０を算出して共に提供することができる。

ここで、予測情報３１０は、認識された客体に含まれる文字及び数字を示しているものであり、信頼点数３２０は、ＯＣＲによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して全体部分から認識された部分の比率を算出した認識率であってよい。

また、文書分析装置１００は、探知された形式、文字及び数字の客体の位置に基づいて、隣接した形式、全ての文字及び数字の客体の四角形状ピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部１４０を含んで構成されてよい。

すなわち、フォーム構成モデリング部１４０は、客体探知モデリング部１２０の探知結果２２０と、ＯＣＲモデリング部１３０の予測情報３１０に基づいて認識した予測情報がどの項目であるかマッチさせる。

また、フォーム構成モデリング部１４０は、客体探知モデリング部１２０の探知結果２２０と、ＯＣＲモデリング部１３０の予測情報３１０をマッチするために、隣接した全ての文字及び数字の客体の四角形状ピクセルを連結する。

また、一般的な領収書などの会計関連文書は、文字でできた項目が主に上側及び左側に配置されるので、形式の周りに沿って表示した四角形状のピクセルに対する連結のために、開始位置を、任意の数字情報を有する四角形状のピクセルとし、四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動しつつ全ての四角形状のピクセル（位置）を検索する。

また、フォーム構成モデリング部１４０は、開始位置から最も近い左側の四角形状ピクセル及び上側の四角形状ピクセルをまず連結し、その後、隣接した全ての客体を連結することが好ましい。

また、フォーム構成モデリング部１４０は、上述の移動及び検索過程を反復して全ての四角形状ピクセルの検索を行い、左側及び上側にテキスト、例えば、文字情報（項目）が含まれた四角形状ピクセルが出るまで移動、検索を行う。

また、フォーム構成モデリング部１４０は、文字情報が含まれた四角形状ピクセルが出ると、検索された全ての四角形状ピクセルを連結する。

すなわち、図６を参照すると、文書イメージ４００において基準客体ボックス４１０の左側及び上側に移動及び検索を行って次の客体の四角形状ボックスと連結を行い、左側に位置した左側客体ボックス４２０が文字又は数字であれば、左側連結線４４０で連結する。

また、上側に移動、検索及び連結を行って上側客体四角形状ボックスと連結を行い、上側に位置した上側客体ボックス４３０が文字情報（項目）又は数字であれば、上側連結線４４１で連結する。

続いて、フォーム構成モデリング部１４０は、隣接した四角形状ピクセルの連結後に、数字情報から始めて左側及び上側の文字情報（項目）を探すと、前記四角形状のピクセル位置には、認識された文字と数字情報をマッチさせてディスプレイさせる。

この時、フォーム構成モデリング部１４０は、データベース１５０に保存された特定機関文書のボックス配列情報と比較してマッチするか否かを確認することができる。

ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行するあらゆる所を含むことができる。

また、図７は、四角形状ピクセルの連結状態を示す図であり、文書に含まれた四角形状を客体として認識して連結したものである。

すなわち、フォーム構成モデリング部１４０は、客体探知モデルによって探知された形式と前記探知された形式の相対的位置に基づいて生成した四角形状のピクセル位置値と、ＯＣＲモデルによって認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動によって検索される全ての四角形状のピクセルを連結する。

また、フォーム構成モデリング部１４０は、連結された四角形状の配列情報を分析し、データベース１５０に保存された特定機関文書の配列情報と比較する。

比較の結果、分析された配列情報が特定機関文書の配列情報とマッチすれば、フォーム構成モデリング部１４０は、特定機関文書の四角形状ピクセル位置に、ＯＣＲモデルで認識された数字情報をマッチさせてディスプレイさせる。

また、フォーム構成モデリング部１４０は、客体探知モデルによって探知された形式と前記探知された形式の相対的位置に基づいて生成した四角形状のピクセル中心点にマーカー５２０を表示し、ＯＣＲモデルによって認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動によって検索される全ての四角形状のピクセルを連結する。

また、フォーム構成モデリング部１４０は、連結された四角形状のピクセル中心点にマーカー５２０を表示し、各マーカー５２０の位置情報を分析して、データベース１５０に保存された特定機関文書の配列情報と比較する。

比較の結果、特定機関文書の配列情報がマッチすれば、フォーム構成モデリング部１４０は、特定機関文書の四角形状ピクセル位置に、ＯＣＲモデルで認識された数字情報をマッチさせ、ディスプレイさせる。

また、文書分析装置１００は、フォーム構成モデリング部１４０から出力される再構成イメージ、特定機関で使用する文書データのフォーム（又は、形式）などを保存するデータベース１５０を含んで構成されてよい。

次に、本発明の第１実施例に係るＯＣＲベース文書分析方法を説明する。

図１４は、本発明の第１実施例に係るＯＣＲベース文書分析過程を示すフローチャートであり、図１５は、図１４の実施例に係る項目マッチング過程を示すフローチャートである。

図１、図１４及び図１５を参照すると、文書分析装置１００は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信（Ｓ１００）する。

文書分析装置１００は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する文字探知段階を行う（Ｓ２００）。

また、Ｓ２００段階で、客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。

また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習できる。

続いて、文書分析装置１００は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、ＯＣＲモデルを用いて文字及び数字情報を認識するＯＣＲ認識段階（Ｓ３００）を行う。

Ｓ３００段階を行った後、文書分析装置１００は、探知された形式、文字及び数字の客体の四角形状ピクセル位置に基づいて隣接した全ての四角形状ピクセルを連結し、連結された四角形状ピクセルの文字及び数字情報をマッチさせる段階（Ｓ４００）を行う。

Ｓ４００段階をより詳しく説明すると、文書分析装置１００は、生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動（Ｓ４１０）する。

この時、開始位置から最も近い左側の四角形状ピクセルと上側の四角形状ピクセルをまず連結し、その後、隣接した全ての四角形状ピクセルを左側方向又は右側方向に移動しつつ、文字情報（項目）が出るまで数字客体を検索する。

続いて、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結（Ｓ４１１）する。

また、文書分析装置１００は、連結された四角形状のピクセル位置に、ＯＣＲモデルによって認識された文字と数字情報をマッチさせてディスプレイさせ（Ｓ４１２）、データベース１５０に保存する。

一方、Ｓ４００段階で、文書分析装置１００は、連結された四角形状に対する配列情報を分析することもできる。

すなわち、生成された四角形状のピクセル位置値と、認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結（Ｓ４２０）する。

Ｓ４２０段階で連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較（Ｓ４２１）する。

Ｓ４２１段階での比較により、特定機関文書の配列情報とマッチするか否か判断（Ｓ４２２）し、分析された四角形状の配列情報がマッチすれば、特定機関文書の四角形状ピクセル位置に認識された数字情報をマッチさせてディスプレイする（Ｓ４２３）。

一方、Ｓ４２２の判断の結果、マッチする文書の配列情報がないと、Ｓ４１０段階を行うことができる。

また、Ｓ４００段階で、文書分析装置１００は、連結された四角形状ピクセルの配列情報をマーカーを用いて分析することもできる。

すなわち、文書分析装置１００は、生成された四角形状のピクセルの中心点にマーカー５２０を表示（Ｓ４３０）する。

また、文書分析装置１００は、認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結（Ｓ４３１）する。

また、文書分析装置１００は、マーカー５２０を用いた位置情報に基づいて四角形状ピクセルの構造情報を分析（Ｓ４３２）する。

Ｓ４３０段階の分析により、四角形状ピクセルの配列（又は、構造）が、データベース１５０に保存された特定機関文書の配列情報とマッチする文書があるか否か判断（Ｓ４３３）する。

Ｓ４３３段階の判断の結果、マーカーの配列情報と特定機関文書のマーカー配列情報がマッチすれば、特定機関文書の項目を検索（Ｓ４３４）し、検索された項目の位置に、ＯＣＲモデルで認識された数字情報をマッチさせてディスプレイさせる（Ｓ４３５）。

一方、Ｓ４３３段階の判断の結果、マッチする文書の配列情報がないと、Ｓ４１０段階を行うことができる。

したがって、文書上の項目に記載された四角形状、文字及び数字を含むテキストを認識し、認識された四角形状、テキストに対する相対的な位置情報に基づいて項目間の連結関係を分析することによって、認識された数字を該当の項目にマッチさせることができる。

また、認識された項目間の連結及び相対的な位置関係に基づいて、文字が配置されたパターンを分析し、特定文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することによって、迅速で正確なマッチングが可能である。

また、病院、保険会社などの機関で使用したフォームパターンと比較して使用することによって、ＯＣＲは数字のみの認識として単純化させることができる。

（第２実施例）

図１８は、本発明の第２実施例に係るＯＣＲベース文書分析システムの構成を示すブロック図である。

図１８を参照すると、本発明の第２実施例に係るＯＣＲベース文書分析システムは、任意の文書からあらかじめ設定された文字に対する項目ＤＢ３００’情報を生成及び保存し、客体探知モデルを用いて認識対象イメージから文字及び数字の客体と位置を探知し、探知された文字及び数字の客体に対して、ＯＣＲモデルを用いて文字及び数字を認識し、認識された文字に対して項目ＤＢ３００’情報との比較によって、矯正するか否かを決定し、認識された文字が矯正されることにより、前記認識された文字、矯正された文字及び数字が反映された再構成フォームを構成する文書分析装置１００’からなってよい。

また、文書分析装置１００’は、認識対象イメージを受信する入力部１１０’を含んで構成されてよい。

入力部１１０’は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。

また、文書分析装置１００’は、認識対象イメージに含まれた文字に対して、任意の文書からあらかじめ設定された文字に対する項目ＤＢ（３００’、図２０参照）情報を生成する項目ＤＢ生成部１２０’を含んで構成されてよい。

項目ＤＢ生成部１２０’は、図１９のように、例えば、病院領収書などの文書２００’に固定的に含まれ、請求内訳、診療内訳などの文字で表示された項目２１０’に対する情報を分析する。

また、項目ＤＢ生成部１２０’は、図１９で分析された項目に対して、図２０のような項目ＤＢ３００’を生成し、データベース１６０’に保存する。

本発明では、説明の便宜のために、認識対象イメージを、病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。

また、文書分析装置１００’は、入力部１１０’に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式（ｆｏｒｍ）、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部１３０’を含んで構成されてよい。

すなわち、客体探知モデリング部１３０’は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値（座標情報）を生成する。

すなわち、領収書の原本イメージに基づいて文書の任意の部分がｎ等分に折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージなどに基づいて学習データを学習できる。

このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案して、原本イメージと比較して様々な変化を与えたイメージを事前に学習することにより、実際環境で受信されるイメージに対する探知率又は認識率を向上させることができる。

すなわち、図２１のように、入力された文書イメージ４００’において任意の探知領域４１０’から探知された文字の客体４１１’に対して外部の周りに沿って四角形状のボックスで表示する。

また、客体探知モデルは、認識された客体に対する情報を、図２２のように、客体探知結果４２０’で表示することによって、四角形状ベースのパターン認識も可能である。

本実施例では、説明の便宜のために文字の客体を説明するが、これに限定されず、数字、領収書のフォームを構成する形式（ｆｏｒｍ）を客体として含んでもよいことは、当業者にとって明らかであろう。

また、形式の周りに沿って表示された四角形状の構成（又は、配列）パターンに基づいて、後述するフォーム構成モデリング部１５０が、あらかじめ保存された機関（病院）の領収書構成と比較してどの機関の領収書であるかを区別することもできる。

また、文書分析装置１００’は、客体探知モデリング部１３０で探知された形式、文字及び数字の客体に対してＯＣＲモデルを用いて文字及び数字を認識するＯＣＲモデリング部１４０’を含んで構成されてよい。

ここで、ＯＣＲモデリング部１４０’は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のＯＣＲモデルを用いて構成されてよい。

また、ＯＣＲモデリング部１４０’は、ＯＣＲモデルを用いたＯＣＲ認識結果に対して認識された予測情報と、予測情報に対して後述のフォーム構成モデリング部で算出された信頼点数に基づく信頼点数を共に提供できる。

ここで、予測情報は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数は、ＯＣＲによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。

また、文書分析装置１００’は、認識された文字情報を項目ＤＢ３００’と比較し、認識された文字を項目ＤＢ３００’の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部１５０’を含んで構成されてよい。

フォーム構成モデリング部１５０’は、認識対象イメージから認識される文字情報と比較するために、任意の文書、例えば、病院領収書、薬局領収書、取引明細書、税金計算書などで用いられる文字（項目）情報を定義した項目ＤＢ３００’を生成することができる。

また、フォーム構成モデリング部１５０’は、図２３のように、認識された文字の客体４１１’に対する自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、認識された文字に対して形態素又は分節音別にＮＬＰ客体４１１ａ’を分析し、分析された結果と項目ＤＢ３００’情報との比較に基づいて、認識された文字に対する信頼点数を算出して出力する。

例えば、認識された文字が「ＭＲＩ診断－」である場合に、項目ＤＢ３００’に保存された項目に対する情報を検索した後、検索された項目に対応する項目ＤＢ３００’情報との比較によって信頼点数を算出する。

すなわち、フォーム構成モデリング部１５０’は、病院領収書に新しい項目が認識されたりＯＣＲの失敗によって誤脱字、未認識字などが発生しても、ＮＬＰを用いて状況に合わせて処理可能にする。

また、フォーム構成モデリング部１５０’で算出された文字に対する信頼点数は、図２４のように、ＯＣＲ認識結果４２０’に認識された予測情報４２１’と、フォーム構成モデリング部１５０’で予測情報４２１’に対して算出された信頼点数４２２’を提供することもできる。

信頼点数４２２’が一定値以上であれば、使用者にとって、認識がよくなされたと判断でき、信頼点数４２２’が一定値以下であれば、使用者にとって、認識された結果に対して誤って認識されたと判断できる。

また、フォーム構成モデリング部１５０’は、認識された四角形状ピクセルの位置に基づいて、任意の開始位置で左側方向及び上側方向に隣接した全ての文字及び数字の四角形状ピクセルを連結し、図２５のように、再構成されたフォーム５００’を生成する。

一方、フォーム構成モデリング部１５０’は、数字客体のボックスサイズに対して、横長及び縦長が、隣接した他のボックスの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにする。

図２６を参照してより詳しく説明すると、数字として認識された開始客体ボックス６００を基準に、開始客体ボックス６００の横方向サイズ７００及び縦方向サイズ７１０を、左側客体ボックス６１０と上側客体ボックス６２０の横方向サイズ７００ａ及び縦方向サイズ７１０ａと比較して同一であるか、又は左側客体ボックス６１０と上側客体ボックス６２０の横方向サイズ及び縦方向サイズに含まれると、左側連結線８００及び上側連結線８１０で連結して表示させることができる。

本実施例では、説明の便宜のために、開始位置を、中央部分に位置した数字客体を開始客体ボックス６００として説明したが、開始客体ボックス６００の右側に位置した右側客体ボックス６００ａ、開始客体ボックス６００の下側に位置した下側客体ボックス６３０を開始位置として設定してもよく、例えば、右側客体ボックス６００ａを開始位置として設定すれば、「公団負担金」が認識された文字の客体が、上側客体ボックス６２０ａになり得る。

また、フォーム構成モデリング部１５０’は、上記の過程を反復して、最も近い左側及び上側のみを連結し、連結後に、数字から始めて左側及び上側にテキスト、例えば、文字の客体（項目）が出るまで移動及び検索して連結する。

また、フォーム構成モデリング部１５０’は、再構成フォームの項目が矯正された文字、すなわち項目ＤＢ３００’から選択された文字のみで構成されると、ＯＣＲモデリング部１４０’のＯＣＲモデルによって認識された数字のみを認識し、認識された数字と項目をマッチさせることもできる。

また、文書分析装置１００’は、フォーム構成モデリング部１５０’で再構成フォームと、再構成されたフォームからなる再構成イメージと、特定機関で使用する文書データのフォームと項目ＤＢを保存するデータベース１６０’を含んで構成されてよい。

ここで、特定機関は、病院、薬局、会社など、領収書及び会計関連文書を任意のフォームで発行する全ての所を含むことができる。

また、フォーム構成モデリング部１５０’は、図２７のように、傾いた状態のイメージが入力された場合に、傾いた状態で左側に移動し続くと他のラインの項目と連結されることがあるので、空欄感知モデルを用いて四角形状ピクセルに情報があるか否かを確認することができる。

すなわち、フォーム構成モデリング部１５０’は、任意の数字情報を含む第１四角形状ピクセル９１０から左側方向に移動し、この時、第２四角形状ピクセル９２０が空欄であれば、四角形状ピクセル間に連結がなされるようにし、四角形状ピクセル間に誤って連結されることを防止可能にする。

次に、本発明の第２実施例に係るＯＣＲベース文書分析方法を説明する。

図２８は、本発明の第２実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

図１８～図２８を参照すると、文書分析装置１００’は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信（Ｓ１００’）する。

また、文書分析装置１００’は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知段階を行う（Ｓ２００’）。

また、Ｓ２００’段階で、客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体と、その位置を探知し、探知率の向上のために学習を行うことができる。

続いて、文書分析装置１００’は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、ＯＣＲモデルを用いて文字及び数字情報を認識するＯＣＲ認識段階（Ｓ３００’）を行う。

Ｓ３００’段階を行った後、文書分析装置１００’は、任意の文書から固定化されているテキスト情報、すなわち、項目に対する文字情報を項目ＤＢ３００情報として生成し、生成された項目ＤＢ３００’情報はデータベース１６０’に保存（Ｓ４００’）する。

前記認識された文字情報を項目ＤＢ３００’と比較（Ｓ５００’）し、認識された文字を項目ＤＢ３００’の文字情報に矯正するに当たって矯正するか否かを決定するための誤脱字又は未認識字の有無を判断（Ｓ６００’）する。

Ｓ６００’段階の判断の結果、誤脱字又は未認識字があれば、文書分析装置１００’は、ＮＬＰベースの矯正を行う（Ｓ７００’）。

すなわち、Ｓ７００’段階で、文書分析装置１００’は自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、探知された文字に対して分析する。

また、Ｓ７００’段階で、文書分析装置１００’は、分析された文字と項目ＤＢ３００’情報との比較に基づいて分析された文字に対する信頼点数を算出して出力することもできる。

続いて、文書分析装置１００’は、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報がマッチ（Ｓ８００’）させる。

すなわち、文書分析装置１００’は、開始位置を数字客体にして開始位置の左側方向及び上側方向に移動及び連結する。

この時、開始位置から最も近い左側及び上側のみをまず連結し、その後、隣接した全ての客体を連結し、文字の客体（項目）が出るまで数字客体を検索しつつ移動する。

また、文字の客体を含む項目検索が完了すると、文書分析装置１００’は、認識された文字及び矯正された文字と数字を項目別に対応してマッチさせる。

また、文書分析装置１００’は、認識された文字及び矯正された文字を反映して再構成されたフォームに基づいて再構成イメージの最終結果を出力（Ｓ９００’）し、再構成されたフォームと再構成イメージはデータベース１５０’に保存する。

したがって、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストに対する相対的な位置情報に基づいて、文書に固定化されている文字を含む項目間のマッチングによって迅速度を増加させることができる。

また、病院、保険会社などの機関で使用した固定化された用語と比較して使用することによって、ＯＣＲは数字のみの認識として単純化させることができる。

また、標準化されたイメージでなくても、様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができ、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能であり、新しい項目に対する認識と予測値の正確度を提供することによって、信頼度を向上させることができる。

（第３実施例）

図２９は、本発明の第３実施例に係るＯＣＲベース文書分析システムを示すブロック図である。

図２９を参照すると、本発明の第３実施例に係るＯＣＲベース文書分析システムは、客体探知モデルを用いて認識対象イメージにおいて任意の形式（ｆｏｒｍ）、文字及び数字のうち少なくとも一つの客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を認識し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置１００”を含んで構成されてよい。

また、文書分析装置１００”は、認識率によって、認識された文字及び数字の信頼点数を算出し、算出された信頼点数をディスプレイに反映して視覚的に表示されるようにすることができる。

また、文書分析装置１００”は、再構成フォームが信頼点数によって、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが、互いに異なる色相の視覚化情報で表示されるようにすることができる。

また、文書分析装置１００”は、信頼点数が、補正モデルを用いてフォーム、形状、位置のうち少なくとも一つの補正を行うことによって算出される再建率がさらに反映されるようにすることができる。

このために、文書分析装置１００”は、認識対象イメージを受信する入力部１１０”を含んで構成されてよい。

入力部１１０”は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。

また、文書分析装置１００”は、認識対象イメージに含まれた文字に対して、任意の文書からあらかじめ設定された文字に対する項目ＤＢ（３００’、図２０参照）情報を生成する項目ＤＢ生成部１２０”を含んで構成されてよい。

項目ＤＢ生成部１２０”は、図１９のように、例えば病院領収書などの文書２００’に固定的に含まれ、請求内訳、診療内訳などの文字で表示された項目２１０’に対する情報を分析する。

また、項目ＤＢ生成部１２０”は、図１９で分析された項目に対して図２０のような項目ＤＢ３００’を生成し、データベース１７０”に保存する。

また、文書分析装置１００”は、入力部１１０”に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式（ｆｏｒｍ）、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部１３０”を含んで構成されてよい。

すなわち、客体探知モデリング部１３０”は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値（座標情報）を生成する。

このように、様々な環境、例えば、照明、撮影角度、撮影時の揺れ、撮影構図、写真解像度などの様々な与件で撮影され得るイメージを勘案し、原本イメージと比較して様々な変化を与えたイメージを事前に学習することによって、実際環境で受信されるイメージに対する探知率又は認識率を向上させることができる。

また、客体探知モデルは、認識された客体に対する情報を、図２２のように客体探知結果４２０’で表示することによって、四角形状ベースのパターン認識も可能である。

本実施例では説明の便宜のために文字を客体として説明するが、これに限定されず、数字、領収書のフォームを構成する形式（ｆｏｒｍ）を客体として含んでもよいことは、当業者にとって明らかであろう。

また、形式の周りに沿って表示された四角形状の構成（又は、配列）パターンに基づいて、後述するフォーム構成モデリング部１５０”があらかじめ保存された機関（病院）の領収書構成と比較してどの機関の領収書であるかを区別することもできる。

また、文書分析装置１００”は、客体探知モデリング部１３０”で探知された形式、文字及び数字の客体に対してＯＣＲモデルを用いて文字及び数字を認識するＯＣＲモデリング部１４０”を含んで構成されてよい。

ここで、ＯＣＲモデリング部１４０”は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のＯＣＲモデルを用いて構成されてよい。

また、ＯＣＲモデリング部１４０”は、ＯＣＲモデルによって図２４のように認識されたＯＣＲ認識結果４３０’に対して認識された予測情報４３１’と、予測情報４３１’に対して後述のフォーム構成モデリング部で算出された信頼点数４３２’に基づく信頼点数を共に提供できる。

ここで、予測情報４３１’は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数４３２’は、ＯＣＲによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。

また、文書分析装置１００”は、認識された文字情報を項目ＤＢ３００’と比較し、認識された文字を項目ＤＢ３００”の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部１５０”を含んで構成されてよい。

フォーム構成モデリング部１５０”は、認識対象イメージから認識される文字情報と比較するために、任意の文書、例えば、病院領収書、薬局領収書、取引明細書、税金計算書などで用いられる文字（項目）情報を定義した項目ＤＢ３００’を生成することができる。

また、フォーム構成モデリング部１５０”は、図２３のように、認識された文字の客体４１１’に対する自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、探知された文字に対して形態素又は分節音別にＮＬＰ客体４１１ａ’を分析し、分析された結果と項目ＤＢ３００’情報との比較に基づいて認識された文字に対する信頼点数を算出することができる。

すなわち、フォーム構成モデリング部１５０”は、病院領収書に新しい項目が認識されたりＯＣＲの失敗によって誤脱字、未認識字などが発生しても、ＮＬＰを用いて状況に合わせて処理可能にする。

また、フォーム構成モデリング部１５０”で算出された文字に対する信頼点数は、図２４のように、ＯＣＲ認識結果４３０’に認識された予測情報４３１’と、フォーム構成モデリング部１５０”で予測情報４３１’に対して算出された信頼点数４３２’を提供できる。

また、フォーム構成モデリング部１５０”は、探知された文字及び客体の位置に基づいて任意の開始位置で左側方向及び上側方向に隣接した全ての文字及び数字の客体位置を連結して再構成されたフォームを生成する。

一方、フォーム構成モデリング部１５０”は、新しい項目が認識された場合に、数字客体のボックスサイズに対して、横長及び縦長が、隣接した他のボックスの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにする。

図２５を参照してより詳しく説明すると、数字として認識された開始客体ボックス６００を基準に、開始客体ボックス６００の横方向サイズ６００及び縦方向サイズ７１０を、左側客体ボックス６１０と上側客体ボックス６２０の横方向サイズ７００ａ及び縦方向サイズ７１０ａと比較し、同一であるか又は左側客体ボックス６１０と上側客体ボックス６２０の横方向サイズ及び縦方向サイズに含まれると、左側連結線８００及び上側連結線８１０で連結して表示する。

本実施例では説明の便宜のために、開始位置を、中央部分に位置した数字客体を開始客体ボックス６００として説明したが、開始客体ボックス６００の右側に位置した右側客体ボックス６００ａ、開始客体ボックス６００の下側に位置した下側客体ボックスを開始位置として設定することもできる。

例えば、右側客体ボックス６００ａを開始位置として設定すれば、「公団負担金」が認識（又は、探知）された文字の客体は上側客体ボックス６２０ａになり得る。

また、フォーム構成モデリング部１５０”は、上記の過程を反復して最も近い左側及び上側のみを連結し、連結後に、数字から始めて左側及び上側にテキスト、例えば、文字の客体（項目）が出るまで移動及び検索を行って連結する。

すなわち、図３０に示すように、文書イメージ９００’において基準客体ボックス９１０’の左側及び上側に移動及び検索を行って次の客体と連結するとき、左側に位置した左側客体ボックス９２０’が文字であれば、左側連結線９４０’で連結する。

また、上側に移動及び検索により、上側客体ボックス９３０’が文字の客体（項目）であれば、上側連結線９４１’で続けて連結する。

また、フォーム構成モデリング部１５０”は、再構成フォームの項目が矯正された文字、すなわち、項目ＤＢ３００’から選択された文字のみで構成されると、誤脱字又は未認識された文字がないと判断し、ＯＣＲモデリング部１４０”のＯＣＲモデルによって認識された数字のみを認識し、認識された数字と項目をマッチさせることもできる。

前記フォーム構成モデリング部１５０”は、探知された文字の客体に対して項目ＤＢ３００’情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、矯正された文字を反映させる。

また、フォーム構成モデリング部１５０”は、長方形認識によって文字の客体及び数字の客体を探すだけでなく、文書イメージが傾いた状態のイメージである場合に、頂点による再建によって水平状態の文書イメージに補正することもできる。

また、フォーム構成モデリング部１５０”は、撮影角度によって文書イメージが台形のイメージである場合に、台形補正による再建によって四角形状の文書イメージに変換することもできる。

また、フォーム構成モデリング部１５０”は、文書イメージがしわが寄ったり折れたりした部分を含んで撮影された場合に、形状又はフォームを補正するためのプログラムを用いて四角形状の文書イメージに変換することもできる。

一方、フォーム構成モデリング部１５０”が認識正確度の向上のための補正を行って長方形状の充実な再建とそれに基づく正確な認識がなされるように動作するが、それによる補正及び再建に伴って誤りの発生可能性も増加し得る。

そのために、文書分析装置１００”は、補正モデルを用いて補正及び再建による判断誤りの危険性情報、例えば、補正及び再建類型と個数などを数値化させた情報と、認識された文字及び数字の信頼度に基づいて信頼点数を算出し、算出された信頼点数に基づいて使用者が確認できるように、フォーム構成モデリング部１５０”でディスプレイに反映して視覚的に表示されるようにする信頼度評価部１６０”を含んで構成されてよい。

すなわち、信頼度評価部１６０”は、補正及び再建による判断誤りの危険性情報、例えば、補正及び再建の類型と個数などを数値化させた信頼点数をフォーム構成モデリング部１５０”に提供する。

フォーム構成モデリング部１５０”は、文字及び数字の四角形状ボックスの色相を、正常客体領域と、誤った客体領域及び補正領域を含む誤り発生客体領域が互いに異なるように表示する。

すなわち、フォーム構成モデリング部１５０”は、信頼度評価部１６０”で提供される信頼点数に基づいて、図３１のように、信頼点数があらかじめ設定された基準値以上である客体領域は、再構成イメージ９００”において青色で表示し、正常客体領域９１０”，９１１”を確認可能に表示する。

また、フォーム構成モデリング部１５０”は、信頼度評価部１６０”で提供された信頼点数が基準値以下である客体領域は、再構成イメージ９００”において任意の色相（例えば、赤色）で表示し、誤り発生客体領域９２０”，９２１”，９２２”，９２３”，９２４”を確認可能に表示する。

このようなフォーム構成モデリング部１５０”の互いに異なる色相表示により、使用者にとって迅速で正確な確認が可能である。

また、文書分析装置１００”は、前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース１７０”を含んで構成されてよい。

次に、本発明の第３実施例に係るＯＣＲベース文書分析方法を説明する。

図３２は、本発明の第３実施例に係るＯＣＲベース文書分析過程を示すフローチャートである。

図２９及び図３２を参照すると、文書分析装置１００”は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信（Ｓ１００”）する。

また、文書分析装置１００”は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて文字及び数字の客体と位置を探知し、探知された文字及び数字の客体に四角形状のボックスを形成する客体探知段階を行う（Ｓ２００”）。

続いて、文書分析装置１００”は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、ＯＣＲモデルを用いて文字及び数字情報を認識するＯＣＲ認識段階（Ｓ３００”）を行う。

Ｓ３００”段階を行った後、文書分析装置１００”は、任意の文書から固定化されているテキスト情報、すなわち、項目に対する文字情報を項目ＤＢ３００’情報として生成し、生成された項目ＤＢ（３００’、図２０参照）情報はデータベース１７０”に保存（Ｓ４００”）する。

前記認識された文字情報を項目ＤＢ３００’と比較し、認識された文字を項目ＤＢ３００’の文字情報に矯正するに当たって矯正するか否かを決定するための誤脱字又は未認識字の有無を判断し、文書分析装置１００はＮＬＰベースの矯正を行う（Ｓ５００”）。

すなわち、Ｓ５００”段階で、文書分析装置１００”は、自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、探知された文字に対して分析する。

また、Ｓ５００”段階で、文書分析装置１００”は、分析された文字と項目ＤＢ３００’情報との比較に基づいて、分析された文字に対する信頼点数を算出し、出力することができる。

続いて、文書分析装置１００”は、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチ（Ｓ６００”）させる。

すなわち、文書分析装置１００”は、開始位置を数字客体にして開始位置の左側方向及び上側方向に移動及び連結する。

また、文字の客体を含む項目検索が完了すると、文書分析装置１００”は、認識された文字及び矯正された文字と数字を項目別に対応してマッチさせる。

また、文書分析装置１００”は、認識正確度の向上のための補正を行って長方形状の充実な再建とこれに基づく正確な認識がなされるように処理された補正及び再建類型と個数などを数値化させた情報と、認識された文字及び数字の信頼度に基づいて信頼点数を算出し、算出された信頼点数に基づいて使用者が確認できるようにディスプレイに反映して視覚的に表示（Ｓ７００”）されるようにする。

また、Ｓ７００”段階で、文書分析装置１００”は、文書イメージが傾いた状態であれば、頂点による再建によって水平状態の文書イメージに補正し、文書イメージが台形のイメージであれば、台形補正による再建によって四角形状の文書イメージに変換することもできる。

また、文書イメージがしわが寄ったり又は折れた部分を含むと、形状又はフォームを補正するためのプログラムを用いて四角形状の文書イメージに変換することにより、フォーム、形状、位置のうち少なくとも一つの補正による再建率と、信頼点数を算出できる。

また、Ｓ７００”段階で、文書分析装置１００”は、信頼点数によって、文字及び数字の四角形状ボックスの色相を、正常客体領域と、誤った客体領域及び補正領域を含む誤り発生客体領域が互いに異なるように表示させる。

すなわち、図３１のように、信頼点数があらかじめ設定された基準値以上である客体領域は、例えば再構成イメージ９００”において、青色で表示し、正常客体領域９１０”，９１１”を確認可能に表示し、信頼点数が基準値以下である客体領域は、例えば再構成イメージ９００”において、赤色で表示し、誤り発生客体領域９２０”，９２１”，９２２”，９２３”，９２４”を確認可能に表示する。

このようなフォーム構成モデリング部１５０”の互いに異なる色相表示により、使用者にとって迅速で正確な確認が可能になる。

また、認識された文字、矯正された文字、補正及び再建によって再構成されたフォームを再構成イメージに変換して最終結果を出力（Ｓ８００”）し、データベース１７０”に保存する。

（第４実施例）

図３３は、本発明の第４実施例に係るＯＣＲベース文書分析システムを示すブロック図である。

図３３を参照して説明すると、本発明の第４実施例に係るＯＣＲベース文書分析システムは、客体探知モデルを用いて認識対象イメージにおいて任意の形式（ｆｏｒｍ）、文字及び数字のうち少なくとも一つの客体位置を探知するが、前記探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して文字及び数字の客体のピクセル位置値を生成し、ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイする文書分析装置１００”’を含んで構成される。

また、文書分析装置１００”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域とに区分し、区分された左側ヘッダー領域と上側ヘッダー領域を基準に仮想セル客体を生成して配置できる。

また、文書分析装置１００”’は、配置された仮想セル客体と数字客体をマッチさせて行／列（ｒｏｗ／ｃｏｌｕｍｎ）情報に基づいて連結し、ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるように構成されてよい。

また、文書分析装置１００”’は、外部から送信される認識対象イメージを受信する入力部１１０”’を含んで構成されてよい。

入力部１１０”’は、ネットワークを介して接続された外部端末から送信されるイメージ又はスキャナーなどでスキャンされたイメージなどを受信するデータ通信手段で構成されてよい。

また、文書分析装置１００”’は、入力部１１０”’に受信された認識対象イメージにおいて客体探知モデルを用いてイメージに含まれた任意の形式（ｆｏｒｍ）、文字及び数字の客体の位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する客体探知モデリング部１２０”’を含んで構成されてよい。

すなわち、客体探知モデリング部１２０”’は、形式、文字及び数字の客体に対する相対的な位置の認識を行い、形式、文字及び数字の客体の位置による配列を確認できるように、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、表示された四角形状のピクセル位置値（座標情報）を生成する。

また、客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づく学習データを用いて学習できる。

一方、本発明では、説明の便宜のために、認識対象イメージを病院領収書と関連したイメージを実施例として説明するが、これに限定されず、薬局領収書、税金計算書、見積書、請求書、取引明細書、各種計算書及び領収書などを含むことができる。

また、客体探知モデルは自動増強（ＡｕｔｏＡｕｇｍｅｎｔａｔｉｏｎ）によって様々な変化を与えたイメージに基づいて探知を行うとき、最適の規則を探すこともできる。

すなわち、入力された文書イメージ（２００、図２参照）において任意の探知領域（２１０、図２参照）から探知された、例えば文字の客体２１１に対して、外部面に四角形状のボックス（２１２、図２参照）で構成されたピクセル位置値を生成し、認識された客体（２１３、図２参照）に対する情報を文字探知結果（２２０、図３参照）で表示することによって、四角形状ベースのパターン認識を可能にする。

また、四角形状のボックス（２１２、図２参照）は、好ましくは長方形（ｒｅｃｔａｎｇｕｌａｒ）からなってよい。

また、形式の周りに沿って表示された四角形状の構成（又は、配列）パターンに基づいて、あらかじめ保存された機関（病院）の領収書構成と比較してどの機関の領収書であるかを区別することもできる。

また、文書分析装置１００”’は、客体探知モデリング部１２０”’で探知された形式、文字及び数字の客体に対してＯＣＲモデルを用いて文字及び数字を認識するＯＣＲモデリング部１３０”’を含んで構成されてよい。

ここで、ＯＣＲモデリング部１３０”’は、イメージベースのテキスト文書を自動で感知して認識する構成であり、公知のＯＣＲモデルを用いて構成されてよい。

また、ＯＣＲモデリング部１３０”’は、ＯＣＲ認識結果（３００、図４参照）に対して認識された予測情報（３１０、図４参照）と、予測情報３１０に対する信頼点数（３２０、図２参照）を算出して共に提供できる。

ここで、予測情報３１０は、認識された客体に含まれる文字及び数字を示すものであり、信頼点数３２０は、ＯＣＲによって認識する過程で内容が鮮明でなかったり、連結された部分が途切れたりした場合などを反映して、全体部分において認識された部分の比率を算出した認識率であってよい。

また、文書分析装置１００”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域とに区分するが、前記左側ヘッダー領域と上側ヘッダー領域を基準にＭ×Ｎサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行／列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部１４０”’を含んで構成されてよい。

すなわち、仮想セルフォーム構成モデリング部１４０”’は、客体探知モデリング部１２０”’の探知結果とＯＣＲモデリング部１３０”’の予測情報に基づいて、認識した予測情報がどの項目であるかマッチさせる。

また、仮想セルフォーム構成モデリング部１４０”’は、客体探知モデリング部１２０”’の探知結果２２０と、ＯＣＲモデリング部１３０”’の予測情報３１０をマッチさせるために、隣接した全ての文字及び数字の客体の四角形状ピクセルを連結する。

また、一般的な領収書などの会計関連文書は、文字でできた項目が主に文書の左側と上側に配置される。

すなわち、図３４に示すように、文書イメージ４００”’上の左側領域には複数の左側客体４１０”’が探知され、文書イメージ４００”’上の上側領域には複数の上側客体４２０”’が探知され、個別左側客体４１０”’及び上側客体４２０”’と連動して数字客体４３０”’が探知される。

数字客体４３０”’は、当該数字客体４３０”’に対応する左側客体４１０”’と上側客体４２０”’によって当該数字客体４３０”’が有する属性（ａｔｔｒｉｂｕｔｅ）が定義される。

しかし、数字客体４３０”’を隣接した客体と連結するとき、入力された文書イメージに含まれた数字客体が水平方向ではなく傾いた状態で配置されていると、左側方向に配置された文字の客体と連結する過程で水平方向ではなく傾いた方向の延長線に配置された他の文字の客体と連結されることがある。

本発明の一実施例に係る仮想セルフォーム構成モデリング部１４０”’は、仮想セル客体を生成して文字の客体及び数字の客体を連結させる。

そのために、仮想セルフォーム構成モデリング部１４０”’は、客体探知モデリング部１２０”’で抽出された文字の客体の位置座標に基づいて、文書イメージ４００”’上で、図３５のように、左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’とに分離して区分する。

また、仮想セルフォーム構成モデリング部１４０”’は、区分された左側ヘッダー領域５００”’に含まれた文字の客体、すなわち、図面上で左側ヘッダー領域５００”’の垂直下側方向に配置された複数の左側ヘッダー客体５０１”’と、上側ヘッダー領域５１０”’に含まれた文字の客体、すなわち、図面上で上側ヘッダー領域５１０”’の水平右側方向に配置された上側ヘッダー客体５１１”’，５１２”’別に四角形状ピクセルの位置座標値を抽出する。

また、仮想セルフォーム構成モデリング部１４０”’は、文字の客体の左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’に含まれた文字の客体間の間隔及びサイズ、すなわち、左側ヘッダー客体５０１”’、上側ヘッダー客体５１１”’、上側ヘッダー客体５１２”’間の間隔及びサイズを算出し、区分された左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’を基準に複数の仮想セルグループ５３０”’，５３０ａ”’が行／列情報によって配置される。

すなわち、仮想セルグループ５３０”’，５３０ａ”’に含まれた複数の仮想セル客体５３１”’，５３２”’が、左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’の行／列情報によって配置される。

ここで、配置される仮想セル客体５３１”’，５３２”’の個数は、左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’から探知された左側ヘッダー客体５０１”’と上側ヘッダー客体５１１”’の個数であるＭ×Ｎ個だけ形成される。

また、仮想セルフォーム構成モデリング部１４０”’は、数字客体領域５２０”’と仮想セルグループ５３０”’，５３０ａ”’をマッチさせるが、左側上端に配置された仮想セル客体５３１”’と数字客体５２１”’をまずマッチさせる。

このとき、左側ヘッダー及び上側ヘッダーの情報と最も密接に関連した情報は左側上端であるから、最も正確度の高い左側上端の仮想セル客体５３１”’と数字客体５２１”’をまずマッチさせる。

また、仮想セルフォーム構成モデリング部１４０”’は、図３６のように、左側上端に配置された仮想セル客体５３１”’と数字客体５２１”’をマッチさせると、マッチした数字客体５２１”’と仮想セル客体５３１”’間の勾配を算出する。

すなわち、仮想セルフォーム構成モデリング部１４０”’は、文書イメージに含まれた数字客体５２１”’が水平方向ではなく傾いた状態で配置された場合にマッチし誤ることを防止するために、文書イメージ上に設定された基準座標系において、座標系内の当該ベクトルの勾配を算出し、算出された勾配に基づいてイメージの全体的な勾配を算出する。

また、仮想セルフォーム構成モデリング部１４０”’は、イメージの全体的な勾配が反映されるように、左側上端でマッチした数字客体５２１”’と仮想セル客体５３１”’間の勾配情報を、右側下端に配置された仮想セル客体と数字客体ｎ５２３”’のマッチングまで反映されるようにする。

また、仮想セルフォーム構成モデリング部１４０”’は、仮想セル客体を左側、上端、下端の客体と勾配ライン５４０”’及び上側ヘッダーライン５４１”’で連結するが、左側ヘッダー客体５０１”’、上側ヘッダー客体５１１”’、上側ヘッダー客体１５１２”’などから算出した客体間の間隔及びサイズに基づいて、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）があらかじめ設定された基準値以上であれば、連結されるようにする。

また、仮想セルフォーム構成モデリング部１４０”’は、仮想セル客体を用いた連結が完了すると、図３７のように、仮想セル客体を除去し、最終連結イメージ６００”’を生成して出力する。

このとき、仮想セルフォーム構成モデリング部１４０”’は、最終連結イメージ６００”’をデータベース（１５０”’）に保存された特定機関文書のボックス配列情報と比較してマッチするか否か確認することができる。

また、仮想セルフォーム構成モデリング部１４０”’は、図３８のように、数字客体７３０”’がずれた文字イメージ７００”’が入力されても、左側ヘッダー客体７１０”’と、上側ヘッダー客体７２０”’に基づいて仮想セル客体を生成した後、例えば、下端にずれた数字客体７３０”’を仮想セル客体とマッチさせ、勾配に基づく連結によって文字の客体と数字客体の正確な連結がなされるようにする。

また、仮想セルフォーム構成モデリング部１４０”’は、図３９のように、図面上、片方に曲がった（又は、傾いた）文字イメージ８００が入力されても、左側ヘッダー客体８１０”’と、上側ヘッダー客体８２０”’に基づいて仮想セル客体を生成した後、数字客体８３０”’を仮想セル客体とマッチさせ、勾配に基づく連結によって文字の客体と数字客体の正確な連結がなされるようにする。

また、文書分析装置１００”’は、仮想セルフォーム構成モデリング部１４０から出力される再構成イメージ、特定機関で使用する文書データのフォーム（又は、形式）、生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果などを保存するデータベース１５０を含んで構成されてよい。

次に、本発明の第４実施例に係るＯＣＲベース文書分析方法を説明する。

図４０は、本発明の第４実施例に係るＯＣＲベース文書分析過程を示すフローチャートであり、図４１は、図４０の実施例に係る仮想セルベース項目マッチング過程を示すフローチャートである。

図３３、図４０及び図４１を参照すると、文書分析装置１００”’は、ネットワークを介して連結された外部端末又はファクシミリなどから認識対象領収書のイメージを受信（Ｓ１００”’）する。

文書分析装置１００”’は、受信した認識対象領収書のイメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体とその位置を探知し、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置情報を生成する文字探知段階を行う（Ｓ２００”’）。

続いて、文書分析装置１００”’は、探知された形式、文字及び数字の客体に対する四角形状ピクセル内で、ＯＣＲモデルを用いて文字及び数字情報を認識するＯＣＲ認識段階（Ｓ３００”’）を行う。

Ｓ３００”’段階を行った後、文書分析装置１００”’は、生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域５００と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域５１０とに区分し、前記左側ヘッダー領域５００と上側ヘッダー領域５１０を基準に仮想セル客体を生成して配置し、配置された仮想セル客体と数字客体をマッチさせて行／列情報に基づいて連結（Ｓ４００”’）する。

Ｓ４００”’段階をより詳しく説明すると、文書分析装置１００”’は、文字の客体の左側及び上側ピクセル位置を基準に仮想セル客体を配置するが、文字の客体の左側ヘッダー領域（５００”’、図３５参照）と上側ヘッダー領域（５１０”’、図３５参照）を区分（Ｓ４１０”’）する。

また、文書分析装置１００”’は、区分された左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’に含まれた文字の客体間の間隔及びサイズを算出（Ｓ４２０”’）する。

続いて、文書分析装置１００”’は、区分された左側ヘッダー領域５００”’と上側ヘッダー領域５１０”’を基準に、探知された左側ヘッダー客体５０１”’と上側ヘッダー客体５１１”’の個数であるＭ×Ｎ個だけ仮想セル客体を配置（Ｓ４３０”’）する。

Ｓ４３０”’段階の仮想セル客体配置が完了すると、文書分析装置１００”’は、左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出（Ｓ４４０”’）する。

すなわち、Ｓ４４０”’段階で、文書分析装置１００”’は、文書イメージに含まれた数字客体が水平方向ではなく傾いた状態で配置された場合にマッチし誤ることを防止するために、文書イメージ上に設定された基準座標系において、座標系内の当該ベクトルの勾配を算出し、算出された勾配に基づいてイメージの全体的な勾配を算出する。

続いて、文書分析装置１００”’が、行／列情報によって順次に移動しつつ、前記算出された勾配を、右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結（Ｓ４５０”’）する。

すなわち、文書分析装置１００”’は、イメージの全体的な勾配が反映されるように、左側上端でマッチした数字客体と仮想セル客体間の勾配情報を、右側下端に配置された仮想セル客体と数字客体ｎのマッチングまで反映されるようにし、反映結果によって配置された仮想セル客体と数字客体をマッチさせ、左側ヘッダー客体５０１”’と上側ヘッダー客体５１１”’の行／列情報に基づいて連結する。

Ｓ４５０”’段階の連結が完了すれば、文書分析装置１００”’はＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるように最終連結イメージ６００”’を生成して出力（Ｓ５００”’）する。

したがって、ＯＣＲによって認識された情報に対して、信頼点数に基づいて、正常認識された部分と、誤った部分又は不審な部分を互いに異なる色相の視覚化情報で提供することにより、使用者にとって迅速で正確な確認が可能であり、使用者の確認作業時間を減少させることができる。

また、文書上の項目に記載された文字及び数字を含むテキストを認識し、認識されたテキストの相対的な位置に基づいて仮想セルを生成して数字に対する相対的な位置情報をマッチさせることができる。

また、認識された項目間の連結及び相対的な位置関係に基づいて、テキストが配置されたパターンを分析し、特定文書又は領収書などを使用する病院、保険会社などの機関で使用したフォームパターンと比較することにより、迅速で正確なマッチングが可能である。

また、病院、保険会社などの機関で使用する様々なフォーマットの領収書に対して、正確で信頼できる使用情報を提供可能であり、標準化されたイメージでなくても様々な学習データを用いたディープラーニング学習によって認識の正確度を向上させることができる。

また、病院、薬局などで使用する様々なフォーマットの領収書に対して正確な情報の認識が可能であり、特定様式（フォーム）がない書類のデジタル化が可能である。

上記のように、本発明の好ましい実施例を参照して説明したが、当該技術の分野における熟練した当業者であれば、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させることができることが理解できよう。

また、本発明の特許請求の範囲に記載された図面番号は、説明の明瞭性と便宜のために記載しただけで、これに限定されず、実施例を説明する過程で図面上の線の太さや構成要素の大きさなどは、説明の明瞭性及び便宜のために誇張して示されてもよい。

また、上述の用語は、本発明における機能を考慮して定義された用語であり、これは使用者、運用者の意図又は慣例によって変更されてもよく、それらの用語に対する解釈は、本明細書全般にわたる内容に基づいて下されるべきであろう。

また、明示的に図示又は説明されていなくても、本発明の属する技術の分野における通常の知識を有する者にとって、本発明の記載事項から、本発明に係る技術的思想を含む様々な形態の変形が可能であることは明らかであり、それらも本発明の権利範囲に属する。

また、添付の図面を参照して説明された以上の実施例は、本発明を説明するための目的で記述されたものであり、本発明の権利範囲はそれらの実施例に限定されない。

１００，１００’，１００”，１００”’：文書分析装置

１１０，１１０’，１１０”，１１０”’：入力部

１２０，１２０”’，１３０’，１３０”，１２０”’：客体探知モデリング部

１２０’，１２０”：項目ＤＢ生成部

１３０，１３０”’，１４０’，１４０”：ＯＣＲモデリング部

１４０：フォーム構成モデリング部

１４０”’：仮想セルフォーム構成モデリング部

１５０，１５０”’，１６０’，１７０”：データベース

１５０’，１５０”：フォーム構成モデリング部

１６０”：信頼度評価部

２００，２００’：文書イメージ

Claims

認識対象イメージを受信する入力部（１１０）；
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部（１２０）；
ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部（１３０）；
前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部（１４０）；及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース（１５０）；
を含む文書分析装置（１００）を含む、ＯＣＲベース文書分析システム。
前記客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形式、文字及び数字の客体の位置探知と、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示し、前記表示された四角形状のピクセル位置値生成を学習することを特徴とする、請求項１に記載のＯＣＲベース文書分析システム。
前記客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする、請求項２に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１４０）は、前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、
移動中に検索される全ての四角形状のピクセルを連結し、前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする、請求項１に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１４０）は、生成された四角形状のピクセル中心点にマーカー（５２０）を表示し、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、
移動中に検索される全ての四角形状のピクセルを連結し、連結された四角形状のマーカー（５２０）位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイさせることを特徴とする、請求項１に記載のＯＣＲベース文書分析システム。
認識対象イメージを受信する入力部（１１０’）；
前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字（項目）情報を定義した項目ＤＢ（３００’）を生成する項目ＤＢ生成部（１２０’）；
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部（１３０’）；
ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部（１４０’）；
前記認識された文字情報を項目ＤＢ（３００’）と比較し、認識された文字を項目ＤＢ（３００’）の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部（１５０’）；及び
前記生成された四角形状のピクセル位置値、矯正された文字及び数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース（１６０’）；
を含む文書分析装置（１００’）を含む、ＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０’）は、自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）により、探知された文字に対して分析することを特徴とする、請求項６に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０’）は、認識された文字と項目ＤＢ（３００’）情報とを比較し、認識された文字に対する信頼点数を算出することを特徴とする、請求項７に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０’）は、数字の客体の四角形状ピクセルサイズに対して、横長及び縦長が、隣接した他の四角形状ピクセルの横長及び縦長と同一であるか又は他のボックスの横長及び縦長に含まれると連結されるようにすることを特徴とする、請求項８に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０’）は、最も近い左側及び上側の四角形状ピクセルのうち少なくとも一つを連結し、連結された四角形状ピクセル内の文字の客体を探すまで連結することを特徴とする、請求項９に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０’）は、検索された四角形状のピクセル（９２０’）が空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする、請求項８に記載のＯＣＲベース文書分析システム。
認識対象イメージを受信する入力部（１１０”）；
前記受信した認識対象イメージにおいて客体探知モデルを用いて形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された四角形状のピクセル位置値を生成する客体探知モデリング部（１３０”）；
ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部（１４０”）；
前記認識された文字を項目ＤＢ（３００’）の文字情報に矯正することにより、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって矯正された文字及び数字情報をマッチさせてディスプレイさせるフォーム構成モデリング部（１５０”）；
補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいて前記ディスプレイに反映して視覚的に表示されるようにする信頼度評価部（１６０”）；及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報、信頼情報と、特定機関で使用する文書データのフォームを保存するデータベース（１７０”）；
を含む文書分析装置（１００”）を含む、ＯＣＲベース文書分析システム。
前記認識対象イメージに含まれた文字に対して任意の文書からあらかじめ設定された文字に対する項目ＤＢ（３００’）情報を生成する項目ＤＢ生成部（１２０”）；をさらに含み、
前記フォーム構成モデリング部（１５０”）は、前記探知された文字の客体に対して項目ＤＢ（３００’）情報とマッチさせ、マッチング結果によって認識された文字が矯正されると、前記矯正された文字を反映させることを特徴とする、請求項１２に記載のＯＣＲベース文書分析システム。
前記フォーム構成モデリング部（１５０”）は、文字及び数字の四角形状ボックスの色相が、正常認識領域と、誤った領域及び補正領域を含む誤り発生領域とが互いに異なる色相で表示されることを特徴とする、請求項１２に記載のＯＣＲベース文書分析システム。
客体探知モデルを用いて認識対象イメージにおいて任意の形式（ｆｏｒｍ）、文字及び数字のうち少なくとも一つの客体の位置を探知するが、探知された形式、文字及び数字の客体の周りに沿って四角形状を表示して四角形状のピクセル位置値を生成し、
ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力し、前記生成された四角形状のピクセル位置値に基づいて隣接した全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイし、
前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域（５００”’）と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域（５１０”’）とに区分し、前記左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行／列（ｒｏｗ／ｃｏｌｕｍｎ）情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるようにすることを特徴とする、
文書分析装置（１００”’）を含む、ＯＣＲベース文書分析システム。
前記文書分析装置（１００”’）は、
認識対象イメージを受信する入力部（１１０”’）；
前記受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式（ｆｏｒｍ）、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示し、表示された文字及び数字の客体のピクセル位置値を生成する客体探知モデリング部（１２０”’）；
ＯＣＲモデルを用いて前記四角形状のピクセル内で認識される文字及び数字情報を出力するＯＣＲモデリング部（１３０”’）；
前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域（５００”’）と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域５１０”’とに区分し、前記左側ヘッダー領域（５００”’）と上側ヘッダー領域５１０”’を基準にＭ×Ｎサイズの仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行／列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるようにする仮想セルフォーム構成モデリング部（１４０”’）；及び
前記生成された四角形状のピクセル位置値、認識された文字、数字情報及びマッチング結果と、特定機関で使用する文書データのフォームを保存するデータベース（１５０”’）；を含むことを特徴とする、請求項１５に記載のＯＣＲベース文書分析システム。
前記仮想セルフォーム構成モデリング部（１４０”’）は、文字の客体の左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）とに区分し、前記区分された左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）に含まれた文字の客体間の間隔及びサイズを算出し、前記区分された左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）を基準に仮想セル客体を配置することを特徴とする、請求項１５に記載のＯＣＲベース文書分析システム。
前記仮想セルフォーム構成モデリング部（１４０”’）は、左側上端に配置された仮想セル客体と数字客体をマッチさせ、
前記マッチした数字客体と仮想セル客体間の勾配を算出し、前記算出された勾配は、右側下端に配置された仮想セル客体と数字客体のマッチングまで反映されるようにすることを特徴とする、請求項１５に記載のＯＣＲベース文書分析システム。
ａ）文書分析装置（１００，１００’，１００”）が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して四角形状のピクセル位置値を生成する段階；
ｂ）前記文書分析装置（１００，１００’，１００”）が、ＯＣＲモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階；及び
ｃ）前記文書分析装置（１００，１００’，１００”）が、前記生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動するが、文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結し、前記連結された四角形状のピクセル位置に、前記ＯＣＲモデルによって認識された文字及び数字情報をマッチさせてディスプレイさせる段階；を含むＯＣＲベース文書分析方法。
前記ａ）段階の客体探知モデルは、ＰＳＥＮｅｔ（ＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ）ベースのディープラーニングモデルを用いて、文書イメージを含む学習データから形状、文字及び数字の客体の位置探知と、探知された形状、文字及び数字の客体の周りに沿って四角形状のボックスと前記四角形状のピクセル位置値生成を学習することを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記ａ）段階の客体探知モデルは、原本イメージ、文書の任意の部分が折れたイメージ、文書の位置が任意の角度で傾いたイメージ、任意の照度を有する明るさが調節されたイメージ、文書に表示された内容が鮮明でなく途切れた連結線を持つイメージ、文書の任意の部分が屈曲したイメージ、数字と連結線が重なったイメージに基づいて学習データを学習することを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記ｃ）段階は、ｃ－１）生成された四角形状のピクセル位置値と、前記認識された文字及び数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして文字情報が検索されるまで左側方向及び上側方向に移動する段階；
ｃ－２）前記文字情報が検索されると、移動中に検索された全ての四角形状のピクセルを連結する段階；及び
ｃ－３）前記四角形状のピクセル位置には認識された文字と数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記ｃ）段階は、ｃ’－１）前記生成された四角形状のピクセル位置値と、前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動する段階；
ｃ’－２）前記移動中に検索される全ての四角形状のピクセルを連結する段階；及び
ｃ’－３）前記連結された四角形状の配列情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較し、前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記ｃ）段階は、ｃ”－１）生成された四角形状のピクセルの中心点にマーカー（５２０）を表示する段階；
ｃ”－２）前記認識された数字情報に基づいて、数字情報を有する任意の四角形状のピクセル位置を開始位置にして左側方向及び上側方向に移動し、移動中に検索される全ての四角形状のピクセルを連結する段階；
ｃ”－３）連結された四角形状のマーカー（５２０）位置情報を分析し、あらかじめ保存された特定機関文書の配列情報と比較する段階；及び
ｃ”－４）前記比較の結果、特定機関文書の配列情報がマッチすれば、前記特定機関文書の四角形状ピクセル位置に、認識された数字情報をマッチさせてディスプレイする段階；を含むことを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記ｂ）段階は、文書分析装置（１００’，１００”）が、前記認識対象イメージから認識される文字情報と比較するために、任意の文書で用いられる文字（項目）情報を定義した項目ＤＢ（３００’）を生成する段階；及び
文書分析装置（１００’，１００”）が探知された文字の客体に対して項目ＤＢ（３００’）情報とマッチさせ、マッチング結果によって、認識された文字を矯正する段階；をさらに含むことを特徴とする、請求項１９に記載のＯＣＲベース文書分析方法。
前記文書分析装置（１００’）は、探知された文字の客体に対して自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）によって文字を分析し、
分析された文字と項目ＤＢ（３００’）情報との比較に基づいて、分析された文字に対する信頼点数を算出し、認識された文字を矯正するか否か判断し、
前記認識された文字の矯正を行うことによってＮＬＰベースの矯正を行うことを特徴とする、請求項２５に記載のＯＣＲベース文書分析方法。
文書分析装置（１００’）は、四角形状のピクセルが空欄であれば、左側方向に位置した後、四角形状のピクセルと連結することを特徴とする、請求項２５に記載のＯＣＲベース文書分析方法。
ｄ）前記文書分析装置（１００”）が、補正モデルを用いて前記認識された文字及び数字の信頼点数を算出し、算出された信頼点数に基づいてディスプレイに反映して視覚的に表示する段階；をさらに含むことを特徴とする、請求項１９又は２５に記載のＯＣＲベース文書分析方法。
前記ｄ）段階の補正モデルはフォーム、形状、位置のうち少なくとも一つの補正を行うことによる再建率と、項目ＤＢ（３００’）情報とのマッチング結果による矯正された文字の反映有無に基づいて信頼点数を算出することを特徴とする、請求項２８に記載のＯＣＲベース文書分析方法。
ｉ）文書分析装置（１００”’）が、認識対象イメージを受信する段階；
ｉｉ）前記文書分析装置（１００”’）が、受信した認識対象イメージにおいて客体探知モデルを用いて任意の形式、文字及び数字の客体のうち少なくとも一つの位置を探知し、探知された形式、文字及び数字の客体の周りに四角形状を表示して文字及び数字の客体のピクセル位置値を生成する段階；
ｉｉｉ）前記文書分析装置（１００”’）が、ＯＣＲモデルを用いて探知された四角形状ピクセル内で認識される文字及び数字情報を出力する段階；及び
ｉｖ）前記文書分析装置（１００”’）が、前記生成された文字の客体のピクセル位置値に基づいて、イメージの左側領域に文字の客体が配置される左側ヘッダー領域（５００”’）と、イメージの上側領域に文字の客体が配置される上側ヘッダー領域（５１０”’）とに区分し、前記左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）を基準に仮想セル客体を生成して配置し、前記配置された仮想セル客体と数字客体をマッチさせて行／列情報に基づいて連結し、前記ＯＣＲモデルによって認識された文字及び数字情報がディスプレイされるように最終結果を出力する段階；
を含むＯＣＲベース文書分析方法。
前記ｉｖ）段階の文字の客体の左側及び上側ピクセル位置を基準に配置する段階は、
ｉｖ－１）文書分析装置（１００”’）が文字の客体の左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）を区分する段階；
ｉｖ－２）前記区分された左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）に含まれた文字の客体間の間隔及びサイズを算出する段階；及び
ｉｖ－３）前記区分された左側ヘッダー領域（５００”’）と上側ヘッダー領域（５１０”’）を基準に仮想セル客体を配置する段階を含むことを特徴とする、請求項３０に記載のＯＣＲベース文書分析方法。
前記ｉｖ）段階の配置された仮想セル客体と数字客体をマッチさせて行／列情報に基づいて連結する段階は、
ｉｖ－４）前記文書分析装置（１００”’）が左側上端に配置された仮想セル客体と数字客体をマッチさせて数字客体と仮想セル客体間の勾配を算出する段階；及び
ｉｖ－５）前記文書分析装置（１００”’）が行／列情報によって順次に移動して前記算出された勾配を右側下端に配置された仮想セル客体と数字客体のマッチングまで反映して連結する段階を含むことを特徴とする、請求項３０に記載のＯＣＲベース文書分析方法。