JP7478345B2 - 帳票データ取得システムおよび帳票データ取得プログラム - Google Patents

帳票データ取得システムおよび帳票データ取得プログラム Download PDF

Info

Publication number
JP7478345B2
JP7478345B2 JP2020084142A JP2020084142A JP7478345B2 JP 7478345 B2 JP7478345 B2 JP 7478345B2 JP 2020084142 A JP2020084142 A JP 2020084142A JP 2020084142 A JP2020084142 A JP 2020084142A JP 7478345 B2 JP7478345 B2 JP 7478345B2
Authority
JP
Japan
Prior art keywords
attribute
learning
character string
unit
form data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020084142A
Other languages
English (en)
Other versions
JP2021179747A (ja
Inventor
陽介 樫本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2020084142A priority Critical patent/JP7478345B2/ja
Priority to US17/315,521 priority patent/US11676409B2/en
Publication of JP2021179747A publication Critical patent/JP2021179747A/ja
Application granted granted Critical
Publication of JP7478345B2 publication Critical patent/JP7478345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムおよび帳票データ取得プログラムに関する。
従来の帳票データ取得システムとして、単語と単語との位置関係と、各単語の属性とに基づいて単語と単語との関連性を決定するためのルールである関連性決定ルールと、非定型の帳票に含まれる各単語の、辞書を用いて特定した属性と、帳票における各単語の位置とに基づいて、各単語の属性を特定するものが知られている(例えば、特許文献1参照。)。
特開2019-079488号公報
しかしながら、従来の帳票データ取得システムにおいては、帳票データを適切に取得することができる帳票が関連性決定ルールおよび辞書によって定まっているので、利用者が希望する帳票に対して帳票データを適切に取得することができない場合があるという問題がある。
そこで、本発明は、帳票から自動で取得した帳票データの適切性を向上することができる帳票データ取得システムおよび帳票データ取得プログラムを提供することを目的とする。
本発明の帳票データ取得システムは、帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムであって、帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部とを備え、前記文字列属性学習部は、帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、前記学習用帳票データにおける属性との対応付けを実行することによって、前記文字列属性モデルを作成し、前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする。
この構成により、本発明の帳票データ取得システムは、帳票における文字列の属性の確率を取得するための文字列属性モデルと、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールとを、帳票から事前に作成された帳票データとしての学習用帳票データと、学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列とを用いて学習するので、学習用帳票に適した文字列属性モデルおよび属性位置関係ルールを得ることができ、その結果、帳票から自動で取得した帳票データの適切性を向上することができる。
本発明の帳票データ取得システムにおいて、前記文字列属性学習部は、前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、この文字列がいずれの値に対応するかということにも基づいて、前記文字列属性モデルを作成しても良い。
この構成により、本発明の帳票データ取得システムは、学習用帳票データにおける項目の値とフォーマットが異なるが、この値に対応する文字列を、項目の値として取得することができるように文字列属性モデルを作成するので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
本発明の帳票データ取得システムは、前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、前記帳票データにおける値のフォーマットのルールを取得するフォーマット取得部と、前記フォーマット取得部によって取得されたルールに基づいて前記帳票データにおける値のフォーマットを変更するフォーマット変更部とを備えても良い。
この構成により、本発明の帳票データ取得システムは、帳票データにおける項目の値とフォーマットが異なるが、この値に対応する文字列のフォーマットを、帳票データにおける項目の値のフォーマットに変更するので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
本発明の帳票データ取得システムにおいて、前記文字列属性学習部は、前記学習用帳票データにおける属性のうちの、項目の値に対応する文字列が前記学習用帳票の画像に対する文字認識の結果に存在するが、この項目の項目名に対応する文字列がこの文字認識の結果に存在しない項目としての項目名対応文字列無項目が存在する場合に、前記項目名対応文字列無項目の前記学習用帳票データにおける値に、前記学習用帳票の画像に対する文字認識の結果において対応する文字列との、前記学習用帳票の画像における位置関係に基づいて、前記項目名対応文字列無項目の項目名に対応する文字列の候補を探索し、探索によって抽出された前記候補と、この候補に対応する項目名との類似度に基づいて、この候補の属性が、この項目名であると判定したとき、この候補がいずれの項目名に対応するかということにも基づいて、前記文字列属性モデルを作成しても良い。
この構成により、本発明の帳票データ取得システムは、学習用帳票データにおける項目の値に対応する文字列が学習用帳票の画像に対する文字認識の結果に存在するが、この項目の項目名に対応する文字列がこの文字認識の結果に存在しない項目としての項目名対応文字列無項目が存在する場合に、項目名対応文字列無項目の学習用帳票データにおける値に、学習用帳票の画像に対する文字認識の結果において対応する文字列との、学習用帳票の画像における位置関係に基づいて、項目名対応文字列無項目の項目名に対応する文字列の候補を探索し、探索によって抽出された候補と、この候補に対応する項目名との類似度に基づいて、この候補の属性が、この項目名であると判定したとき、この候補がいずれの項目名に対応するかということにも基づいて、文字列属性モデルを作成するので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
本発明の帳票データ取得システムは、帳票に存在しない値を算出するための算出式を導き出す算出式導出部と、帳票に存在しない値を前記算出式に基づいて算出して前記帳票データに追加する値算出部とを備え、前記算出式導出部は、前記学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、前記学習用帳票データにおける属性のうちの、項目の値について、前記学習用帳票データにおける値のそれぞれの間の関係性を分析して、前記学習用帳票データにおける他の値からの前記算出式を導き出しても良い。
この構成により、本発明の帳票データ取得システムは、学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、学習用帳票データにおける値について、学習用帳票データにおける値のそれぞれの間の関係性を分析して、学習用帳票データにおける他の値からの算出式を導き出し、導き出した算出式に基づいて、帳票に存在しない値を帳票データに追加するので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
本発明の帳票データ取得プログラムは、帳票に基づいたデータとしての帳票データを、この帳票から自動で取得するための帳票データ取得プログラムであって、帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部とをコンピューターに実現させ、前記文字列属性学習部は、帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、前記学習用帳票データにおける属性との対応付けを実行することによって、前記文字列属性モデルを作成し、前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする。
この構成により、本発明の帳票データ取得プログラムを実行するコンピューターは、帳票における文字列の属性の確率を取得するための文字列属性モデルと、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールとを、帳票から事前に作成された帳票データとしての学習用帳票データと、学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列とを用いて学習するので、学習用帳票に適した文字列属性モデルおよび属性位置関係ルールを得ることができ、その結果、帳票から自動で取得した帳票データの適切性を向上することができる。
本発明の帳票データ取得システムおよび帳票データ取得プログラムは、帳票から自動で取得した帳票データの適切性を向上することができる。
本発明の一実施の形態に係る情報処理システムのブロック図である。 図1に示す情報処理システムによって扱われる帳票の一例を示す図である。 図1に示す情報処理システムによって扱われる帳票の、図2に示す例とは異なる一例を示す図である。 MFPによって構成される場合の図1に示す画像形成装置のブロック図である。 図1に示す情報処理装置のブロック図である。 (a)図5に示す学習用データの伝票情報テーブルの一例を示す図である。 (b)図5に示す学習用データの品目テーブルの一例を示す図である。 文字列属性モデルおよび属性位置関係ルールを作成する場合の図5に示す情報処理装置の動作の一部のフローチャートである。 図7に示すフローチャートの続きのフローチャートである。 図8に示すフローチャートの続きのフローチャートである。 帳票から帳票データを自動で作成する場合の図5に示す情報処理装置の動作のフローチャートである。 文字列属性モデルを適用して判定された、図2に示す帳票に含まれる文字列の属性の一例を示す図である。 属性位置関係ルールを適用して補正された、図2に示す帳票に含まれる文字列の属性の一例を示す図である。 (a)図12に示す属性に基づいて作成された帳票データの伝票情報テーブルの一例を示す図である。 (b)図12に示す属性に基づいて作成された帳票データの品目テーブルの一例を示す図である。 (a)図2に示す帳票から自動で作成された帳票データの伝票情報テーブルの一例を示す図である。 (b)図2に示す帳票から自動で作成された帳票データの品目テーブルの一例を示す図である。 図1に示す情報処理システムによって扱われる帳票の、図2および図3に示す例とは異なる一例を示す図である。
以下、本発明の実施の形態について、図面を用いて説明する。
まず、本発明の一実施の形態に係る情報処理システムの構成について説明する。
図1は、本実施の形態に係る情報処理システム10のブロック図である。
図1に示すように、情報処理システム10は、例えばMFP(Multifunction Peripheral)などの画像形成装置20と、例えばPC(Personal Computer)などのコンピューターとしての情報処理装置30とを備えている。
画像形成装置20と、情報処理装置30とは、LAN(Local Area Network)などのネットワーク11を介して通信可能に接続可能である。
情報処理装置30は、帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムである。
図2および図3は、それぞれ、情報処理システム10によって扱われる帳票の一例を示す図である。
図2および図3のそれぞれに示す帳票は、請求書である。情報処理システム10によって扱われる請求書は、例えば図2および図3に示すように、例えば請求元によってフォーマットが異なる。
図4は、MFPによって構成される場合の画像形成装置20のブロック図である。
図4に示すように、画像形成装置20は、種々の操作が入力される例えばボタンなどの入力デバイスである操作部21と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部22と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター23と、原稿から画像を読み取る読取デバイスであるスキャナー24と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部25と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部26と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部27と、画像形成装置20全体を制御する制御部28とを備えている。
制御部28は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部28のCPUの作業領域として用いられる揮発性の記憶デバイスとしてのメモリーであるRAM(Random Access Memory)とを備えている。制御部28のCPUは、記憶部27または制御部28のROMに記憶されているプログラムを実行する。
図5は、情報処理装置30のブロック図である。
図5に示すように、情報処理装置30は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部32と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部33と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部34と、情報処理装置30全体を制御する制御部35とを備えている。
記憶部34は、帳票に基づいた帳票データを、この帳票から自動で取得するための帳票データ取得プログラム34aを記憶している。帳票データ取得プログラム34aは、例えば、情報処理装置30の製造段階で情報処理装置30にインストールされていても良いし、CD(Compact Disk)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から情報処理装置30に追加でインストールされても良いし、ネットワーク上から情報処理装置30に追加でインストールされても良い。
記憶部34は、情報処理システム10によって扱われる帳票から例えば人間が認識して抜き出すなどして、情報処理システム10によって扱われる帳票から事前に作成された帳票データ(以下「学習用帳票データ」という。)を含む学習用データ34bを記憶可能である。学習用データ34bは、複数の帳票の学習用帳票データを含むことが可能である。
図6は、学習用データ34bの一例を示す図である。
図6に示す学習用データ34bは、請求書から抜き出されたデータであり、請求書における基本的な情報を示す図6(a)に示す伝票情報テーブルと、請求書における品目の詳細な情報を示す図6(b)に示す品目テーブルとを備えている。
図6に示す学習用データ34bにおいて具体的な値が示されているデータは、図2に示す請求書と、図3に示す請求書とから抜き出されたデータである。図6に示す学習用データ34bにおいて項目「請求書番号」の値が「1234-5678」であるデータは、図2に示す請求書から抜き出されたデータであり、図6に示す学習用データ34bにおいて項目「請求書番号」の値が「19-9876」であるデータは、図3に示す請求書から抜き出されたデータである。
伝票情報テーブルにおける項目「請求書番号」、「支払い期限」、「総消費税」に対応する項目名は、それぞれ、図2に示す請求書において「No」、「お支払い期限」、「消費税」と表されている。伝票情報テーブルにおける項目「請求元名」、「請求元郵便番号」、「請求元住所」、「請求先名」、「請求先郵便番号」、「請求先住所」に対応する項目名は、図2に示す請求書に表れていない。伝票情報テーブルにおける項目「請求元名」、「請求元郵便番号」、「請求元住所」の値は、それぞれ、図2に示す請求書における右上側の特定の位置に表れている。伝票情報テーブルにおける項目「請求先名」、「請求先郵便番号」、「請求先住所」の値は、それぞれ、図2に示す請求書における左上側の特定の位置に表れている。伝票情報テーブルにおける項目「請求日」、「支払い期限」の値の日付のフォーマットは、図2に示す請求書における項目「請求日」、「お支払い期限」の値の日付のフォーマットとは異なる。
伝票情報テーブルにおける項目「請求書番号」、「請求日」、「支払い期限」、「小計」、「総消費税」、「合計」に対応する項目名は、それぞれ、図3に示す請求書において「請求番号」、「発行日」、「支払予定日」、「買上げ額」、「消費税」、「請求額」と表されている。伝票情報テーブルにおける項目「請求元名」、「請求元郵便番号」、「請求元住所」、「請求先名」、「請求先郵便番号」、「請求先住所」に対応する項目名は、図3に示す請求書に表れていない。伝票情報テーブルにおける項目「請求元名」、「請求元郵便番号」、「請求元住所」の値は、それぞれ、図3に示す請求書における右上側の特定の位置に表れている。伝票情報テーブルにおける項目「請求先名」、「請求先郵便番号」、「請求先住所」の値は、それぞれ、図3に示す請求書における左上側の特定の位置に表れている。伝票情報テーブルにおける項目「請求日」、「支払い期限」の値の日付のフォーマットは、図3に示す請求書における項目「発行日」、「支払予定日」の値の日付のフォーマットとは異なる。伝票情報テーブルにおける項目「請求元名」、「請求先名」の値の「株式会社」のフォーマットは、図3に示す請求書におけるフォーマットとは異なる。
品目テーブルにおける項目「請求書番号」、「商品名」、「単価」、「価格」に対応する項目名は、それぞれ、図2に示す請求書において「No」、「商品」、「単価(円)」、「価格(円)」と表されている。品目テーブルにおける項目「商品コード」、「消費税」に対応する項目名は、図2に示す請求書に表れていない。品目テーブルにおける項目「商品名」の値は、図2に示す請求書において表の項目「商品」欄のセルにおける右側の値に対応している。品目テーブルにおける項目「商品コード」の値は、図2に示す請求書において表の項目「商品」欄のセルにおける左側の値に対応している。品目テーブルにおける項目「消費税」の値は、図2に示す請求書において表れておらず、図2に示す請求書における項目「単価(円)」の値から算出されたものである。
品目テーブルにおける項目「請求書番号」、「商品名」、「価格」に対応する項目名は、それぞれ、図3に示す請求書において「請求番号」、「商品名称」、「金額」と表されている。
図5に示すように、記憶部34は、帳票における文字列の属性の確率を取得するための文字列属性モデル34cを記憶することができる。
記憶部34は、文字列が帳票データにおけるいずれの属性に対応するかを学習するための文字列属性学習用データ34dを記憶している。ここで、帳票データにおける属性としては、いずれかの項目の項目名であることと、いずれかの項目の値であることとが存在する。
記憶部34は、単語の分散表現辞書34eを記憶している。
記憶部34は、帳票における文字列の属性の位置関係のルールを示す属性位置関係ルール34fを記憶することができる。
記憶部34は、帳票データに存在するが、帳票に存在しない値を算出するための算出式を示す算出式情報34gを記憶している。
記憶部34は、帳票データにおける値のフォーマットのルールを示すフォーマット情報34hを記憶している。
制御部35は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部35のCPUの作業領域として用いられる揮発性の記憶デバイスとしてのメモリーであるRAMとを備えている。制御部35のCPUは、記憶部34または制御部35のROMに記憶されているプログラムを実行する。
制御部35は、帳票データ取得プログラム34aを実行することによって、文字列属性モデル34cを作成する文字列属性学習部35aと、属性位置関係ルール34fを作成する属性位置関係学習部35bと、帳票データにおける値のフォーマットのルールを取得するフォーマット取得部35cと、帳票に存在しない値を算出するための算出式を導き出す算出式導出部35dと、帳票の画像に対する文字認識の結果における文字列に対して、文字列属性モデル34cを適用して、属性の確率を取得する属性確率取得部35eと、属性位置関係ルール34fに基づいて文字列に対する属性の確率を補正する属性確率補正部35fと、帳票に存在しない値を算出して帳票データに追加する値算出部35gと、帳票データにおける値のフォーマットを変更するフォーマット変更部35hとを実現する。
次に、情報処理システム10の動作について説明する。
まず、文字列属性モデル34cおよび属性位置関係ルール34fを作成する場合の情報処理装置30の動作について説明する。
図7は、文字列属性モデル34cおよび属性位置関係ルール34fを作成する場合の情報処理装置30の動作の一部のフローチャートである。図8は、図7に示すフローチャートの続きのフローチャートである。図9は、図8に示すフローチャートの続きのフローチャートである。
図7~図9に示すように、文字列属性学習部35aは、学習用データ34bに学習用帳票データが含まれる帳票(以下「学習用帳票」という。)のうち未だ対象にしていない1つの学習用帳票のみを対象にする(S101)。
文字列属性学習部35aは、現在の対象の学習用帳票の画像を取得する(S102)。例えば、文字列属性学習部35aは、現在の対象の学習用帳票の画像を、この学習用帳票からスキャナー24によって取得しても良い。
文字列属性学習部35aは、S102の処理の後、S102において取得された、学習用帳票の画像(以下「学習用帳票画像」という。)において文字認識の対象になる部分の位置情報をレイアウト認識などの技術を使用して取得する(S103)。ここで、文字列属性学習部35aは、学習用帳票画像において、文字列の部分や、枠部分の位置情報を取得することができる。文字列属性学習部35aは、例えば文書の塊、表、表のセルなどのように、順次、文字列になるまで、位置情報を取得する。例えば、文字列属性学習部35aは、いずれの表におけるいずれのセルの文字列であるかや、いずれのセルにおけるいずれの位置の文字列であるかなど、文字列の位置情報を取得する。
文字列属性学習部35aは、S103の処理の後、学習用帳票画像のうち、S103において位置情報が取得された文字列の部分に対して、OCR(Optical Character Recognition)技術を使用して文字認識を実行する(S104)。
文字列属性学習部35aは、S104の処理の後、現在の対象の学習用帳票に対応する学習用帳票データ(以下「対象学習用帳票データ」という。)を学習用データ34bから取得する(S105)。ここで、学習用データ34bにおける各テーブルには、それぞれ、学習用データ34bの作成者の意図が存在するので、各テーブル内のデータ同士の関係性は高い。そのため、文字列属性学習部35aは、S105において対象学習用帳票データを取得する際に、現在の対象の学習用帳票データにおける個々のデータがいずれのテーブルのデータであるかについても取得する。
文字列属性学習部35aは、S105の処理の後、S104における文字認識の結果(以下「文字認識結果」という。)における文字列(以下「認識結果中文字列」という。)と、対象学習用帳票データにおける項目名(以下「対象学習用帳票データ内項目名」という。)および値(以下「対象学習用帳票データ内値」という。)との対応付けを実行する(S106)。
文字列属性学習部35aは、文字認識結果に改行が含まれている可能性も考慮して、S106における対応付けを実行する。例えば、図2に示す請求書および図3に示す請求書における請求先住所と、図2に示す請求書における請求元住所とには、改行が含まれているが、文字列属性学習部35aは、改行の前後の文字列が一連の文字列であると判断して、S106における対応付けを実行する。
文字列属性学習部35aは、認識結果中文字列と、対象学習用帳票データ内項目名および対象学習用帳票データ内値との間に、文字列のフォーマットの差異が存在することを考慮して、S106における対応付けを実行する。例えば、対象学習用帳票データにおける項目「請求日」、「支払い期限」の値の日付のフォーマットは、図2に示す請求書におけるフォーマットと差異があるが、文字列属性学習部35aは、同一の日付を意味していると判断して、S106における対応付けを実行する。また、対象学習用帳票データにおける項目「請求元名」、「請求先名」の値の「株式会社」のフォーマットは、図3に示す請求書におけるフォーマットと差異があるが、文字列属性学習部35aは、同一の株式会社を意味していると判断して、S106における対応付けを実行する。なお、文字列のフォーマットの差異の種類には、文字列の一部の省略も含まれる。
文字列属性学習部35aは、S106の処理の後、S106における対応付けの結果(以下「対応付け結果」という。)において、対象学習用帳票データ内値とフォーマットが異なる認識結果中文字列が存在するか否かを判断する(S107)。
フォーマット取得部35cは、対象学習用帳票データ内値とフォーマットが異なる認識結果中文字列が対応付け結果において存在するとS107において判断されると、対応付け結果においてフォーマットが異なる対象学習用帳票データ内値および認識結果中文字列の組み合わせに基づいたフォーマットのルールをフォーマット情報34hに追加する(S108)。
文字列属性学習部35aは、S108の処理の後、対象学習用帳票データ内値とフォーマットが異なる、いずれの認識結果中文字列がいずれの対象学習用帳票データ内項目名の項目の値に対応するか、すなわち、いずれの対象学習用帳票データ内値に対応するかを、文字列属性学習用データ34dに追加する(S109)。
値算出部35gは、対象学習用帳票データ内値とフォーマットが異なる認識結果中文字列が対応付け結果において存在しないとS107において判断されるか、S109の処理が終了すると、認識結果中文字列に対応するものが存在しない対象学習用帳票データ内値が存在するか否かを判断する(S110)。例えば、小計や、消費税などは、S102において画像が取得された帳票にそもそも含まれておらず対象学習用帳票データの作成時に追加される場合がある。すなわち、認識結果中文字列に対応するものが存在しない対象学習用帳票データ内値が存在する場合がある。
値算出部35gは、認識結果中文字列に対応するものが存在しない対象学習用帳票データ内値が存在するとS110において判断すると、認識結果中文字列に対応するものが存在しない対象学習用帳票データ内値について、学習用帳票データにおける値のそれぞれの間の関係性を分析して、学習用帳票データにおける他の値からの算出式を導き出す(S111)。ここで、値算出部35gは、1つの帳票の学習用帳票データにおける値のそれぞれの間の関係性を分析して算出式を導き出すよりも、多数の帳票の学習用帳票データにおける値のそれぞれの間の関係性を分析して算出式を導き出す方が好ましい。
値算出部35gは、S111の処理の後、S111において導き出した算出式を算出式情報34gに追加する(S112)。
文字列属性学習部35aは、認識結果中文字列に対応するものが存在しない対象学習用帳票データ内値が存在しないとS110において判断されるか、S112の処理が終了すると、対象学習用帳票データにおける項目のうち、対象学習用帳票データ内値に対応する文字列が文字認識結果に存在するが、対象学習用帳票データ内項目名に対応する文字列が文字認識結果に存在しないもの(以下「項目名対応文字列無項目」という。)が存在するか否かを判断する(S113)。
文字列属性学習部35aは、項目名対応文字列無項目が存在するとS113において判断すると、項目名対応文字列無項目の対象学習用帳票データ内値に文字認識結果において対応する文字列との、学習用帳票画像における位置関係に基づいて、項目名対応文字列無項目の項目名に対応する文字列の候補(以下「項目名対応文字列候補」という。)を探索する(S114)。例えば、文字列属性学習部35aは、項目名対応文字列無項目の対象学習用帳票データ内値に文字認識結果において対応する文字列に対して、学習用帳票画像において水平方向における左側に存在する文字列を文字認識結果において探索するとともに、学習用帳票画像において垂直方向における上側に存在する文字列を文字認識結果において探索することによって、探索された文字列を項目名対応文字列候補として抽出する。
文字列属性学習部35aは、S114の処理の後、S114における探索によって項目名対応文字列候補が抽出されたか否かを判断する(S115)。
文字列属性学習部35aは、S114における探索によって項目名対応文字列候補が抽出されたとS115において判断すると、S114における探索によって抽出された項目名対応文字列候補と、この項目名対応文字列候補に対応する項目名との類似度を分散表現辞書34aを使用して判定することによって、S114における探索によって抽出された項目名対応文字列候補の属性が、この項目名対応文字列候補に対応する項目名であるか否かを判定する(S116)。
文字列属性学習部35aは、S116の処理の後、S114における探索によって抽出された項目名対応文字列候補の属性が、この項目名対応文字列候補に対応する項目名であるとS116において判定されたか否かを判断する(S117)。
文字列属性学習部35aは、S114における探索によって抽出された項目名対応文字列候補の属性が、この項目名対応文字列候補に対応する項目名であるとS116において判定されたとS117において判断すると、対象学習用帳票データ内項目名とフォーマットが異なる、いずれの認識結果中文字列がいずれの対象学習用帳票データ内項目名に対応するかを、文字列属性学習用データ34dに追加する(S118)。
文字列属性学習部35aは、項目名対応文字列無項目が存在しないとS113において判断するか、S114における探索によって項目名対応文字列候補が抽出されなかったとS115において判断するか、S114における探索によって抽出された項目名対応文字列候補が、この項目名対応文字列候補に対応する項目名であるとS116において判定されなかったとS117において判断するか、S118の処理を実行すると、対象学習用帳票データ内項目名および対象学習用帳票データ内値のいずれにも対応しない認識結果中文字列、すなわち、属性付けがされていない認識結果中文字列が存在するか否かを判断する(S119)。
文字列属性学習部35aは、属性付けがされていない認識結果中文字列が存在するとS119において判断すると、属性付けがされていない認識結果中文字列を属性が無い文字列とすることを、文字列属性学習用データ34dに追加する(S120)。
文字列属性学習部35aは、属性付けがされていない認識結果中文字列が存在しないとS119において判断するか、S120の処理が終了すると、未だ対象にしていない学習用帳票が存在するか否かを判断する(S121)。
文字列属性学習部35aは、未だ対象にしていない学習用帳票が存在するとS121において判断すると、S101の処理を実行する。
属性位置関係学習部35bは、未だ対象にしていない学習用帳票が存在しないとS121において判断されると、全ての学習用帳票における属性の位置関係を学習することによって、属性位置関係ルール34fを作成する(S122)。属性位置関係ルール34fには、例えば、属性同士のグループ(以下「属性グループ」という。)内における属性の位置関係のルールと、属性グループ同士の位置関係のルールとを含んでいる。属性グループとしては、例えば、帳票において必ず近傍に存在する属性同士のグループと、帳票において必ず水平線上に存在する属性同士のグループと、帳票において必ず垂直線上に存在する属性同士のグループとが存在する。例えば、属性グループには、請求元名、請求元郵便番号、請求元住所の3つの属性が存在する、請求元に関する属性グループと、請求先名、請求先郵便番号、請求先住所の3つの属性が存在する、請求先に関する属性グループとが存在する。
属性グループ内における属性の位置関係のルールは、帳票において左もしくは上に出現する確率を属性毎に求めることによって作成されるルールであり、帳票における属性同士の上下左右の位置関係のルールである。例えば、請求元に関する属性グループ内において、請求元名は、帳票において上から1番目に出現する確率が高く、請求元郵便番号は、帳票において上から2番目に出現する確率が高く、請求元住所は、帳票において上から3番目に出現する確率が高い。
属性グループ同士の位置関係のルールは、帳票において左もしくは上に出現する確率を属性グループ毎に求めることによって作成されるルールであり、帳票における属性グループ同士の上下左右の位置関係のルールである。例えば、請求先に関する属性グループは、請求元に関する属性グループに対して、帳票において左側に出現する確率が高い。
文字列属性学習部35aは、S122の処理の後、学習用データ34bと、文字列属性学習用データ34dとに基づいて、RNN(Recurrent Neural Network)などを利用して、文字列属性モデル34cを作成して(S123)、図7~図9に示す動作を終了する。
次に、帳票から帳票データを自動で作成する場合の情報処理装置30の動作について説明する。
図10は、帳票から帳票データを自動で作成する場合の情報処理装置30の動作のフローチャートである。
図10に示すように、属性確率取得部35eは、S102の処理と同様に、対象の帳票の画像を取得する(S131)。例えば、属性確率取得部35eは、対象の帳票の画像を、この帳票からスキャナー24によって取得しても良い。
属性確率取得部35eは、S131の処理の後、S103の処理と同様に、S131において取得された、帳票の画像(以下「帳票画像」という。)において文字認識の対象になる部分の位置情報をレイアウト認識などの技術を使用して取得する(S132)。
属性確率取得部35eは、S132の処理の後、S104の処理と同様に、帳票画像のうち、S132において位置情報が取得された文字列の部分に対して、OCR技術を使用して文字認識を実行する(S133)。
属性確率取得部35eは、S133の処理の後、S133において文字認識した文字列に対して、文字列属性モデル34cを適用して、属性の確率を取得する(S134)。
属性確率補正部35fは、S134の処理の後、S133において文字認識した文字列の、帳票における位置と、属性位置関係ルール34fとに基づいて、S134において取得した確率を補正する(S135)。例えば、属性確率補正部35fは、S133において文字認識した文字列に対して、帳票における位置と、属性位置関係ルール34fとに基づいて取得した、属性の確率と、S134において取得した、属性の確率とを掛け合わせることによって、最終的な属性の確率を求める。
属性確率補正部35fは、S135の処理の後、S133において文字認識した文字列の属性を、S135において補正した確率に基づいて判定することによって、帳票データを作成する(S136)。
値算出部35gは、S136の処理の後、算出式情報34gに算出式が示されているか否かを判断する(S137)。
値算出部35gは、算出式情報34gに算出式が示されているとS137において判断すると、対象の帳票に存在しない値を、算出式情報34gに示される算出式に基づいて算出する(S138)。
値算出部35gは、S138の処理の後、S138において算出した値を、S136において作成された帳票データに追加する(S139)。
フォーマット変更部35hは、算出式情報34gに算出式が示されていないとS137において判断されるか、S139の処理が終了すると、フォーマット情報34hにフォーマットのルールが示されているか否かを判断する(S140)。
フォーマット変更部35hは、フォーマット情報34hにフォーマットのルールが示されているとS140において判断すると、フォーマット情報34hに示されるルールに基づいて帳票データにおける値のフォーマットを変更する(S141)。
フォーマット変更部35hは、フォーマット情報34hにフォーマットのルールが示されていないとS140において判断するか、S141の処理が終了すると、図10に示す動作を終了する。
図10に示す動作の具体例として、図2に示す帳票から帳票データを自動で作成する場合について説明する。
図11は、文字列属性モデル34cを適用して判定された、図2に示す帳票に含まれる文字列の属性の一例を示す図である。図12は、属性位置関係ルール34fを適用して補正された、図2に示す帳票に含まれる文字列の属性の一例を示す図である。
図2に示す帳票から帳票データを自動で作成する場合、S134において取得した確率に基づいて判定される属性は、例えば、図11に示すようになる。
S134の処理の後、S135において補正した確率に基づいて判定される属性は、例えば、図12に示すようになる。図12に示す例では、図11に示す例と比較して、帳票における右上側に配置されている、項目「請求先名」の値と判定されていた文字列「株式会社△△」、項目「請求先郵便番号」の値と判定されていた文字列「〒987-6543」、および、項目「請求先住所」の値と判定されていた文字列「神奈川県△△市△区△△△9-8-7 △△△△6F」が、それぞれ、項目「請求元名」の値、項目「請求元郵便番号」の値、および、項目「請求元住所」の値と判定されている。また、帳票における左上側に配置されている、項目「合計」の項目名と判定されていた文字列「合計(税込)」、および、項目「合計」の値と判定されていた文字列「¥2640」が、それぞれ「属性無し」と判定されている。また、帳票における左下側に配置されている、項目「請求書番号」の値と判定されていた文字列「0000000」が、「属性無し」と判定されている。
図13(a)は、図12に示す属性に基づいて作成された帳票データの伝票情報テーブルの一例を示す図である。図13(b)は、図12に示す属性に基づいて作成された帳票データの品目テーブルの一例を示す図である。
図12に示す属性に基づいてS136において作成された帳票データは、図13に示すようになる。図13(b)においては、項目「消費税」の値が入力されていない。
図14(a)は、図2に示す帳票から自動で作成された帳票データの伝票情報テーブルの一例を示す図である。図14(b)は、図2に示す帳票から自動で作成された帳票データの品目テーブルの一例を示す図である。
図14(a)に示す伝票情報テーブルは、図13(a)に示す伝票情報テーブルと比較して、項目「請求日」、「支払い期限」の値のフォーマットがS141において変更されている。図14(b)に示す品目テーブルは、図13(b)に示す品目テーブルと比較して、項目「消費税」の値がS139において追加されている。図14(b)に示す品目テーブルは、図13(b)に示す品目テーブルと比較して、項目「価格」の値「1,000」のフォーマットがS141において「1000」に変更されている。
なお、図10に示す動作によって作成された帳票データは、利用者による確認を経て、新たな学習用帳票データになることができる。制御部35は、新たな学習用帳票データに基づいて図7~図9に示す動作を追加で実行することによって、帳票から自動で作成する帳票データの精度を向上することができる。
以上に説明したように、情報処理装置30は、学習用帳票データと、学習用帳票の画像に対する文字認識の結果における文字列とを用いて文字列属性モデル34cおよび属性位置関係ルール34fを学習する(S101~S123)ので、学習用帳票に適した文字列属性モデル34cおよび属性位置関係ルール34fを得ることができ、その結果、帳票から自動で取得した帳票データの適切性を向上することができる。
情報処理装置30は、学習用帳票データにおける項目の値とフォーマットが異なるが、この値に対応する文字列を、項目の値として取得することができるように文字列属性モデル34cを作成する(S109およびS123)ので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
情報処理装置30は、帳票データにおける項目の値とフォーマットが異なるが、この値に対応する文字列のフォーマットを、帳票データにおける項目の値のフォーマットに変更する(S141)ので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
情報処理装置30は、項目名対応文字列無項目が存在する場合に(S113でYES)、項目名対応文字列無項目の学習用帳票データにおける値に、学習用帳票の画像に対する文字認識の結果において対応する文字列との、学習用帳票の画像における位置関係に基づいて、項目名対応文字列無項目の項目名に対応する文字列の項目名対応文字列候補を探索し(S114)、探索によって抽出された項目名対応文字列候補と、この項目名対応文字列候補に対応する項目名との類似度に基づいて、この項目名対応文字列候補の属性が、この項目名であると判定したとき(S117でYES)、この項目名対応文字列候補がいずれの項目名に対応するかということにも基づいて、文字列属性モデルを作成する(S118およびS123)ので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
情報処理装置30は、学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、学習用帳票データにおける値について、学習用帳票データにおける値のそれぞれの間の関係性を分析して、学習用帳票データにおける他の値からの算出式を導き出し(S111)、導き出した算出式に基づいて、帳票に存在しない値を帳票データに追加する(S138~S139)ので、帳票から自動で取得した帳票データの適切性を更に向上することができる。
情報処理装置30は、学習用帳票および学習用帳票データを用いて文字列属性モデル34cおよび属性位置関係ルール34fを学習するので、利用者の希望する帳票について学習用帳票および学習用帳票データが用意されることによって、利用者の希望する帳票から適切に帳票データを取得することができる。例えば、請求書ではなく図15に示す健康診断書から情報処理装置30に帳票データを取得させる場合、利用者は、学習用帳票として図15に示す健康診断書などの健康診断書を用いて、健康診断書用の文字列属性モデルと、健康診断書用の属性位置関係ルールとを情報処理装置30に新たに学習させる必要がある。
30 情報処理装置(帳票データ取得システム、コンピューター)
34a 帳票データ取得プログラム
34b 学習用データ(学習用帳票データ)
34c 文字列属性モデル
34f 属性位置関係ルール
35a 文字列属性学習部
35b 属性位置関係学習部
35c フォーマット取得部
35d 算出式導出部
35e 属性確率取得部
35f 属性確率補正部
35g 値算出部
35h フォーマット変更部

Claims (6)

  1. 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得する帳票データ取得システムであって、
    帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
    帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
    帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
    帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
    を備え、
    前記文字列属性学習部は、
    帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
    前記学習用帳票データにおける属性と
    の対応付けを実行することによって、前記文字列属性モデルを作成し、
    前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得システム。
  2. 前記文字列属性学習部は、前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、この文字列がいずれの値に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1に記載の帳票データ取得システム。
  3. 前記対応付けの結果において、前記学習用帳票データにおける属性のうちの、項目の値とフォーマットが異なる文字列が存在する場合に、前記帳票データにおける値のフォーマットのルールを取得するフォーマット取得部と、
    前記フォーマット取得部によって取得されたルールに基づいて前記帳票データにおける値のフォーマットを変更するフォーマット変更部と
    を備えることを特徴とする請求項2に記載の帳票データ取得システム。
  4. 前記文字列属性学習部は、前記学習用帳票データにおける属性のうちの、項目の値に対応する文字列が前記学習用帳票の画像に対する文字認識の結果に存在するが、この項目の項目名に対応する文字列がこの文字認識の結果に存在しない項目としての項目名対応文字列無項目が存在する場合に、前記項目名対応文字列無項目の前記学習用帳票データにおける値に、前記学習用帳票の画像に対する文字認識の結果において対応する文字列との、前記学習用帳票の画像における位置関係に基づいて、前記項目名対応文字列無項目の項目名に対応する文字列の候補を探索し、探索によって抽出された前記候補と、この候補に対応する項目名との類似度に基づいて、この候補の属性が、この項目名であると判定したとき、この候補がいずれの項目名に対応するかということにも基づいて、前記文字列属性モデルを作成することを特徴とする請求項1から請求項3までのいずれかに記載の帳票データ取得システム。
  5. 帳票に存在しない値を算出するための算出式を導き出す算出式導出部と、
    帳票に存在しない値を前記算出式に基づいて算出して前記帳票データに追加する値算出部と
    を備え、
    前記算出式導出部は、前記学習用帳票の画像に対する文字認識の結果に存在する文字列に対応するものが存在しない、前記学習用帳票データにおける属性のうちの、項目の値について、前記学習用帳票データにおける値のそれぞれの間の関係性を分析して、前記学習用帳票データにおける他の値からの前記算出式を導き出すことを特徴とする請求項1から請求項4までのいずれかに記載の帳票データ取得システム。
  6. 帳票に基づいたデータとしての帳票データを、この帳票から自動で取得するための帳票データ取得プログラムであって、
    帳票における文字列の属性の確率を取得するための文字列属性モデルを作成する文字列属性学習部と、
    帳票における文字列の属性の位置関係のルールを示す属性位置関係ルールを作成する属性位置関係学習部と、
    帳票の画像に対する文字認識の結果における文字列に対して、前記文字列属性モデルを適用して、属性の確率を取得する属性確率取得部と、
    帳票の画像に対する文字認識の結果における文字列の、帳票における位置と、前記属性位置関係ルールとに基づいて、前記確率を補正する属性確率補正部と
    をコンピューターに実現させ、
    前記文字列属性学習部は、
    帳票から事前に作成された前記帳票データとしての学習用帳票データの作成の基になった帳票としての学習用帳票の画像に対する文字認識の結果における文字列と、
    前記学習用帳票データにおける属性と
    の対応付けを実行することによって、前記文字列属性モデルを作成し、
    前記属性位置関係学習部は、前記学習用帳票における属性の位置関係を学習することによって、前記属性位置関係ルールを作成することを特徴とする帳票データ取得プログラム。
JP2020084142A 2020-05-12 2020-05-12 帳票データ取得システムおよび帳票データ取得プログラム Active JP7478345B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020084142A JP7478345B2 (ja) 2020-05-12 2020-05-12 帳票データ取得システムおよび帳票データ取得プログラム
US17/315,521 US11676409B2 (en) 2020-05-12 2021-05-10 Form data acquirement system and non-transitory computer readable recording medium storing form data acquiring program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020084142A JP7478345B2 (ja) 2020-05-12 2020-05-12 帳票データ取得システムおよび帳票データ取得プログラム

Publications (2)

Publication Number Publication Date
JP2021179747A JP2021179747A (ja) 2021-11-18
JP7478345B2 true JP7478345B2 (ja) 2024-05-07

Family

ID=78511515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020084142A Active JP7478345B2 (ja) 2020-05-12 2020-05-12 帳票データ取得システムおよび帳票データ取得プログラム

Country Status (2)

Country Link
US (1) US11676409B2 (ja)
JP (1) JP7478345B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308476A (zh) 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、系统及计算机可读存储介质
JP2019133218A (ja) 2018-01-29 2019-08-08 株式会社 みずほ銀行 帳票対応システム、帳票対応方法及び帳票対応プログラム
WO2020071558A1 (ja) 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JP6856916B1 (ja) 2020-01-08 2021-04-14 ジーニアルテクノロジー,インク. 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6791191B2 (ja) * 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP6874729B2 (ja) * 2018-04-02 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP6524311B2 (ja) 2018-05-24 2019-06-05 株式会社エスピック 表認識処理装置
JP2019204399A (ja) * 2018-05-25 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021163178A (ja) * 2020-03-31 2021-10-11 キヤノン株式会社 情報処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133218A (ja) 2018-01-29 2019-08-08 株式会社 みずほ銀行 帳票対応システム、帳票対応方法及び帳票対応プログラム
CN109308476A (zh) 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、系统及计算机可读存储介质
WO2020071558A1 (ja) 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JP6856916B1 (ja) 2020-01-08 2021-04-14 ジーニアルテクノロジー,インク. 情報処理装置、情報処理方法及び情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
eFLOWソリューションのご紹介,金融国際情報技術展 FIT2018,株式会社 Top Image Systems Japan,2018年10月25日

Also Published As

Publication number Publication date
US20210357632A1 (en) 2021-11-18
JP2021179747A (ja) 2021-11-18
US11676409B2 (en) 2023-06-13

Similar Documents

Publication Publication Date Title
JP2007080263A (ja) ページレイアウト属性に基づく文書クラスタリングの方法
US9582483B2 (en) Automatically tagging variable data documents
JP5670787B2 (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
JP6975312B2 (ja) 不正推定システム、不正推定方法、及びプログラム
JP7478345B2 (ja) 帳票データ取得システムおよび帳票データ取得プログラム
JP6223305B2 (ja) 情報処理装置、印字制御装置、サーバ装置、及びプログラム
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
EP4195136A1 (en) Automated video generation from images for e-commerce applications
JP2021060876A (ja) 学習データ生成装置、その制御方法、及びプログラム
WO2022029874A1 (ja) データ処理装置、データ処理方法及びデータ処理プログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
JP2020154962A (ja) 情報処理装置及びプログラム
JP7190479B2 (ja) 学習装置、機械学習モデル及び学習方法
WO2021059848A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP6379768B2 (ja) 情報処理装置及び情報処理プログラム
US11170211B2 (en) Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium
JP5787073B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2001005886A (ja) データ処理装置及び記憶媒体
JP2020144427A (ja) 文書作成装置、及びプログラム
TWI838631B (zh) 資訊處理系統、資訊處理方法及程式產品
CN113127597A (zh) 搜索信息的处理方法、装置及电子设备
JP2009182530A (ja) 業務処理遂行支援装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240403

R150 Certificate of patent or registration of utility model

Ref document number: 7478345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150