JP6869394B1 - 検証装置、検証方法、及び、検証プログラム - Google Patents

検証装置、検証方法、及び、検証プログラム Download PDF

Info

Publication number
JP6869394B1
JP6869394B1 JP2020051092A JP2020051092A JP6869394B1 JP 6869394 B1 JP6869394 B1 JP 6869394B1 JP 2020051092 A JP2020051092 A JP 2020051092A JP 2020051092 A JP2020051092 A JP 2020051092A JP 6869394 B1 JP6869394 B1 JP 6869394B1
Authority
JP
Japan
Prior art keywords
group
target
title
line
detail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020051092A
Other languages
English (en)
Other versions
JP2021149794A (ja
Inventor
慎一郎 山下
慎一郎 山下
光幸 大▲柳▼
光幸 大▲柳▼
厚 武井
厚 武井
Original Assignee
三菱電機Itソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機Itソリューションズ株式会社 filed Critical 三菱電機Itソリューションズ株式会社
Priority to JP2020051092A priority Critical patent/JP6869394B1/ja
Application granted granted Critical
Publication of JP6869394B1 publication Critical patent/JP6869394B1/ja
Publication of JP2021149794A publication Critical patent/JP2021149794A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】明細に含まれるべき行数を用いてノイズを特定したい。【解決手段】検証装置100は、表示量分析部120と、ノイズ特定部130とを備える。表示量分析部120は、明細を示す明細行を含む複数の明細行グループと、複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する帳票データを分析することにより、隣接している2つのグループタイトルの間隔を対象間隔として求め、対象間隔を用いて対象間隔に対応する明細行に含まれるべき行数を対象行数として求める。ノイズ特定部130は、対象行数を用いて帳票データに含まれるノイズを特定する。【選択図】図3

Description

本開示は、検証装置、検証方法、及び、検証プログラムに関する。
手書きの書類や印刷された文書を機械的に読み取り、文字を認識するOCR(Optical Character Recognition)を用いた電子化技術がある。ユーザは、具体例として、OCRによって紙面に書かれた内容を電子データとして保存すること、OCRの出力結果を表計算のソフトウェアに読み込ませて計算することができる。
一般的に用いられる表は、罫線で囲まれた矩形の領域をさらに罫線で細分化して得られる複数の矩形領域を、項目名欄(以後、グループタイトルと呼ぶ)又はデータ欄(以後、明細と呼ぶ)として使用することにより、グループタイトルと明細の対応付けを表している。したがって表を認識するためにはグループタイトルと明細との区別、及びその対応関係を把握する必要がある。
表認識の最も簡単な形態として、あらかじめグループタイトルのみ記入されている帳票等を読み込み、グループタイトルの位置と、グループタイトルに対応する明細の位置とを、グループタイトルと対応付けて記憶しておく場合がある。この場合、実際に入力された帳票の明細の位置にある文字列を読み取ることにより容易にグループタイトルと明細との対応を取得することができる。
しかし、この技術は罫線に囲まれた矩形によってグループタイトルと明細の存在を認識するため、横方向の罫線のみ引かれた表や、罫線が引かれず文字の間隔のみで項目やデータを表した表等は認識できない。
これに対して、特許文献1には、罫線で囲まれた矩形の領域を持たない帳票に記載されている文字をOCRにより認識する技術が開示されている。特許文献1の技術では、列グループタイトルから行方向に明細の位置を特定するため、明細が矩形で囲まれている必要がない。
特開2016−126796号公報
しかし、帳票にグループタイトルが複数ある場合、特許文献1の技術は、2つ目以降のグループタイトルを明細として認識してしまう。その結果、本技術は、2つ目以降のグループタイトルに対応する明細を正しく認識することができず、2つ目以降のグループタイトルがノイズとなるという課題がある。
本開示は、グループタイトルを特定し、隣接している2つのグループタイトルの位置情報から隣接している2つのグループタイトルの間隔を求め、求めた間隔を用いてグループタイトルに対応する明細が含むべき行数を求め、求めた行数を用いて明細の位置を求めることにより、グループタイトルに対応する明細を正しく特定するとともに、ノイズを特定することを目的とする。
本開示に係る検証装置は、
明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求める表示量分析部と、
前記対象行数を用いて前記帳票データに含まれるノイズを特定するノイズ特定部と
を備える。
前記グループタイトルは、前記グループタイトルが開始することを示す文字列を開始文字列として含み、
前記特徴辞書は、前記開始文字列の特徴を示す情報を含む。
前記開始文字列の桁数は、開始桁数であり、
前記特徴辞書は、前記開始桁数を示す情報を含む。
前記グループタイトルが含んでいる文字のサイズと、前記明細行が含んでいる文字のサイズとは異なり、
前記特徴辞書は、前記グループタイトルが含んでいる文字のサイズを示す情報を含む。
前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合において、前記隣接グループタイトルは、前記対象明細行グループと、前記隣接グループタイトルに対応する明細行グループとを区切る区切文字列であり、
前記特徴辞書は、前記区切文字列の特徴を示す情報を区切情報として含み、
前記表示量分析部は、前記区切情報を用いて前記区切文字列を特定し、かつ、前記対象間隔として前記対象グループタイトルと前記区切文字列との間隔を求める。
前記表示量分析部は、前記対象明細行グループが含んでいる明細行の最後の行を最終行として特定し、かつ、前記対象間隔として前記対象グループタイトルと前記最終行との間隔を求める。
前記帳票は紙であり、
前記帳票データは、前記帳票を光学的文字認識によって電子化したデータである。
前記ノイズ特定部は、特定したノイズを除去する。
本開示に係る検証方法は、
表示量分析部が、明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求め、
ノイズ特定部が、前記対象行数を用いて前記帳票データに含まれるノイズを特定する。
本開示に係る検証プログラムは、
明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを記憶しているコンピュータに、
前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定させ、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定させ、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定させ、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求めさせ、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求めさせ、
前記対象行数を用いて前記帳票データに含まれるノイズを特定させる。
従って、本開示に係る検証装置100によれば、隣接している2つのグループタイトルの位置情報から当該隣接している2つのグループタイトルの間隔を求め、求めた間隔を用いて明細に表示されるべき行数を求め、かつ、求めた行数を用いてノイズを特定することができる。
実施の形態1に係る検証システム90の構成例。 実施の形態1に係る帳票画像データ210の例。 実施の形態1に係る検証装置100の構成例。 実施の形態1に係る検証装置100の動作を示すフローチャート。 実施の形態1に係る形式情報221の例。 実施の形態1に係る意味情報222の例。 実施の形態1に係る読取結果の例。 実施の形態1に係る検証装置100の動作を示すフローチャート。 実施の形態1に係る特徴辞書310の例。 実施の形態1に係るノイズ除去結果の例。 実施の形態1の変形例に係る帳票の例。 実施の形態1の変形例に係るに係る検証装置100のハードウェア構成例。
実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。
実施の形態1.
以下、本実施の形態について、図面を参照しながら詳細に説明する。
***構成の説明***
図1は、本実施の形態に係る検証システム90の構成例を示している。検証システム90は、ファクシミリサーバと、OCR(Optical Character Recognition)サーバと、特徴辞書DB(Database)300と、修正端末とを備える。ファクシミリサーバと、OCRサーバと、特徴辞書DB300とは、ネットワーク91を介して互いに通信することができるよう接続されている。ネットワーク91は、具体例として、LAN(Local Area Network)である。
本図に示される各要素は、適宜分離して構成されていても良く、また、適宜一体的に構成されていても良い。
ファクシミリサーバは、公衆電話網を介してファクシミリを送受信する。
OCRサーバは、OCRを実行するサーバ、又はOCRにおいて用いられるデータを記憶しているサーバである。OCRは、光学的文字認識とも呼ばれる。OCRサーバは、検証装置100を備える。検証装置100は、典型的には、OCRサーバの機能を利用する。
特徴辞書DB300は、特徴辞書310を記憶しているデータベースである。
修正端末は、検証装置100又はOCRサーバと通信する。ユーザは、修正端末を用いて、検証装置100又はOCRサーバが出力した結果を修正する。
修正端末は、ネットワーク91を介して検証装置100と接続していても良い。
特徴辞書310は、帳票の特徴を示す情報を含む。当該特徴は、具体例として、情報が表示されている位置、各行の先頭部分に記載されている文字、文字数、数字の桁数の範囲、フォントのサイズ、隣接している文字の間隔、隣接している行の間隔、明細行204の各行の幅、又は、スペースの幅である。行の先頭部分は、行の先頭を含む領域である。
具体的には、特徴辞書310は、グループ特徴情報及びタイトル特徴情報を含む。グループ特徴情報は、明細行グループ201の特徴を示す。タイトル特徴情報は、グループタイトル202の特徴を示す。
本実施の形態に係る帳票は、明細行グループ201と、グループタイトル202とが表示されている。当該帳票は、1つのグループタイトル202に続けて1つの明細行グループ201を表示している。当該帳票において、隣接している2つの明細行グループ201の間には、当該2つの明細行グループ201のいずれかに対応するグループタイトル202が表示されている。なお、2つの明細行グループ201の間に1つのグループタイトル202のみ存在する場合、当該2つの明細行グループ201は隣接している。
グループタイトル202と、明細行グループ201とは、水平方向に隣接していても良い。
明細行グループ201は、明細行204を含む。明細行204は、明細を示している情報であり、かつ、少なくとも1行から成る。明細は、帳票の作成者が伝達する情報である。明細は、具体例として、内訳を示す情報、又は、詳細な内容を示す情報である。
明細行グループ201は、明細に関連する情報又は明細とは関係のない情報を含んでも良い。
グループタイトル202は、明細行グループ201のタイトルを示す。グループタイトル202は、隣接している2つの明細行グループ201の区切りに相当するものであっても良く、また、明細行グループ201の終端に相当するものであっても良い。
グループタイトル202は、具体例として、明細行グループ201のタイトル、明細行グループ201に対応する日時、区切文字列、区切線、又は、所定の幅のスペースである。区切り線は、隣接している2つの明細行グループ201の境界を示す。区切文字列は、文字列であり、かつ、隣接する2つの明細行グループ201を区切る。区切文字列は、文字以外のオブジェクトを含んでも良い。
帳票は、複数の明細行グループ201と、複数のグループタイトル202とを含んでも良い。複数のグループタイトル202は、複数の明細行グループ201それぞれが開始する位置を示す。明細行グループ201と、グループタイトル202とは、それぞれ1行以上の文字列であっても良い。
グループタイトル202は、開始文字列を含んでも良い。開始文字列は、グループタイトル202が開始することを示す文字列である。開始文字列は、グループタイトル202を特定することに用いられる。開始文字列の桁数は、開始桁数であっても良い。開始桁数は、所定の桁数を示す。具体例として、図2において、開始文字列は“発注伝票No.:”であり、開始桁数は8である。
特徴辞書310は、開始文字列の特徴を示す情報を含んでも良い。特徴辞書310は、開始桁数を示す情報を含んでも良い。
グループタイトル202が含んでいる文字のサイズと、明細行204が含んでいる文字のサイズとが異なる場合において、特徴辞書310は、グループタイトル202が含んでいる文字のサイズを示す情報を含んでも良い。
特徴辞書DB300は、帳票の作成者毎又は帳票の送信元毎に、帳票の特徴を管理しても良い。特徴辞書310は、適宜更新されても良い。
また、特徴辞書DB300の代わりに、検証装置100が備える記憶装置が特徴辞書310を記憶していても良い。
図2は、帳票画像データ210の具体例の一部を示している。本図は、発注書を電子化したデータの一部を示している。帳票画像データ210は、帳票を示す画像データである。帳票画像データ210は、具体例として、本図に示す帳票を電子化したものである。帳票データは、具体例として、本図に示す帳票に対応する電子データである。本図に示す帳票を対象帳票と呼んでも良い。本図中の点線による四角形の枠は、説明の便宜上付されたものであり、帳票を構成するものではない。本図において、明細行グループ201と、グループタイトル202とは、それぞれ文字により表示されている。明細行グループ201_1と、明細行グループ201_2とは、複数の明細行グループ201を区別するための表記である。複数のグループタイトル202と、複数の明細行204についても、複数の明細行グループ201と同様に区別している。また、グループタイトル202_1は明細行グループ201_1に対応しており、かつ、グループタイトル202_2は明細行グループ201_2に対応している。
本図中の複数の「・」は、ノイズである。
明細行グループ201_1と、明細行グループ201_2とは、隣接している。明細行グループ201_1と、明細行グループ201_2との間には、グループタイトル202_2が表示されている。
明細行グループ201_1と、明細行グループ201_2とには、それぞれ明細を示す情報として発注内容が表示されている。明細行グループ201_1が表示されている領域と、明細行グループ201_2が表示されている領域とは、グループタイトル202_2により分断されている。
明細行グループ201_1は明細行204_1を含み、明細行グループ201_2は明細行204_2を含む。明細行204_1の行数は、4である。明細行204_1の各行は、明細を示している、又は、明細に関連している。
帳票は、紙であっても良い。帳票データは、紙の帳票を光学文字認識技術によって電子化したデータであっても良い。
図3は、本実施の形態に係る検証装置100の構成例を示している。検証装置100は、コンピュータから成る。検証装置100は、複数のコンピュータから成っても良い。
コンピュータは、本図に示すように、プロセッサ11と、メモリ12と、補助記憶装置13と、入出力IF(Interface)14と、通信装置15と等のハードウェアを備えるコンピュータである。これらのハードウェアは、信号線19を介して互いに接続されている。
プロセッサ11は、演算処理を行うIC(Integrated Circuit)であり、かつ、コンピュータが備えるハードウェアを制御する。プロセッサ11は、具体例として、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、又はGPU(Graphics Processing Unit)である。
検証装置100は、プロセッサ11を代替する複数のプロセッサを備えても良い。複数のプロセッサは、プロセッサ11の役割を分担する。
メモリ12は、典型的には、揮発性の記憶装置である。メモリ12は、主記憶装置又はメインメモリとも呼ばれる。メモリ12は、具体例として、RAM(Random Access Memory)である。メモリ12に記憶されたデータは、必要に応じて補助記憶装置13に保存される。
補助記憶装置13は、典型的には、不揮発性の記憶装置である。補助記憶装置13は、具体例として、ROM(Read Only Memory)、HDD(Hard Disk Drive)、又はフラッシュメモリである。補助記憶装置13に記憶されたデータは、必要に応じてメモリ12にロードされる。
メモリ12と、補助記憶装置13とは、一体的に構成されていても良い。
入出力IF14は、修正端末が接続されるポートである。入出力IF14は、具体例として、USB(Universal Serial Bus)端子又はHDMI(登録商標、High−Definition Multimedia Interface)端子である。修正端末は、具体例として、キーボードと、マウスと、ディスプレイとである。
通信装置15は、レシーバ及びトランスミッタである。通信装置15は、具体例として、通信チップ又はNIC(Network Interface Card)である。
検証装置100の各部は、通信装置15を用いて、ファクシミリサーバ、OCRサーバ、又は、特徴辞書DB300と通信する。
検証装置100の各部がデータを受け付ける場合、検証装置100の各部は、入出力IF14を介してデータを受け付けても良く、また、通信装置15を介してデータを受け付けても良い。
補助記憶装置13は、検証プログラムを記憶している。検証プログラムは、検証装置100が備える各部の機能をコンピュータに実現させるプログラムである。検証プログラムは、複数のファイルから成っても良い。検証プログラムは、メモリ12にロードされて、プロセッサ11によって実行される。検証装置100が備える各部の機能は、ソフトウェアにより実現される。
検証プログラムを実行する際に用いられるデータと、検証プログラムを実行することによって得られるデータと等は、記憶装置に適宜記憶される。記憶装置は、具体例として、メモリ12と、補助記憶装置13と、プロセッサ11内のレジスタと、プロセッサ11内のキャッシュメモリとの少なくとも1つから成る。なお、データと、情報とは、同等の意味を有することもある。記憶装置は、コンピュータと独立したものであっても良い。
メモリ12の機能と、補助記憶装置13の機能とのそれぞれは、他の記憶装置によって実現されても良い。
検証プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていても良い。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。検証プログラムは、プログラムプロダクトとして提供されても良い。
ファクシミリサーバと、OCRサーバと、特徴辞書DB300とは、それぞれコンピュータから成っても良い。
検証装置100は、機能構成要素として、情報読取部110と、表示量分析部120と、ノイズ特定部130と、確認要求部140とを備える。
情報読取部110は、帳票画像データ210を受け付け、かつ、帳票画像データ210に示されている情報を読み取る。
帳票画像データ210は、帳票を示す画像データである。帳票は、紙に表示されたものであっても良く、また、電子データであっても良い。帳票と帳票画像データ210とが、同じであっても良い。
情報読取部110は、帳票データを生成する。帳票データは、具体例として、意味情報222と、形式情報221との総称である。情報読取部110は、明細行グループ201と、グループタイトル202とのそれぞれに対応する形式情報221と、意味情報222とを生成しても良い。形式情報221は、オブジェクトの形式を示す。オブジェクトは、明細行グループ201又はグループタイトル202に表示されており、かつ、情報を表現することに用いられる。オブジェクトは、具体例として、文字、記号、線、又は図柄である。意味情報222は、オブジェクトが有する意味に関する情報である。意味情報222は、具体例として、何らかの意味を有する情報、又は、何らかの意味を有する情報を構成する情報である。形式情報221と、意味情報222との間に重複があっても良い。形式情報221と、意味情報222とが1つのファイルに含まれていても良い。
オブジェクトが文字である場合、形式情報221は、具体例として、文字のサイズ、フォント、文字の色、隣接している2つの文字の間隔、又は行間の長さである。この場合において、意味情報222は、具体例として、文字、記号、又は、線である。意味情報222は、帳票に表示されている文字に対応する文字コード又はカラーコードであっても良い。
情報読取部110は、帳票画像データ210を補正しても良い。情報読取部110は、具体例として、傾きを補正する、又はファクシミリの送受信に伴って発生したノイズ等を補正する。
表示量分析部120は、帳票データと、特徴辞書310とを受け取る。表示量分析部120は、帳票データを分析することにより、隣接している2つのグループタイトル202の間隔を明細間隔として求める。ここで、2つのグループタイトル202の間に1つの明細行グループ201のみ存在する場合、当該2つのグループタイトル202は隣接している。表示量分析部120は、明細間隔又は明細行数を求める際に、特徴辞書310を用いる。
表示量分析部120は、明細間隔及び特徴辞書310を用いて各明細行グループ201が含む明細行204が含むべき行数を明細行数として求める。明細行数は、明細間隔に対応する行数である。表示量分析部120は、特徴辞書310を参照することによって、明細間隔に対応する明細行数を求める。
表示量分析部120は、明細間隔を用いて各明細行グループ201に表示されるべき量を明細表示量として求めても良い。各明細行グループ201に表示されている量は、具体例として、オブジェクトの個数又は行数である。明細表示量は、明細行グループ201に表示されているものに対応する数値である。2つの明細表示量がある場合、かつ、一方の明細表示量が他方の明細表示量よりも大きい場合において、当該一方の明細表示量に対応する明細行グループ201に表示されている情報の量が、当該他方の明細表示量に対応する明細行グループ201に表示されている情報の量よりも多くても良い。
表示量分析部120は、オブジェクトが存在すべき位置を求めても良い。位置は、相対的な位置であっても良く、また、絶対的な位置であっても良い。表示量分析部120は、具体例として、明細行204の各行の先頭の位置を求める。
表示量分析部120は、帳票データ及び特徴辞書310を用いて複数の明細行グループ201に含まれるいずれか1つの明細行グループ201を対象明細行グループとして特定しても良い。表示量分析部120は、帳票データ及び特徴辞書310を用いて対象明細行グループに対応するグループタイトル202を対象グループタイトルとして特定し、帳票データ及び特徴辞書310を用いて隣接明細行グループに対応するグループタイトル202を隣接グループタイトルとして特定しても良い。表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間に対象明細行グループが存在する場合に、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求めても良い。表示量分析部120は、対象間隔と、特徴辞書310とを用いて対象明細行グループが含む明細行204が含むべき行数を対象行数として求めても良い。表示量分析部120は、帳票データ及び特徴辞書310を用いて対象明細行グループを特定しても良い。
表示量分析部120は、対象明細行グループが含んでいる明細行204の最後の行を最終行として特定し、かつ、対象間隔として対象グループタイトルと最終行との間隔を求めても良い。
ある行が特定の文字列で始まっている場合、表示量分析部120は、当該ある行をグループタイトル202として特定しても良い。
ある行に含まれる文字列の桁数が特定の桁数である場合、表示量分析部120は、当該ある行をグループタイトル202として特定しても良い。ある行に含まれる文字列の特定の部分が特定の桁数である場合、表示量分析部120は、当該ある行をグループタイトル202として特定しても良い。特定の部分は、具体例として、発注伝票番号が記載されている部分である。
図2の例において、表示量分析部120は、明細行グループ201_1を対象明細行グループとし、明細行グループ201_2を隣接明細行グループとし、グループタイトル202_1を対象グループタイトルとして特定し、かつ、グループタイトル202_2を隣接グループタイトルとして特定しても良い。このとき、対象グループタイトルと、隣接グループタイトルとの間に対象明細行グループが存在する。
本例において、表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求めても良く、また、対象間隔と、特徴辞書310とを用いて対象明細行グループに表示されている量を対象表示量として求めても良い。対象表示量は、対象間隔のみを含んでも良く、また、対象明細行グループに含まれるオブジェクトの位置の情報を含んでも良い。表示量分析部120は、明細行グループ201_1が含むべき行数を4と求めても良く、明細行グループ201_2が含むべき行数を3と求めても良い。
対象グループタイトルと、隣接グループタイトルとの間に対象明細行グループが存在する場合において、隣接グループタイトルは、区切文字列であっても良い。ここで、区切文字列は、対象明細行グループと、隣接グループタイトルに対応する明細行グループ201とを区切る。このとき、特徴辞書310は、区切文字列の特徴を示す情報を区切情報として含んでも良い。表示量分析部120は、区切情報を用いて区切文字列を特定し、かつ、対象間隔として対象グループタイトルと区切文字列との間隔を求めても良い。
ノイズ特定部130は、表示量分析部120が求めた情報を用いて帳票データに含まれるノイズを特定する。ノイズ特定部130は、特徴辞書310と、対象行数とを用いて帳票データに含まれるノイズを特定しても良い。ノイズ特定部130は、対象行数の代わりに対象表示量を用いても良い。ノイズ特定部130は、特定したノイズを除去すること又は修正することによって、ノイズ除去済データを生成しても良い。ノイズは、帳票データに含まれる情報と、帳票に含まれる情報との差分である。ノイズは、誤読及び不読を含む。ノイズは、具体例として、余分な情報、欠落した情報、又は、変形した情報である。
ノイズ特定部130は、具体例として、帳票データにおいて、表示量分析部120が求めた位置に含まれない位置に行が存在する場合、又は、空白であるはずの領域に行が存在する場合、当該行を削除する。帳票データにおいて行の位置がずれている場合、ノイズ特定部130は、当該行の位置を補正しても良い。帳票データにおいて、グループタイトル202の先頭部分に記載されているべき文字が記載されていない場合、ノイズ特定部130は、当該文字を追加しても良い。
ノイズ特定部130は、表示量分析部120が求めた位置に存在すべき情報を帳票データに追加しても良く、また、表示量分析部120が求めた位置に存在するはずのない情報を帳票データから削除しても良い。
帳票データにノイズが含まれていない場合、ノイズ特定部130は、帳票データをノイズ除去済データとしても良い。
ノイズ特定部130は、表示文字列に含まれる各行の位置を求め、かつ、求めた位置を用いて帳票データに含まれるノイズを特定しても良い。
確認要求部140は、確認要求データを生成する。確認要求データは、検証装置100がユーザに確認することを要求する際に用いられる。確認要求データは、具体例として、修正端末が表示する画像に対応する。確認要求データは、ノイズ除去済データであっても良く、帳票データに含まれるノイズを強調して表示することに対応するデータであっても良い。確認要求データは、具体例として、帳票データに含まれるノイズに対応する領域を枠で囲んで表示するものであっても良く、また、当該領域を点滅させて表示するものであっても良い。
確認要求部140は、修正端末に確認要求データを出力することにより、ユーザに対して確認要求データを確認することを要求する。ユーザは、検証装置100の利用者である。利用者は、コンピュータ等、人間でなくても良い。
検証システム90は、ユーザが確認要求データを修正することができる構成であっても良い。ユーザが確認要求データを修正した場合、確認要求部140は、ユーザによる修正をノイズ除去済データに反映する。
***動作の説明***
検証装置100の動作手順は、検証方法に相当する。また、検証装置100の動作を実現するプログラムは、検証プログラムに相当する。
図4は、検証装置100の動作の一例を示すフローチャートである。本図を参照して、検証装置100の動作を説明する。
(ステップS101:帳票画像データ受付処理)
情報読取部110は、帳票画像データ210を受け付ける。
具体例として、ファクシミリサーバが、公衆電話網を介してFAXを受け付け、受け付けたFAXを電子化することにより帳票画像データ210を生成し、かつ、帳票画像データ210を情報読取部110に送信する。
情報読取部110は、ネットワーク経由で帳票画像データ210を取得する。また、情報読取部110は、スキャナ装置等が生成した帳票画像データ210をネットワーク経由で取得しても良い。
(ステップS102:形式情報抽出処理)
情報読取部110は、帳票画像データ210から形式情報221を抽出する。
(ステップS103:意味情報抽出処理)
情報読取部110は、帳票画像データ210から意味情報222を抽出する。
以下、本フローチャートの説明において、特に断りがない限り、形式情報221はステップS103において抽出されたものを指し、かつ、意味情報222はステップS103において抽出されたものを指す。また、帳票データは、形式情報221と、意味情報222とを合わせたデータとする。
情報読取部110は、帳票の作成者を示す情報又は帳票の送信元を示す情報を帳票データに含めても良い。具体例として、検証装置100が帳票をファクシミリで受信した場合、情報読取部110は、TSI(Transmitting Subscriber Identification)コード、ファクシミリの送信元の電話番号、又はこれらのいずれかに対応する情報を帳票データに含める。情報読取部110は、具体例として、当該情報をファクシミリサーバから帳票画像データ210とともに取得する。
情報読取部110は、OCR機能を有するツールを用いて、ステップS101からステップS103までの処理を一体的に実行しても良い。当該ツールは、具体例として、Tesseractというソフトウェアを備えるツールである。
情報読取部110がTesseractというソフトウェアを備えるツールを用いた場合における情報読取部110が生成するファイルの例を、図5及び図6を用いて説明する。
図5は、形式情報221を含むファイルの例の一部を示している。本例は、図2が示す帳票に対応している。本図において、形式情報221として、各文字と、各文字の横開始位置、縦開始位置、横終了位置、及び縦終了位置とが示されている。検証装置100は、これらの情報を用いて各文字のフォントサイズを求めても良い。
図6は、意味情報222を含むファイルの例の一部を示している。本例は、図2が示す帳票に対応している。本図において、意味情報222として、帳票に示されている文字が含まれている。
ノイズN1と、ノイズN2とは、帳票データが含むノイズを示している。
なお、ノイズN1と、ノイズN2とのそれぞれを囲む点線による四角形は、説明の便宜上付されたものであり、意味情報222を構成するものではない。図7においても同様である。
図7は、読取結果の例を示している。本例は、図2が示す帳票に対応している。読取結果は、情報読取部110が帳票データを読み取った結果を示す。読取結果は、本図に示すように、csv(comma−separated values)形式のファイルであっても良い。
ノイズN1と、ノイズN2とは、読取結果が含むノイズを示している。
(ステップS104:ノイズ分析処理)
検証装置100は、帳票データに含まれるノイズを特定する。
本ステップの処理の詳細は、後述のフローチャートによって説明する。
(ステップS105:確認要求処理)
確認要求部140は、ノイズ除去済データを用いて確認要求データを生成し、かつ、確認要求データを修正端末に出力する。OCRを用いた検証装置100は、全てのノイズを特定することができないことがある、また、誤ってノイズを特定することがある。そのため、ステップS104においてノイズが除去されたデータを確認するようユーザに求める。
修正端末は、確認要求データを表示する。
ユーザは、修正端末を参照することにより確認要求データが含む誤読又は不読等を探す。ユーザが誤読又は不読等を発見した場合、ユーザは、修正端末を用いて修正する。
(ステップS106:修正反映処理)
ステップS105においてユーザが確認要求データを修正した場合、確認要求部140は、ユーザによる修正をノイズ除去済データに反映する。
図8は、ステップS104の処理の詳細を示すフローチャートである。本図を参照して、ステップS104の処理を説明する。
(ステップS121:対象グループタイトル特定処理)
表示量分析部120は、グループタイトル202を対象グループタイトルとして特定する。
本フローチャートの処理において表示量分析部120が隣接グループタイトルを求めている場合、表示量分析部120は、直前に求めた隣接グループタイトルを対象グループタイトルとする。
それ以外の場合、表示量分析部120は、特徴辞書310と、形式情報221と、意味情報222とを用いて、グループタイトル202を特定する。具体例として、表示量分析部120は、帳票の先頭から走査し、かつ、走査した内容と、特徴辞書310に含まれる情報とを比較することによってグループタイトル202を特定する。
本ステップにおいて求めたグループタイトル202を対象グループタイトルとする。対象グループタイトルに対応する明細行グループ201を対象明細行グループとする。
表示量分析部120は、直前に求めた隣接グループタイトルを対象グループタイトルとしても良い。
(ステップS122:隣接グループタイトル特定処理)
表示量分析部120は、特徴辞書310と、形式情報221と、意味情報222とを用いて、対象グループタイトルに隣接しているグループタイトル202を隣接グループタイトルとして特定する。
表示量分析部120は、具体例として、表示量分析部120が本フローチャートの処理において走査した領域の終端から帳票を走査することによって、隣接グループタイトルを特定する。
本ステップにおいて求めたグループタイトル202を隣接グループタイトルとする。
(ステップS123:表示量算出処理)
表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求める。表示量分析部120は、対象明細行グループが含むべき明細行204の行数を、対象行数として求める。
具体例として、表示量分析部120は、対象グループタイトルの位置と、隣接グループタイトルの位置との縦方向における差を対象間隔とする。明細行の1行が必要とする間隔が一定である場合、明細行の1行が必要とする間隔によって対象間隔を除算することにより、表示量分析部120は、対象明細行グループが含むべき行数を求めることができる。
(ステップS124:ノイズ特定処理)
ノイズ特定部130は、対象行数を用いて対象明細行グループに含まれるノイズを特定する。ノイズ特定部130は、特定したノイズを除去しても良い。
ノイズ特定部130は、全ての明細行グループ201それぞれの明細行数を求めた後に本ステップの処理を実行しても良い。
(ステップS125:終了判定処理)
ノイズ特定部130が帳票データに含まれている全ての明細行グループ201を対象としてノイズを分析した場合、検証装置100は、本フローチャートの処理を終了する。それ以外の場合、検証装置100は、ステップS121に進む。
検証装置100がノイズを除去する処理について、具体的に説明する。
図9は、特徴辞書310の具体例を示している。特徴辞書DB300は、特徴辞書310を有する。本例は、図2が示す帳票に対応している。図2が示す帳票に対応する帳票データを対象帳票データとする。
「No.」欄は、各特徴に割り当てられた通し番号を示している。「送信元」欄は、帳票の送信元を示している。「大項目」欄は、帳票に含まれる大項目に相当するものを示している。「小項目」欄は、帳票に含まれる小項目に相当するものを示している。「特徴」欄は、「大項目」欄又は「小項目」欄に含まれる項目が有する特徴を示している。なお、本例において、特徴辞書310には、A社及びB社それぞれに対応する特徴が含まれている。
具体例として、ステップS123において、表示量分析部120は、本例の特徴辞書310を用いて対象帳票データを分析する。ここで、明細行グループ201_1を対象明細行グループとする。明細行グループ201_1は、「発注伝票No:10490001」に対応する。
表示量分析部120は、グループタイトル202_1と、グループタイトル202_2とを特定する。表示量分析部120は、グループタイトル202_1と、グループタイトル202_2との間隔を対象間隔として求める、表示量分析部120は、特徴辞書310を参照することにより、対象表示量として3行という値を求めても良い。この際、表示量分析部120は、商品コードのフォントサイズと、明細行グループ201の終端の縦幅と等を考慮しても良い。
図7は、読取結果を示している。読取結果において、対象明細行グループには4行存在する。ノイズ特定部130は、特徴辞書310と、対象間隔とを参照することにより、4行の内、最も下の行は本来空白であるものと判断する。ノイズ特定部130は、対象間隔の代わりに対象表示量を参照しても良い。
ノイズ特定部130は、4行目をノイズと特定し、4行目を除去し、かつ、ノイズ除去済データを生成する。ここで、ノイズ除去済データには、ノイズN2が含まれている。
また、本例において、検証装置100は、「発注伝票No」と、発注の明細が記載されている行とを混同することを防ぐことができる。
確認要求部140は、ノイズ除去済データを用いて確認要求データを生成し、かつ、確認要求データを表示装置に出力する。当該確認要求データは、ノイズN2を示す。表示装置は、確認要求データを表示する。ユーザは、ノイズN2を発見し、かつ、ノイズN2を除去する。確認要求部140は、ノイズ除去済データからノイズN2を除去することにより、ノイズ除去結果を生成する。
図10は、ノイズ除去結果の例を示している。ノイズ除去結果は、検証装置100と、ユーザとが読取結果に含まれるノイズを除去した結果である。本例は、図7に対応しており、かつ、csv形式のファイルである。本例において、ノイズN1と、ノイズN2とは含まれていない。
確認要求部140は、本図が示すファイルを生成しても良い。
***実施の形態1の効果の説明***
以上のように、本実施の形態によれば、表示量分析部120は、隣接している2つのグループタイトル202の間隔を求める。ノイズ特定部130は、特徴辞書310と、当該間隔とを用いてノイズを特定する。
従って、本実施の形態によれば、検証装置100は、帳票データに含まれるノイズの内、検出されないノイズの量を少なくすることができる。また、ユーザは、ノイズの確認をする作業量を減らすことができるため、OCRサーバが生成した結果をユーザが確認する作業の負荷を軽減することができる。
***他の構成***
<変形例1>
帳票に表示されている明細行グループ201の総数が1つのみである場合、表示量分析部120は、明細行グループ201の終端をグループタイトル202とみなしても良く、また、明細行グループ201の終端に続けて仮想的な明細行グループ201が存在するものとみなしても良い。
本変形例において、具体例として、ステップS122において、表示量分析部120は、対象明細行グループの終端を隣接グループタイトルとみなしても良く、また、隣接グループタイトルに続けて隣接明細行グループが存在するものとみなしても良い。
検証装置100は、帳票の末尾に存在する明細行グループ201に対して、本変形例と同様の処理を実行しても良い。
<変形例2>
検証装置100は、特徴辞書310を学習しても良い。本変形例において、具体例として、検証装置100は、辞書学習部を備える。
辞書学習部は、特徴辞書310を更新する。辞書学習部は、具体例として、ユーザが確認要求データを修正した履歴を用いる。辞書学習部、機械学習の手法を用いても良い。
<変形例3>
図11は、本変形例が扱う帳票の具体例の一部を示している。本図の見方は、図2の見方と同様である。当該帳票は、本図に示すように、終端情報203を含んでいる。終端情報203は、明細行グループ201の終端を示す。本例において、終端情報203は、線である。終端情報203は、記号又は図形であっても良い。全ての明細行グループ201が終端情報203を有さなくても良い。
表示量分析部120は、明細行グループ201の終端情報203をグループタイトル202とみなしても良い。即ち、表示量分析部120は、対象グループタイトルと、対象明細行グループに対応する終端情報203との間隔を対象間隔としても良い。
<変形例4>
図12は、本変形例に係る検証装置100のハードウェア構成例を示している。
検証装置100は、本図に示すように、プロセッサ11とメモリ12と補助記憶装置13との少なくとも1つに代えて、処理回路18を備える。
処理回路18は、検証装置100が備える各部の少なくとも一部を実現するハードウェアである。
処理回路18は、専用のハードウェアであっても良く、また、メモリ12に格納されるプログラムを実行するプロセッサであっても良い。
処理回路18が専用のハードウェアである場合、処理回路18は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(ASICはApplication Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)又はこれらの組み合わせである。
検証装置100は、処理回路18を代替する複数の処理回路を備えても良い。複数の処理回路は、処理回路18の役割を分担する。
検証装置100において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されても良い。
処理回路18は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
プロセッサ11とメモリ12と補助記憶装置13と処理回路18とを、総称して「プロセッシングサーキットリー」という。つまり、検証装置100の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
***他の実施の形態***
実施の形態1について説明したが、本実施の形態のうち、複数の部分を組み合わせて実施しても構わない。あるいは、本実施の形態のうち、1つの部分を実施しても構わない。その他、本実施の形態は、必要に応じて種々の変更がなされても構わず、全体としてあるいは部分的に、どのように組み合わせて実施されても構わない。
なお、上述した実施の形態は、本質的に好ましい例示であって、本開示と、その適用物と、用途の範囲とを制限することを意図するものではない。フローチャート等を用いて説明した手順は、適宜変更されても良い。
11 プロセッサ、12 メモリ、13 補助記憶装置、14 入出力IF、15 通信装置、18 処理回路、19 信号線、90 検証システム、91 ネットワーク、100 検証装置、110 情報読取部、120 表示量分析部、130 ノイズ特定部、140 確認要求部、201 明細行グループ、202 グループタイトル、203 終端情報、204 明細行、210 帳票画像データ、221 形式情報、222 意味情報、300 特徴辞書DB、310 特徴辞書、N1,N2 ノイズ。

Claims (10)

  1. 明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求める表示量分析部と、
    前記対象行数を用いて前記帳票データに含まれるノイズを特定するノイズ特定部と
    を備える検証装置。
  2. 前記グループタイトルは、前記グループタイトルが開始することを示す文字列を開始文字列として含み、
    前記特徴辞書は、前記開始文字列の特徴を示す情報を含む請求項1に記載の検証装置。
  3. 前記開始文字列の桁数は、開始桁数であり、
    前記特徴辞書は、前記開始桁数を示す情報を含む請求項2に記載の検証装置。
  4. 前記グループタイトルが含んでいる文字のサイズと、前記明細行が含んでいる文字のサイズとは異なり、
    前記特徴辞書は、前記グループタイトルが含んでいる文字のサイズを示す情報を含む請求項1から3のいずれか1項に記載の検証装置。
  5. 前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合において、前記隣接グループタイトルは、前記対象明細行グループと、前記隣接グループタイトルに対応する明細行グループとを区切る区切文字列であり、
    前記特徴辞書は、前記区切文字列の特徴を示す情報を区切情報として含み、
    前記表示量分析部は、前記区切情報を用いて前記区切文字列を特定し、かつ、前記対象間隔として前記対象グループタイトルと前記区切文字列との間隔を求める請求項1から4のいずれか1項に記載の検証装置。
  6. 前記表示量分析部は、前記対象明細行グループが含んでいる明細行の最後の行を最終行として特定し、かつ、前記対象間隔として前記対象グループタイトルと前記最終行との間隔を求める請求項1から5のいずれか1項に記載の検証装置。
  7. 前記帳票は紙であり、
    前記帳票データは、前記帳票を光学的文字認識によって電子化したデータである請求項1から6のいずれか1項に記載の検証装置。
  8. 前記ノイズ特定部は、特定したノイズを除去する請求項1から7のいずれか1項に記載の検証装置。
  9. 表示量分析部が、明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求め、
    ノイズ特定部が、前記対象行数を用いて前記帳票データに含まれるノイズを特定する検証方法。
  10. 明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを記憶しているコンピュータに、
    前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定させ、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定させ、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定させ、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求めさせ、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求めさせ、
    前記対象行数を用いて前記帳票データに含まれるノイズを特定させる検証プログラム。
JP2020051092A 2020-03-23 2020-03-23 検証装置、検証方法、及び、検証プログラム Active JP6869394B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020051092A JP6869394B1 (ja) 2020-03-23 2020-03-23 検証装置、検証方法、及び、検証プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020051092A JP6869394B1 (ja) 2020-03-23 2020-03-23 検証装置、検証方法、及び、検証プログラム

Publications (2)

Publication Number Publication Date
JP6869394B1 true JP6869394B1 (ja) 2021-05-12
JP2021149794A JP2021149794A (ja) 2021-09-27

Family

ID=75801885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020051092A Active JP6869394B1 (ja) 2020-03-23 2020-03-23 検証装置、検証方法、及び、検証プログラム

Country Status (1)

Country Link
JP (1) JP6869394B1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4646300B2 (ja) * 2005-04-28 2011-03-09 キヤノンマーケティングジャパン株式会社 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体
CN100514355C (zh) * 2005-09-05 2009-07-15 富士通株式会社 指定文本行提取方法和装置
JP2009093305A (ja) * 2007-10-05 2009-04-30 Hitachi Computer Peripherals Co Ltd 帳票認識装置
JP6252296B2 (ja) * 2014-03-27 2017-12-27 富士通株式会社 データ識別方法、データ識別プログラム及びデータ識別装置
JP7122896B2 (ja) * 2018-07-17 2022-08-22 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム

Also Published As

Publication number Publication date
JP2021149794A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
US8320019B2 (en) Image processing apparatus, image processing method, and computer program thereof
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP4903034B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP2007042106A (ja) 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム
EP2162859A1 (en) Image processing apparatus, image processing method, and computer program
US10395131B2 (en) Apparatus, method and non-transitory storage medium for changing position coordinates of a character area stored in association with a character recognition result
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
CN112487859A (zh) 信息处理装置、信息处理方法和计算机可读介质
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP4338189B2 (ja) 画像処理システム及び画像処理方法
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
JP6869394B1 (ja) 検証装置、検証方法、及び、検証プログラム
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2007041709A (ja) 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP2021056722A (ja) 情報処理装置及びプログラム
US20210097275A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
JP2022019445A (ja) 画像処理装置、方法、プログラム
JP2006134042A (ja) 画像処理システム
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
US20220383023A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200323

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210413

R150 Certificate of patent or registration of utility model

Ref document number: 6869394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250