JP6869394B1 - 検証装置、検証方法、及び、検証プログラム - Google Patents
検証装置、検証方法、及び、検証プログラム Download PDFInfo
- Publication number
- JP6869394B1 JP6869394B1 JP2020051092A JP2020051092A JP6869394B1 JP 6869394 B1 JP6869394 B1 JP 6869394B1 JP 2020051092 A JP2020051092 A JP 2020051092A JP 2020051092 A JP2020051092 A JP 2020051092A JP 6869394 B1 JP6869394 B1 JP 6869394B1
- Authority
- JP
- Japan
- Prior art keywords
- group
- target
- title
- line
- detail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 238000012015 optical character recognition Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 abstract 1
- 238000012790 confirmation Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 22
- 238000012937 correction Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004397 blinking Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
Description
一般的に用いられる表は、罫線で囲まれた矩形の領域をさらに罫線で細分化して得られる複数の矩形領域を、項目名欄(以後、グループタイトルと呼ぶ)又はデータ欄(以後、明細と呼ぶ)として使用することにより、グループタイトルと明細の対応付けを表している。したがって表を認識するためにはグループタイトルと明細との区別、及びその対応関係を把握する必要がある。
しかし、この技術は罫線に囲まれた矩形によってグループタイトルと明細の存在を認識するため、横方向の罫線のみ引かれた表や、罫線が引かれず文字の間隔のみで項目やデータを表した表等は認識できない。
明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求める表示量分析部と、
前記対象行数を用いて前記帳票データに含まれるノイズを特定するノイズ特定部と
を備える。
前記特徴辞書は、前記開始文字列の特徴を示す情報を含む。
前記特徴辞書は、前記開始桁数を示す情報を含む。
前記特徴辞書は、前記グループタイトルが含んでいる文字のサイズを示す情報を含む。
前記特徴辞書は、前記区切文字列の特徴を示す情報を区切情報として含み、
前記表示量分析部は、前記区切情報を用いて前記区切文字列を特定し、かつ、前記対象間隔として前記対象グループタイトルと前記区切文字列との間隔を求める。
前記帳票データは、前記帳票を光学的文字認識によって電子化したデータである。
表示量分析部が、明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求め、
ノイズ特定部が、前記対象行数を用いて前記帳票データに含まれるノイズを特定する。
明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを記憶しているコンピュータに、
前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定させ、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定させ、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定させ、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求めさせ、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求めさせ、
前記対象行数を用いて前記帳票データに含まれるノイズを特定させる。
以下、本実施の形態について、図面を参照しながら詳細に説明する。
図1は、本実施の形態に係る検証システム90の構成例を示している。検証システム90は、ファクシミリサーバと、OCR(Optical Character Recognition)サーバと、特徴辞書DB(Database)300と、修正端末とを備える。ファクシミリサーバと、OCRサーバと、特徴辞書DB300とは、ネットワーク91を介して互いに通信することができるよう接続されている。ネットワーク91は、具体例として、LAN(Local Area Network)である。
本図に示される各要素は、適宜分離して構成されていても良く、また、適宜一体的に構成されていても良い。
修正端末は、ネットワーク91を介して検証装置100と接続していても良い。
具体的には、特徴辞書310は、グループ特徴情報及びタイトル特徴情報を含む。グループ特徴情報は、明細行グループ201の特徴を示す。タイトル特徴情報は、グループタイトル202の特徴を示す。
グループタイトル202と、明細行グループ201とは、水平方向に隣接していても良い。
明細行グループ201は、明細に関連する情報又は明細とは関係のない情報を含んでも良い。
グループタイトル202は、具体例として、明細行グループ201のタイトル、明細行グループ201に対応する日時、区切文字列、区切線、又は、所定の幅のスペースである。区切り線は、隣接している2つの明細行グループ201の境界を示す。区切文字列は、文字列であり、かつ、隣接する2つの明細行グループ201を区切る。区切文字列は、文字以外のオブジェクトを含んでも良い。
帳票は、複数の明細行グループ201と、複数のグループタイトル202とを含んでも良い。複数のグループタイトル202は、複数の明細行グループ201それぞれが開始する位置を示す。明細行グループ201と、グループタイトル202とは、それぞれ1行以上の文字列であっても良い。
グループタイトル202は、開始文字列を含んでも良い。開始文字列は、グループタイトル202が開始することを示す文字列である。開始文字列は、グループタイトル202を特定することに用いられる。開始文字列の桁数は、開始桁数であっても良い。開始桁数は、所定の桁数を示す。具体例として、図2において、開始文字列は“発注伝票No.:”であり、開始桁数は8である。
グループタイトル202が含んでいる文字のサイズと、明細行204が含んでいる文字のサイズとが異なる場合において、特徴辞書310は、グループタイトル202が含んでいる文字のサイズを示す情報を含んでも良い。
また、特徴辞書DB300の代わりに、検証装置100が備える記憶装置が特徴辞書310を記憶していても良い。
本図中の複数の「・」は、ノイズである。
明細行グループ201_1と、明細行グループ201_2とは、隣接している。明細行グループ201_1と、明細行グループ201_2との間には、グループタイトル202_2が表示されている。
明細行グループ201_1と、明細行グループ201_2とには、それぞれ明細を示す情報として発注内容が表示されている。明細行グループ201_1が表示されている領域と、明細行グループ201_2が表示されている領域とは、グループタイトル202_2により分断されている。
明細行グループ201_1は明細行204_1を含み、明細行グループ201_2は明細行204_2を含む。明細行204_1の行数は、4である。明細行204_1の各行は、明細を示している、又は、明細に関連している。
検証装置100は、プロセッサ11を代替する複数のプロセッサを備えても良い。複数のプロセッサは、プロセッサ11の役割を分担する。
メモリ12と、補助記憶装置13とは、一体的に構成されていても良い。
検証装置100の各部がデータを受け付ける場合、検証装置100の各部は、入出力IF14を介してデータを受け付けても良く、また、通信装置15を介してデータを受け付けても良い。
メモリ12の機能と、補助記憶装置13の機能とのそれぞれは、他の記憶装置によって実現されても良い。
帳票画像データ210は、帳票を示す画像データである。帳票は、紙に表示されたものであっても良く、また、電子データであっても良い。帳票と帳票画像データ210とが、同じであっても良い。
情報読取部110は、帳票データを生成する。帳票データは、具体例として、意味情報222と、形式情報221との総称である。情報読取部110は、明細行グループ201と、グループタイトル202とのそれぞれに対応する形式情報221と、意味情報222とを生成しても良い。形式情報221は、オブジェクトの形式を示す。オブジェクトは、明細行グループ201又はグループタイトル202に表示されており、かつ、情報を表現することに用いられる。オブジェクトは、具体例として、文字、記号、線、又は図柄である。意味情報222は、オブジェクトが有する意味に関する情報である。意味情報222は、具体例として、何らかの意味を有する情報、又は、何らかの意味を有する情報を構成する情報である。形式情報221と、意味情報222との間に重複があっても良い。形式情報221と、意味情報222とが1つのファイルに含まれていても良い。
オブジェクトが文字である場合、形式情報221は、具体例として、文字のサイズ、フォント、文字の色、隣接している2つの文字の間隔、又は行間の長さである。この場合において、意味情報222は、具体例として、文字、記号、又は、線である。意味情報222は、帳票に表示されている文字に対応する文字コード又はカラーコードであっても良い。
情報読取部110は、帳票画像データ210を補正しても良い。情報読取部110は、具体例として、傾きを補正する、又はファクシミリの送受信に伴って発生したノイズ等を補正する。
表示量分析部120は、明細間隔及び特徴辞書310を用いて各明細行グループ201が含む明細行204が含むべき行数を明細行数として求める。明細行数は、明細間隔に対応する行数である。表示量分析部120は、特徴辞書310を参照することによって、明細間隔に対応する明細行数を求める。
表示量分析部120は、明細間隔を用いて各明細行グループ201に表示されるべき量を明細表示量として求めても良い。各明細行グループ201に表示されている量は、具体例として、オブジェクトの個数又は行数である。明細表示量は、明細行グループ201に表示されているものに対応する数値である。2つの明細表示量がある場合、かつ、一方の明細表示量が他方の明細表示量よりも大きい場合において、当該一方の明細表示量に対応する明細行グループ201に表示されている情報の量が、当該他方の明細表示量に対応する明細行グループ201に表示されている情報の量よりも多くても良い。
表示量分析部120は、オブジェクトが存在すべき位置を求めても良い。位置は、相対的な位置であっても良く、また、絶対的な位置であっても良い。表示量分析部120は、具体例として、明細行204の各行の先頭の位置を求める。
表示量分析部120は、帳票データ及び特徴辞書310を用いて複数の明細行グループ201に含まれるいずれか1つの明細行グループ201を対象明細行グループとして特定しても良い。表示量分析部120は、帳票データ及び特徴辞書310を用いて対象明細行グループに対応するグループタイトル202を対象グループタイトルとして特定し、帳票データ及び特徴辞書310を用いて隣接明細行グループに対応するグループタイトル202を隣接グループタイトルとして特定しても良い。表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間に対象明細行グループが存在する場合に、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求めても良い。表示量分析部120は、対象間隔と、特徴辞書310とを用いて対象明細行グループが含む明細行204が含むべき行数を対象行数として求めても良い。表示量分析部120は、帳票データ及び特徴辞書310を用いて対象明細行グループを特定しても良い。
ある行に含まれる文字列の桁数が特定の桁数である場合、表示量分析部120は、当該ある行をグループタイトル202として特定しても良い。ある行に含まれる文字列の特定の部分が特定の桁数である場合、表示量分析部120は、当該ある行をグループタイトル202として特定しても良い。特定の部分は、具体例として、発注伝票番号が記載されている部分である。
本例において、表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求めても良く、また、対象間隔と、特徴辞書310とを用いて対象明細行グループに表示されている量を対象表示量として求めても良い。対象表示量は、対象間隔のみを含んでも良く、また、対象明細行グループに含まれるオブジェクトの位置の情報を含んでも良い。表示量分析部120は、明細行グループ201_1が含むべき行数を4と求めても良く、明細行グループ201_2が含むべき行数を3と求めても良い。
ノイズ特定部130は、具体例として、帳票データにおいて、表示量分析部120が求めた位置に含まれない位置に行が存在する場合、又は、空白であるはずの領域に行が存在する場合、当該行を削除する。帳票データにおいて行の位置がずれている場合、ノイズ特定部130は、当該行の位置を補正しても良い。帳票データにおいて、グループタイトル202の先頭部分に記載されているべき文字が記載されていない場合、ノイズ特定部130は、当該文字を追加しても良い。
ノイズ特定部130は、表示量分析部120が求めた位置に存在すべき情報を帳票データに追加しても良く、また、表示量分析部120が求めた位置に存在するはずのない情報を帳票データから削除しても良い。
帳票データにノイズが含まれていない場合、ノイズ特定部130は、帳票データをノイズ除去済データとしても良い。
ノイズ特定部130は、表示文字列に含まれる各行の位置を求め、かつ、求めた位置を用いて帳票データに含まれるノイズを特定しても良い。
確認要求部140は、修正端末に確認要求データを出力することにより、ユーザに対して確認要求データを確認することを要求する。ユーザは、検証装置100の利用者である。利用者は、コンピュータ等、人間でなくても良い。
検証システム90は、ユーザが確認要求データを修正することができる構成であっても良い。ユーザが確認要求データを修正した場合、確認要求部140は、ユーザによる修正をノイズ除去済データに反映する。
検証装置100の動作手順は、検証方法に相当する。また、検証装置100の動作を実現するプログラムは、検証プログラムに相当する。
情報読取部110は、帳票画像データ210を受け付ける。
具体例として、ファクシミリサーバが、公衆電話網を介してFAXを受け付け、受け付けたFAXを電子化することにより帳票画像データ210を生成し、かつ、帳票画像データ210を情報読取部110に送信する。
情報読取部110は、ネットワーク経由で帳票画像データ210を取得する。また、情報読取部110は、スキャナ装置等が生成した帳票画像データ210をネットワーク経由で取得しても良い。
情報読取部110は、帳票画像データ210から形式情報221を抽出する。
情報読取部110は、帳票画像データ210から意味情報222を抽出する。
図5は、形式情報221を含むファイルの例の一部を示している。本例は、図2が示す帳票に対応している。本図において、形式情報221として、各文字と、各文字の横開始位置、縦開始位置、横終了位置、及び縦終了位置とが示されている。検証装置100は、これらの情報を用いて各文字のフォントサイズを求めても良い。
ノイズN1と、ノイズN2とは、帳票データが含むノイズを示している。
なお、ノイズN1と、ノイズN2とのそれぞれを囲む点線による四角形は、説明の便宜上付されたものであり、意味情報222を構成するものではない。図7においても同様である。
ノイズN1と、ノイズN2とは、読取結果が含むノイズを示している。
検証装置100は、帳票データに含まれるノイズを特定する。
本ステップの処理の詳細は、後述のフローチャートによって説明する。
確認要求部140は、ノイズ除去済データを用いて確認要求データを生成し、かつ、確認要求データを修正端末に出力する。OCRを用いた検証装置100は、全てのノイズを特定することができないことがある、また、誤ってノイズを特定することがある。そのため、ステップS104においてノイズが除去されたデータを確認するようユーザに求める。
修正端末は、確認要求データを表示する。
ユーザは、修正端末を参照することにより確認要求データが含む誤読又は不読等を探す。ユーザが誤読又は不読等を発見した場合、ユーザは、修正端末を用いて修正する。
ステップS105においてユーザが確認要求データを修正した場合、確認要求部140は、ユーザによる修正をノイズ除去済データに反映する。
表示量分析部120は、グループタイトル202を対象グループタイトルとして特定する。
本フローチャートの処理において表示量分析部120が隣接グループタイトルを求めている場合、表示量分析部120は、直前に求めた隣接グループタイトルを対象グループタイトルとする。
それ以外の場合、表示量分析部120は、特徴辞書310と、形式情報221と、意味情報222とを用いて、グループタイトル202を特定する。具体例として、表示量分析部120は、帳票の先頭から走査し、かつ、走査した内容と、特徴辞書310に含まれる情報とを比較することによってグループタイトル202を特定する。
本ステップにおいて求めたグループタイトル202を対象グループタイトルとする。対象グループタイトルに対応する明細行グループ201を対象明細行グループとする。
表示量分析部120は、直前に求めた隣接グループタイトルを対象グループタイトルとしても良い。
表示量分析部120は、特徴辞書310と、形式情報221と、意味情報222とを用いて、対象グループタイトルに隣接しているグループタイトル202を隣接グループタイトルとして特定する。
表示量分析部120は、具体例として、表示量分析部120が本フローチャートの処理において走査した領域の終端から帳票を走査することによって、隣接グループタイトルを特定する。
本ステップにおいて求めたグループタイトル202を隣接グループタイトルとする。
表示量分析部120は、対象グループタイトルと、隣接グループタイトルとの間隔を対象間隔として求める。表示量分析部120は、対象明細行グループが含むべき明細行204の行数を、対象行数として求める。
具体例として、表示量分析部120は、対象グループタイトルの位置と、隣接グループタイトルの位置との縦方向における差を対象間隔とする。明細行の1行が必要とする間隔が一定である場合、明細行の1行が必要とする間隔によって対象間隔を除算することにより、表示量分析部120は、対象明細行グループが含むべき行数を求めることができる。
ノイズ特定部130は、対象行数を用いて対象明細行グループに含まれるノイズを特定する。ノイズ特定部130は、特定したノイズを除去しても良い。
ノイズ特定部130は、全ての明細行グループ201それぞれの明細行数を求めた後に本ステップの処理を実行しても良い。
ノイズ特定部130が帳票データに含まれている全ての明細行グループ201を対象としてノイズを分析した場合、検証装置100は、本フローチャートの処理を終了する。それ以外の場合、検証装置100は、ステップS121に進む。
図9は、特徴辞書310の具体例を示している。特徴辞書DB300は、特徴辞書310を有する。本例は、図2が示す帳票に対応している。図2が示す帳票に対応する帳票データを対象帳票データとする。
「No.」欄は、各特徴に割り当てられた通し番号を示している。「送信元」欄は、帳票の送信元を示している。「大項目」欄は、帳票に含まれる大項目に相当するものを示している。「小項目」欄は、帳票に含まれる小項目に相当するものを示している。「特徴」欄は、「大項目」欄又は「小項目」欄に含まれる項目が有する特徴を示している。なお、本例において、特徴辞書310には、A社及びB社それぞれに対応する特徴が含まれている。
表示量分析部120は、グループタイトル202_1と、グループタイトル202_2とを特定する。表示量分析部120は、グループタイトル202_1と、グループタイトル202_2との間隔を対象間隔として求める、表示量分析部120は、特徴辞書310を参照することにより、対象表示量として3行という値を求めても良い。この際、表示量分析部120は、商品コードのフォントサイズと、明細行グループ201の終端の縦幅と等を考慮しても良い。
ノイズ特定部130は、4行目をノイズと特定し、4行目を除去し、かつ、ノイズ除去済データを生成する。ここで、ノイズ除去済データには、ノイズN2が含まれている。
また、本例において、検証装置100は、「発注伝票No」と、発注の明細が記載されている行とを混同することを防ぐことができる。
確認要求部140は、本図が示すファイルを生成しても良い。
以上のように、本実施の形態によれば、表示量分析部120は、隣接している2つのグループタイトル202の間隔を求める。ノイズ特定部130は、特徴辞書310と、当該間隔とを用いてノイズを特定する。
従って、本実施の形態によれば、検証装置100は、帳票データに含まれるノイズの内、検出されないノイズの量を少なくすることができる。また、ユーザは、ノイズの確認をする作業量を減らすことができるため、OCRサーバが生成した結果をユーザが確認する作業の負荷を軽減することができる。
<変形例1>
帳票に表示されている明細行グループ201の総数が1つのみである場合、表示量分析部120は、明細行グループ201の終端をグループタイトル202とみなしても良く、また、明細行グループ201の終端に続けて仮想的な明細行グループ201が存在するものとみなしても良い。
本変形例において、具体例として、ステップS122において、表示量分析部120は、対象明細行グループの終端を隣接グループタイトルとみなしても良く、また、隣接グループタイトルに続けて隣接明細行グループが存在するものとみなしても良い。
検証装置100は、帳票の末尾に存在する明細行グループ201に対して、本変形例と同様の処理を実行しても良い。
検証装置100は、特徴辞書310を学習しても良い。本変形例において、具体例として、検証装置100は、辞書学習部を備える。
辞書学習部は、特徴辞書310を更新する。辞書学習部は、具体例として、ユーザが確認要求データを修正した履歴を用いる。辞書学習部、機械学習の手法を用いても良い。
図11は、本変形例が扱う帳票の具体例の一部を示している。本図の見方は、図2の見方と同様である。当該帳票は、本図に示すように、終端情報203を含んでいる。終端情報203は、明細行グループ201の終端を示す。本例において、終端情報203は、線である。終端情報203は、記号又は図形であっても良い。全ての明細行グループ201が終端情報203を有さなくても良い。
表示量分析部120は、明細行グループ201の終端情報203をグループタイトル202とみなしても良い。即ち、表示量分析部120は、対象グループタイトルと、対象明細行グループに対応する終端情報203との間隔を対象間隔としても良い。
図12は、本変形例に係る検証装置100のハードウェア構成例を示している。
検証装置100は、本図に示すように、プロセッサ11とメモリ12と補助記憶装置13との少なくとも1つに代えて、処理回路18を備える。
処理回路18は、検証装置100が備える各部の少なくとも一部を実現するハードウェアである。
処理回路18は、専用のハードウェアであっても良く、また、メモリ12に格納されるプログラムを実行するプロセッサであっても良い。
検証装置100は、処理回路18を代替する複数の処理回路を備えても良い。複数の処理回路は、処理回路18の役割を分担する。
プロセッサ11とメモリ12と補助記憶装置13と処理回路18とを、総称して「プロセッシングサーキットリー」という。つまり、検証装置100の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
実施の形態1について説明したが、本実施の形態のうち、複数の部分を組み合わせて実施しても構わない。あるいは、本実施の形態のうち、1つの部分を実施しても構わない。その他、本実施の形態は、必要に応じて種々の変更がなされても構わず、全体としてあるいは部分的に、どのように組み合わせて実施されても構わない。
なお、上述した実施の形態は、本質的に好ましい例示であって、本開示と、その適用物と、用途の範囲とを制限することを意図するものではない。フローチャート等を用いて説明した手順は、適宜変更されても良い。
Claims (10)
- 明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求める表示量分析部と、
前記対象行数を用いて前記帳票データに含まれるノイズを特定するノイズ特定部と
を備える検証装置。 - 前記グループタイトルは、前記グループタイトルが開始することを示す文字列を開始文字列として含み、
前記特徴辞書は、前記開始文字列の特徴を示す情報を含む請求項1に記載の検証装置。 - 前記開始文字列の桁数は、開始桁数であり、
前記特徴辞書は、前記開始桁数を示す情報を含む請求項2に記載の検証装置。 - 前記グループタイトルが含んでいる文字のサイズと、前記明細行が含んでいる文字のサイズとは異なり、
前記特徴辞書は、前記グループタイトルが含んでいる文字のサイズを示す情報を含む請求項1から3のいずれか1項に記載の検証装置。 - 前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合において、前記隣接グループタイトルは、前記対象明細行グループと、前記隣接グループタイトルに対応する明細行グループとを区切る区切文字列であり、
前記特徴辞書は、前記区切文字列の特徴を示す情報を区切情報として含み、
前記表示量分析部は、前記区切情報を用いて前記区切文字列を特定し、かつ、前記対象間隔として前記対象グループタイトルと前記区切文字列との間隔を求める請求項1から4のいずれか1項に記載の検証装置。 - 前記表示量分析部は、前記対象明細行グループが含んでいる明細行の最後の行を最終行として特定し、かつ、前記対象間隔として前記対象グループタイトルと前記最終行との間隔を求める請求項1から5のいずれか1項に記載の検証装置。
- 前記帳票は紙であり、
前記帳票データは、前記帳票を光学的文字認識によって電子化したデータである請求項1から6のいずれか1項に記載の検証装置。 - 前記ノイズ特定部は、特定したノイズを除去する請求項1から7のいずれか1項に記載の検証装置。
- 表示量分析部が、明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを受け取り、前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定し、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定し、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定し、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求め、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求め、
ノイズ特定部が、前記対象行数を用いて前記帳票データに含まれるノイズを特定する検証方法。 - 明細を示す少なくとも1行から成る明細行を含む複数の明細行グループと、前記複数の明細行グループそれぞれのタイトルを示すグループタイトルとが表示されている帳票に対応する電子データである帳票データと、前記明細行グループの特徴を示すグループ特徴情報及び前記グループタイトルの特徴を示すタイトル特徴情報を含む特徴辞書とを記憶しているコンピュータに、
前記特徴辞書を用いて前記複数の明細行グループに含まれるいずれか1つの明細行グループを対象明細行グループとして特定させ、前記特徴辞書を用いて前記対象明細行グループに対応するグループタイトルを対象グループタイトルとして特定させ、前記特徴辞書を用いて前記対象グループタイトルに隣接しているグループタイトルを隣接グループタイトルとして特定させ、前記対象グループタイトルと、前記隣接グループタイトルとの間に前記対象明細行グループが存在する場合に、前記対象グループタイトルと、前記隣接グループタイトルとの間隔を対象間隔として求めさせ、かつ、前記対象間隔及び前記特徴辞書を用いて前記対象明細行グループが含む明細行が含むべき行数を対象行数として求めさせ、
前記対象行数を用いて前記帳票データに含まれるノイズを特定させる検証プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020051092A JP6869394B1 (ja) | 2020-03-23 | 2020-03-23 | 検証装置、検証方法、及び、検証プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020051092A JP6869394B1 (ja) | 2020-03-23 | 2020-03-23 | 検証装置、検証方法、及び、検証プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6869394B1 true JP6869394B1 (ja) | 2021-05-12 |
JP2021149794A JP2021149794A (ja) | 2021-09-27 |
Family
ID=75801885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020051092A Active JP6869394B1 (ja) | 2020-03-23 | 2020-03-23 | 検証装置、検証方法、及び、検証プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6869394B1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4646300B2 (ja) * | 2005-04-28 | 2011-03-09 | キヤノンマーケティングジャパン株式会社 | 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体 |
CN100514355C (zh) * | 2005-09-05 | 2009-07-15 | 富士通株式会社 | 指定文本行提取方法和装置 |
JP2009093305A (ja) * | 2007-10-05 | 2009-04-30 | Hitachi Computer Peripherals Co Ltd | 帳票認識装置 |
JP6252296B2 (ja) * | 2014-03-27 | 2017-12-27 | 富士通株式会社 | データ識別方法、データ識別プログラム及びデータ識別装置 |
JP7122896B2 (ja) * | 2018-07-17 | 2022-08-22 | 株式会社豆蔵 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
-
2020
- 2020-03-23 JP JP2020051092A patent/JP6869394B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021149794A (ja) | 2021-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102403964B1 (ko) | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 | |
US8320019B2 (en) | Image processing apparatus, image processing method, and computer program thereof | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
JP4903034B2 (ja) | 画像処理装置、画像処理方法及びコンピュータプログラム | |
JP2007042106A (ja) | 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム | |
EP2162859A1 (en) | Image processing apparatus, image processing method, and computer program | |
US10395131B2 (en) | Apparatus, method and non-transitory storage medium for changing position coordinates of a character area stored in association with a character recognition result | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
CN112487859A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
JP5412903B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP4338189B2 (ja) | 画像処理システム及び画像処理方法 | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
JP6869394B1 (ja) | 検証装置、検証方法、及び、検証プログラム | |
JP4811133B2 (ja) | 画像形成装置及び画像処理装置 | |
JP2007041709A (ja) | 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP2021056722A (ja) | 情報処理装置及びプログラム | |
US20210097275A1 (en) | Image processing apparatus, control method of image processing apparatus, and storage medium | |
JP2022019445A (ja) | 画像処理装置、方法、プログラム | |
JP2006134042A (ja) | 画像処理システム | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
US20220383023A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
US20230102476A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200323 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20200623 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6869394 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |