JP6680052B2 - 表データ変換方法、プログラム、画像読取装置 - Google Patents

表データ変換方法、プログラム、画像読取装置 Download PDF

Info

Publication number
JP6680052B2
JP6680052B2 JP2016076276A JP2016076276A JP6680052B2 JP 6680052 B2 JP6680052 B2 JP 6680052B2 JP 2016076276 A JP2016076276 A JP 2016076276A JP 2016076276 A JP2016076276 A JP 2016076276A JP 6680052 B2 JP6680052 B2 JP 6680052B2
Authority
JP
Japan
Prior art keywords
cell
calculation
table data
result storage
storage cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016076276A
Other languages
English (en)
Other versions
JP2017187931A (ja
Inventor
泰史 青山
泰史 青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2016076276A priority Critical patent/JP6680052B2/ja
Publication of JP2017187931A publication Critical patent/JP2017187931A/ja
Application granted granted Critical
Publication of JP6680052B2 publication Critical patent/JP6680052B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、項目と数値が配列された表データから集計に使用された計算式を導出して再利用可能なデータに変換する表データ変換方法、プログラム、画像読取装置に関する。
近年、文字認識技術の精度向上に伴い、集計表をスキャナで読み取って得たイメージデータに対して、OCR(光学文字認識、Optical character recognition)やICR(インテリジェント文字認識、intelligent character recognition)などの画像解析処理を行うことで、罫線や文字、数値を認識し、所定の表計算プログラム等で利用可能な形式の表データに変換する技術がある。
たとえば、下記特許文献1には、入力画像に存在する集計表の中に計算式を記載しておくと、記載された計算式通りの計算を実施し、その計算結果を、計算式が記載されていたセルに描画したり、指定された形式で計算結果をグラフ化したりする技術が開示されている。
特開平09−138857号公報
従来、画像解析処理を適用して得た表データは、集計対象の数値のセルだけでなく、集計結果のセルについても、計算式ではなく、集計結果の数値データが格納されるだけなので、後の編集に適さないデータ形式であった。たとえば、画像解析処理を適用して取得した図21(a)の表データに対し、新たに列を追加し、同図(b)に示すように、”渡辺”のデータを記載する編集を行った場合、編集者は、渡辺さんのデータを追加後に、手作業で、F列の合計値を、”渡辺”の値を反映した値に再計算して記入する必要があり、作業者の手間となってしまう。
また、画像解析処理で文字を認識した際に、数値が誤認識された場合、表中の合計値が無効な値となってしまう。たとえば、図21(a)のD2のセルの値は本来「6」であるが、これを「8」と誤認した場合、E2のセルの値「12」、D6のセルの値「23」が整合しなくなってしまう。そして、この誤りを発見し修正するためには、表の各セルの値を1つ1つ確認する必要があり、膨大な工数が発生してしまう。
特許文献1に開示の技術は、計算式を予め記述する必要があって手間を要すると共に、出力される表には計算結果が記述されるだけなので、その後の編集や誤認識の検出は、やはり、できない。
本発明は、上記の問題を解決しようとするものであり、項目と数値が記述された表データから集計に使用された計算式を導出してその計算式が埋め込まれた表データを出力することのできる表データ変換方法、およびプログラム、画像読取装置を提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1] 情報処理装置が以下の各ステップを実行する表データ変換方法であって、
格子状にマス目が配列された表データを、数値の登録されたマス目が行列状に配列された数値部と、その周囲に配列された項目の登録されたマス目からなる項目部とに分類する分類ステップと、
前記情報処理装置が、前記項目部に分類されたマス目の登録内容を解析して集計方法を示す所定のキーワードを検出する検出ステップと、
前記検出ステップで検出したキーワードに対応する演算種別を特定する第1特定ステップと、
集計結果が格納されるマス目である集計結果格納セルと、該集計結果格納セルに格納される集計結果を求める際の集計範囲を特定する第2特定ステップと、
前記集計結果格納セルに格納する集計結果を算出するための計算式を、前記第2特定ステップで特定した集計範囲と前記第1特定ステップで特定した演算種別とから作成する計算式作成ステップと、
前記表データの前記集計結果格納セルに前記計算式作成ステップで作成した計算式を挿入した第2表データを生成する挿入ステップと、
を有し、
前記第2特定ステップでは、
前記検出ステップで前記所定のキーワードが検出されたマス目と同一の行もしくは同一の列に存在する数値部の各マス目を、集計結果が格納される集計結果格納セルとし、
前記所定のキーワードが検出されたマス目と前記集計結果格納セルとが同一の行にある場合は前記集計結果格納セルと同一の列にある数値部のマス目を、前記所定のキーワードが検出されたマス目と前記集計結果格納セルとが同一の列にある場合は前記集計結果格納セルと同一の行にある数値部のマス目を、所定のグループ化条件でグループ化して1または2以上の仮集計範囲を設定し、
前記第1特定ステップで特定した演算種別の計算を前記仮集計範囲に適用して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値との比較結果に基づいて、前記仮集計範囲の中から前記集計結果格納セルに格納される集計結果を求める際の集計範囲を特定する
ことを特徴とする表データ変換方法。
上記発明では、表データの項目欄に「合計」等のキーワードがある場合に、そのキーワードに対する演算種別(たとえば、SUM等の関数)を特定すると共に、その集計結果(合計値等)が記述されている集計結果格納セルとその集計結果を求める際の集計範囲を特定する。そして、これらから、集計結果を算出するための計算式を生成して、該計算式をその集計結果格納セルに挿入する。
また上記発明では、合計等のキーワードが検出されたマス目と同じ列に数値が格納されたマス目が配列されている場合、キーワードが検出されたマス目と同じ列に含まれる数値部のマス目を集計結果格納セルに特定する。合計等のキーワードが検出されたマス目と同じ行に数値が格納されたマス目が配列されている場合、マス目と同じ行に含まれる数値部のマス目を集計結果格納セルに特定する。そして、たとえば、一の集計結果格納セルとこれに対応する合計等のキーワードを含むマス目が同じ列に配列されている場合には、該一の集計結果格納セルと同じ行に配列されている数値を含むマス目が集計の対象に成り得る。これら集計の対象に成り得るマス目を所定のグループ化条件でグループ化して1または2以上の仮集計範囲を特定する。そして、第1特定ステップで特定した演算種別の計算を仮集計範囲に適応して得た計算結果とその集計結果格納セルに元々記述されていた数値との比較結果に基づいて、仮集計範囲の中から正しい集計範囲を特定する。
[2]前記第1特定ステップでは、集計方法を示すキーワードと演算種別とが予め対応付けて登録されたテーブルを参照して、前記検出ステップで検出されたキーワードに対応する演算種別を特定する
ことを特徴とする[1]に記載の表データ変換方法。
]前記グループ化条件は、
・隣接するマス目間の罫線の種類が同じである、
・隣接するマス目の背景色が同じである、
の少なくとも1つを含む
ことを特徴とする[1]または[2]に記載の表データ変換方法。
上記発明では、マス目を形成する罫線の同一性や背景色の同一性に基づいて仮集計範囲を特定する。
]前記挿入ステップでは、
前記所定のキーワードが検出された一のマス目に対応する前記集計結果格納セルの全部もしくは少なくとも1つで、前記表データのマス目に含まれる数値を前記集計結果格納セルに挿入予定の計算式で計算して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値とが一致する場合に、前記前記集計結果格納セルに前記計算式を挿入する
ことを特徴とする[1]乃至[]のいずれか1つに記載の表データ変換方法。
上記発明では、一の集計結果格納セルに対して作成した計算式による計算結果と、元々その集計結果格納セルに記述されていた数値とが一致する場合に、その計算式が正しいと判断して、該計算式をその集計結果格納セルに挿入する。
]前記表データのマス目に含まれる数値を前記集計結果格納セルに挿入予定の計算式で計算して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値とが一致しない場合に、その旨をユーザに通知する通知ステップ
をさらに有する
ことを特徴とする[1]乃至[]のいずれか1つに記載の表データ変換方法。
上記発明では、一の集計結果格納セルに対して作成した計算式による計算結果と、元々その集計結果格納セルに記述されていた数値とが一致しない場合には、OCRでの認識エラーや計算式にエラーがあったと判断して、その旨をユーザに通知する。
]画像データを解析して表を識別し、該表の各マス目に含まれる画像を数値または文字のデータに置き換えて前記表データを生成するステップをさらに有する、
ことを特徴とする[1]乃至[]のいずれか1つに記載の表データ変換方法。
上記発明では、イメージ画像であった表に画像解析処理を施して、文字や数値がコードデータで表された表データを生成する。
]前記画像データは、原稿をスキャナで光学的に読み取って得たイメージデータである
ことを特徴とする[]に記載の表データ変換方法。
]情報処理装置にて実行されるプログラムであって、
[1]乃至[]のいずれか1つに記載の表データ変換方法の各ステップを有する
ことを特徴とするプログラム。
]原稿を光学的に読み取って画像データを取得するスキャナと、
前記スキャナで原稿を読み取って得たイメージデータを対象に[]に記載の表データ変換方法を実行する情報処理装置と、
を有する
ことを特徴とする画像読取装置。
本発明に係る表データ変換方法、プログラム、画像読取装置によれば、項目と数値が記述された表データから集計に使用された計算式を導出してその計算式が埋め込まれた表データを出力することができる。
元の表データと本発明の表データ変換方法で変換した第2表データの一例を示す図である。 本発明の実施の形態に係る表データ変換方法のプログラムが実行される情報処理装置の概略構成を示すブロック図である。 本発明に係る表データ変換方法が実行される複合機(画像読取装置)の概略構成を示すブロック図である。 本発明の表データ変換方法でのデータの流れを示す図である。 本実施の形態で説明に使用する表データを示す図である。 図5の表データで使用されている座標系を示す図である。 図5の表データを数値部と項目部に分離した状態を示す図である。 項目/数値分離部が行う処理を示す流れ図である。 抽出キーワードテーブルの一例を示す図である。 情報テーブルの一例を示す図である。 キーワード該当セルと、これに対応する集計結果格納セルを示す図である。 集計結果格納セル特定部が行う処理を示す流れ図である。 集計結果格納セルH3に対して抽出された算出対象グループ1〜3を示す図である。 集計結果格納セルO3に対して抽出された算出対象グループ1、2を示す図である。 集計結果格納セルP3に対して抽出された算出対象グループ1、2を示す図である。 集計対象グループ抽出部が行う処理を示す流れ図である。 計算結果と元々の値が一部に合致しない場合に作成された情報テーブルの一例を示す図である。 計算式置き換え部が行う処理を示す流れ図である。 計算式置き換え部が生成した第2表データを所定の表計算プログラムで読み込んだ際の表示画面の一例を示す図である。 計算式を含まない表データを所定の表計算プログラムで読み込んだ際の表示画面の一例を示す図である。 合計が直接数値で記述された表データに「渡辺」の列を追加する編集を加えた場合の手間を示す図である。
以下、図面に基づき本発明の実施の形態を説明する。
本発明に係る表データ変換方法では、格子状にマス目(以後、セルと呼ぶ)が配列された表データの中の項目名として「合計」「平均」等の特定のキーワードが使用されている場合に、そのキーワードが使用されているセル(キーワード該当セル)と同じ“行”(横方向)または“列”(縦方向)に含まれる数値が登録されているセルを、「合計」のキーワードに対応する集計結果が格納されるセル(集計結果格納セル)に特定し、該集計結果格納セルの数値を、他のセルを参照する計算式に置き換える、もしくは、計算式による計算結果と元々そのセルに登録されていた数値が一致しない場合に、ユーザに計算結果が不一致となる旨を通知して警告する。
たとえば、図1(a)に示す表データが入力された場合、同図(b)に示すように、「合計」のキーワードに対応する集計結果が格納される集計結果格納セルと、その集計結果を求める際の集計範囲を特定して、SUM(B2:D2)のような計算式を求め、該計算式を集計結果が登録されていた該当のセルに挿入して第2表データを生成する。
計算式が挿入された第2表データを表計算プログラムに読み込めば、各セルの数値を書き換えたり、行や列を追加したり削除したりする編集を行っても、計算結果が自動的に更新されるようになる。
図2は、本発明の実施の形態に係る表データ変換方法およびそのプログラムが実行される情報処理装置10の概略構成を示すブロック図である。情報処理装置10は、CPU(Central Processing Unit)11に、RAM(Random Access Memory)12、ROM(Read Only Memory)やハードディスク装置などで構成された記憶部13、ネットワーク通信部14、入力I/F部15、出力I/F部16などを接続して構成される。
CPU11はマイクロプロセッサを有し、OSプログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムを実行する。記憶部13には、本発明に係る表データ変換方法のプログラムのほか各種のプログラムが格納されている。CPU11はこれらのプログラムに従って各種の処理を実行する。RAM12は、CPU11が処理を実行する際に表データやその他の各種データを一時的に格納するワークメモリとして使用される。
ネットワーク通信部14は、ネットワークを通じて外部装置と通信する機能を果たす。入力I/F部15は、デジタルカメラやスキャナなどの外部装置から画像(イメージデータ)等を取り込む機能を果たす。また、キーボードやマウスなどユーザの操作を入力するための機器が接続される。出力I/F部16は、液晶モニタなどのディスプレイ、プリンタなどが接続される。
図3は、本発明に係る画像読取装置としての機能を含む複合機30の概略構成を示すブロック図である。原稿を光学的に読み取ってその複製画像を記録紙に印刷するコピー機能、読み取った原稿の画像データをファイルにして保存したり外部端末へネットワーク3を通じて送信したりするスキャン機能、印刷サーバ10からネットワーク3を通じて受信した印刷ジョブに基づいて記録紙上に文書や画像を印刷して出力する印刷機能などを備えた装置である。
複合機30は、当該複合機30の動作を統括的に制御するCPU31を備えている。CPU31、RAM32、記憶部33、画像処理部34、画像読取部35、操作パネル36、印刷部37、ネットワーク通信部38等が接続されている。
CPU31は、OS(Operating System)プログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムなどのプログラムを実行する。
記憶部33は、ROM、ハードディスク装置、不揮発メモリなどで構成され、本発明に係る表データ変換方法を実行するためのプログラムや各種のプログラム、各種のデータが記憶される。CPU31がこれらのプログラムに従って各種の処理を実行することで複合機30としての機能が実現される。RAM32は、CPU31がプログラムを実行する際のワークエリアとして使用される。
画像処理部34は、画像の拡大縮小、回転などの処理、画像データの圧縮、伸張処理などを行う。
画像読取部35は、所謂、スキャナであり、原稿を光学的に読み取って画像データを取得する機能を果たす。
操作パネル36は、表示部36a、操作部36bを備えている。表示部36aは、液晶ディスプレイなどで構成され、各種の操作画面、設定画面などを表示する機能を果たす。操作部36bは、スタートボタンなどの各種操作スイッチ、表示部36aの表示面上に設けられたタッチパネル等で構成される。タッチパネルは、タッチペンや指などで押下された座標位置を検出する。
印刷部37は、印刷データに応じた画像を記録紙上に画像形成する機能を果たす。ここでは、記録紙の搬送装置と、感光体ドラムと、帯電装置と、レーザーユニットと、現像装置と、転写分離装置と、クリーニング装置と、定着装置とを有し、電子写真プロセスによって画像形成を行う、所謂、レーザープリンタとして構成されている。印刷部36は他の方式でもかまわない。
ネットワーク通信部38は、ネットワークを通じてユーザ端末や各種の外部装置との間で通信する機能を果たす。
本発明に係る表データ変換方法、プログラムは、図2、図3に示す装置等で実行される。
図4は、本発明の表データ変換方法での各処理およびデータの流れを示している。集計表等の記述された原稿をスキャナや複合機30の画像読取部35で読み取って得た画像データが入力される。入力された画像データは、画像解析処理部41で表の部分が抽出され、さらに罫線や文字、数値がOCR、ICR技術等によって分離、認識され、格子状にセルが配列された表データが出力される。この表データは、所定の表計算プログラムで処理可能な形式のデータである。
表データでは元の画像データに記述されていた項目名や数値は文字コードに変換されて各セルに入力されている。なお、本発明では、スキャナで読み取って得た画像データに代えて、別途の画像解析処理部で処理されて生成された表データを入力データとしてもよい。
表データは、まず、項目/数値分離部42によって、数値部のセルと項目部のセルに分離される(分類ステップ)。次に、表データは、集計結果格納セル特定部43で処理される。集計結果格納セル特定部43は、「小計」「合計」などのキーワードを検出するキーワード検出処理43a(検出ステップ)、検出したキーワードに対応する演算種別(関数)を特定する演算種別特定処理43b(第1特定ステップ)、「合計」等のキーワードが検出されたセルと同一の行または列にあって集計結果が格納されるセル(集計結果格納セル)を特定する集計結果格納セル特定処理43cを行う。
次に、表データは、算出対象グループ抽出部44で処理される。算出対象グループ抽出部44は、算出対象グループ抽出処理44aおよび仮集計結果算出処理44bを行う。算出対象グループ抽出処理44aは、集計結果格納セルに格納する集計結果を算出する際の1または複数の集計範囲の候補である算出対象グループ(仮集計範囲)を抽出する。仮集計結果算出処理44bは、抽出した各算出対象グループについて、算出対象グループを集計範囲として演算種別特定処理43bで特定した演算種別の計算を行った場合の計算結果(仮集計結果)を求める。
次に、表データは計算式置き換え部45で処理される。計算式置き換え部45は、集計範囲決定処理45a、計算式作成処理45b、挿入通知処理45cを行う。集計範囲決定処理45aは、仮集計結果算出処理44bが算出した各算出対象グループに対する計算結果と表データに元々記入されていた数値との整合性から、いずれか1つの算出対象グループを集計範囲に決定する。計算式作成処理45bは、集計範囲決定処理45aが決定した集計範囲と演算種別特定処理43bで特定した演算種別とから計算式を作成する(計算式作成ステップ)。挿入通知処理45cは、計算式作成処理45bが作成した計算式を該当のセル(集計結果格納セル)に挿入する処理(挿入ステップ)、もしくは、計算結果が元々記入されていた数値と一致しない場合は、その旨の警告をユーザに通知する処理(通知ステップ)を行う。計算式置き換え部45は、最終的な処理結果として、集計結果格納セルに計算式が挿入された第2表示データを出力する。
集計結果格納セル特定処理43cと算出対象グループ抽出処理44aと仮集計結果算出処理44bと集計範囲決定処理45aで、集計結果格納セルと集計範囲を特定する第2特定ステップが構成される。
以後、図に示す各部42〜45の動作を詳細に説明する。
図5は、以後の説明に使用する表データ50を示している。表データ50は、田中、佐藤、山田の3名のそれぞれについて4月から翌年3月までの1年分の売上を集計した集計表である。4月から9月までの売り上げを上期の小計として集計し、10月から翌年3月までの売り上げを下期の小計として集計し、さらに上期と下期を合せた1年分の売り上げを合計として集計した結果が登録されている。
表データ50では、上期の情報が登録されているセルは第1の背景色、下期の情報が登録されているセルは第2の背景色になっている。また、集計対象者の氏名が登録された領域のセルと、上期の情報が登録された領域のセルと、下期の情報が登録された領域のセルと、通期の合計が登録された領域のセルとを区切る罫線は他の罫線と異なる種類(2重線)にされている。
図6は、表データ50で使用される座標系を示している。左上を原点とし、横方向の座標はA、B、C、D、…で表され、下方向の座標は1、2、3、4、…で表される。たとえば、上期、4月、田中の売り上げが記述されたセルの座標は「B3」と表記される。
まず、項目/数値分離部42は、入力された表データ50の各セルの値(文字、数値)を解析し、数値部のセルと項目部のセルに分離(分類)する。図7は、図5の表データ50を数値部と項目部に分離した状態を示している。
図8は、項目/数値分離部42が行う処理を示す流れ図である。まず、数値のみで構成されるセルがM行N列(M、Nは1以上の任意の整数)の矩形状に配列されている矩形領域を数値部として抽出し(ステップS101)、次に、数値部と同一の“行”もしくは“列”にあって、数値部を除く領域を項目部として抽出する(ステップS102)。なお、項目部は、数値部に隣接するセルのみとしてもよい。
次に、集計結果格納セル特定部43の動作を説明する。図9は、キーワード検出処理43aが検出すべきキーワードと、そのキーワードに対応する演算種別が対応付けて登録された抽出キーワードテーブル60の一例を示している。抽出キーワードテーブル60には、検出すべきキーワードとして、「小計」、「合計」、「平均」、「標準偏差」などが登録されている。また、「小計」および「合計」のキーワードに対する演算種別として「SUM」が、「平均」に対する演算種別として「AVERAGE」が、「標準偏差」に対する演算種別として「STDEVA」が登録されている。演算種別は、表計算プログラムで使用される「関数」を表す文字列となっている。
集計結果格納セル特定部43のキーワード検出処理43aは、項目部の各セルの値と、抽出キーワードテーブル60に登録されている各キーワードが完全一致、もしくは部分一致するセルをキーワード該当セルとして抽出し、抽出したキーワード該当セルの座標を、情報テーブル70(図10参照)に登録する。表データ50の場合、上期の小計のセル(H2)と下期の小計のセル(O2)と、合計のセル(P1)がキーワード該当セルとして抽出される(図11参照)。
演算種別特定処理43bは、各キーワード該当セルについて、そのキーワード該当セルに含まれるキーワードに対応する演算種別を、抽出キーワードテーブル60を参照して特定し、該特定した演算種別を、そのキーワード該当セルに対応付けて情報テーブル70に登録する。表データ50の場合、「小計」のキーワードを含むキーワード該当セルH2、O2、「合計」のキーワードを含むキーワード該当セルP1のいずれについても、演算種別として「SUM」が登録される(図10参照)。
さらに集計結果格納セル特定処理43cは、キーワード該当セルと同一の“行”もしくは“列”に存在する数値部の各セルを、そのキーワード該当セルに対応する集計結果を格納する集計結果格納セルに特定し、該集計結果格納セルの座標を、そのキーワード該当セルに対応付けて情報テーブル70に登録する。
図11に示すように、キーワード該当セルH2については、これと同じ列にある数値のみのセルH3、H4、H5が集計結果格納セルとなる。そして、図10に示すように、キーワード該当セルH2に対応付けてH3、H4、H5の各セルが集計結果格納セルとして情報テーブル70に登録される。
また、図11に示すように、キーワード該当セルO2については、これと同じ列にある数値のみのセルO3、O4、O5が集計結果格納セルとなり、図10に示すように、キーワード該当セルO2に対応付けてO3、O4、O5の各セルが集計結果格納セルとして情報テーブル70に登録される。
さらに、キーワード該当セルP1については、これと同じ列にある数値のみのセルP3、P4、P5が集計結果格納セルとなり(図11参照)、キーワード該当セルP1に対応付けてP3、P4、P5の各セルが集計結果格納セルとして情報テーブル70に登録される(図10参照)。
図12は、集計結果格納セル特定部43が行う処理を示す流れ図である。抽出キーワードテーブル60に登録されているすべてのキーワードについて処理が完了するまで、以下の処理を繰り返す。
着目するキーワードについて、項目部の全セルについてチェックが完了するまで以下の処理を繰り返す。まず、着目するキーワードと着目する項目部のセルのセル値が完全一致(もしくは部分一致)するか否かを調べ(ステップS201)、不一致の場合は(ステップS201;No)、このセルについての処理を終了する。
キーワードと項目部のセルのセル値が完全合致(もしくは部分合致)する場合は(ステップS201;Yes)、該セルをキーワード該当セルとしその座標を情報テーブル70に登録し(ステップS203)、このセルについての処理を終了する。
次に、集計対象グループ抽出部44の動作を説明する。集計対象グループ抽出部44の算出対象グループ抽出処理44aは、集計結果格納セル特定部43で特定した集計結果格納セルのそれぞれについて、次の処理を行う。すなわち、着目する集計結果格納セルを含む行、もしくは、列のうち、その集計結果格納セルの抽出に使用したキーワード該当セルを含まない方向(集計結果格納セルとキーワード該当セルが同じ列にある場合は行、集計結果格納セルとキーワード該当セルが同じ行にある場合は列を指す:便宜上、「グループ抽出方向」と呼ぶ)に存在する数値部のセルを、下記のような条件によりグループ化し、作成した各グループ(算出対象グループ、仮集計範囲)を構成するセルの情報(グループ構成情報)を、着目する集計結果格納セルに対応付けて情報テーブル70に登録する。
<グループ化条件>
(1)隣接するセル間の罫線の種類が同じ
(2)隣接するセルの背景色が同じ
(3)上記(1)、(2)に付随する条件として、
・集計結果格納セルは算出対象グループから除外しても良い
・集計結果格納セルの組み合わせで、算出対象グループとしても良い
・集計結果格納セルに隣接する数値部のグループのみとしても良い
・グループ化条件は、複数のパラメータ(条件)を組み合わせても良い
たとえば、図13に示すように、集計結果格納セルH3については、セルH3の左側に連続するセル間の罫線が同じ種類のセルB3〜G3を算出対象グループ1とし、セルH3の右側に連続するセル間の罫線が同じ種類のセルI3〜O3から集計結果格納セルO2を除外したもの(セルI3〜N3)を算出対象グループ2とし、さらに算出対象グループ1と算出対象グループ2を組み合わせたものを算出対象グループ3として抽出する。
また、図14に示すように、集計結果格納セルO3については、セルO3の左側に連続するセル間の罫線が同じ種類のセルI3〜N3を算出対象グループ1とする。また、セルO3の左側に連続するセルであって集計結果格納セルH3を算出対象グループから除外して、セル間の罫線が同じ種類のセルをグループ化すると、セルI3〜N3とB3〜G3が算出対象グループ2として選出される。O3の右側には数値部のP3があるが、これは集計結果格納セルであるため除外すると、右側には算出対象グループは存在しない。
図15に示すように、集計結果格納セルP3については、セルP3の右側にセルはない。セルP3の左側に連続するセル間の罫線が同じ種類のセルI3〜O3から集計結果格納セルO3を除外したセル(I3〜N3)を算出対象グループ1とする。また、セルP3の左側に連続するセルであって集計結果格納セルH3およびO3を算出対象グループから除外して、セル間の罫線が同じ種類のセルをグループ化すると、セルI3〜N3+B3〜G3が算出対象グループ2として選出される。
集計対象グループ抽出部44の仮集計結果算出処理44bは、情報テーブル70に登録されている各集計結果格納セルについて、着目する集計結果格納セルに対応付けされているそれぞれの算出対象グループを集計範囲として、着目する集計結果格納セルに対応付けされている演算種別の計算を行って計算結果を求める。そして、それぞれの計算結果が表データ50の着目する集計結果格納セルに元々登録されていた数値と一致するか否かを確認し、その確認結果を着目する集計結果格納セルに対応付けて情報テーブル70の値比較結果の欄に登録する。
たとえば、図10の、集計結果格納セルH3の場合、算出対象グループ1についてSUM(B3:G3)の計算を、算出対象グループ2についてSUM(I3:N3)の計算を、算出対象グループ3についてSUM(B3:G3)+SUM(I3:N3)の計算を行う。そして、それぞれの計算結果が表データ50のセルH3に元々登録されていた数値と一致するか否かを確認し、その確認結果を、着目する集計結果格納セルH3に対応付けて情報テーブル70の値比較結果の欄に登録する。この例では算出対象グループ1を集計範囲とした場合の計算結果と元々の数値が合致するので、情報テーブル70のH3に対応付けされた値比較結果の欄に「(1)と合致」が登録される。
図16は、集計対象グループ抽出部44が行う処理を示す流れ図である。情報テーブル70に登録されている全ての集計結果格納セルに対する処理が完了するまで以下の処理を繰り返す。
まず、着目する集計結果格納セルのグループ抽出方向に存在する数値部を所定のグループ化条件に従って算出対象グループを抽出し(ステップS301)、各算出対象グループを構成するセルの情報(グループ構成情報)を情報テーブル70に登録する(ステップS302)。
そして、作成した全ての算出対象グループに対して処理が完了するまで以下の処理を繰り返す。まず、着目する算出対象グループを構成するすべてのセルの値を、この算出対象グループに対応付けられている演算種別で計算する(ステップS303)。そして、その計算結果が着目する集計結果格納セルに元々登録されている数値と合致するか否かを確認し、確認結果を情報テーブル70に登録する(ステップS304)。
次に、計算式置き換え部45が行う処理につて説明する。計算式置き換え部45の集計範囲決定処理45aは、情報テーブル70に登録されているそれぞれの集計結果格納セルについて、その集計結果格納セルに対応付けて情報テーブル70の値比較結果の欄に登録されている確認結果に基づいて集計範囲を決定する。すなわち、着目する集計結果格納セルに対応付けて情報テーブル70に登録されている算出対象グループのうち、計算結果と元々の数値とが合致する算出対象グループを、その集計結果格納セルに挿入する計算式で使用する集計範囲に決定する。
計算式作成処理45bは、情報テーブル70に登録されているそれぞれの集計結果格納セルについて、その集計結果格納セルについて集計範囲決定処理45aで決定された算出対象グループを集計範囲とし、その集計結果格納セルに対応付けされている演算種別で計算式を作成する。たとえば、図10に示す情報テーブル70の集計結果格納セルH3の場合、対応する値比較結果が「算出対象グループ1と合致」なので、集計範囲は算出対象グループ1を構成するセルB3〜G3に決定される。集計結果格納セルH3に対応する演算種別は「SUM」なので、集計結果格納セルH3に対応する計算式としてSUM(B3:G3)が作成される。
ここで、表データ50が正しければ、1つのキーワード該当セルに対応するすべての集計結果格納セルについて、値比較結果の欄に格納されている確認結果が、同じ算出対象グループで合致、になるはずである。たとえば、表データ50、情報テーブル70におけるキーワード該当セルH2の場合、このキーワード該当セルH2に対応するすべての集計結果格納セルH3、H4、H5において、値比較結果欄に格納された確認結果が「算出対象グループ1と合致」のようになるはずである。
ここで、算出対象グループを構成するセルの座標(ただし、グループ抽出方向の座標は無視する、表データ50の場合、行方向の座標が一致すればよく、列方向(縦方向)の座標は無視する)が同一の場合、同じ算出対象グループと判断する。たとえば、グループ抽出方向が列の場合、B3〜G3のセルで構成される算出対象グループ、B4〜G4のセルで構成される算出対象グループ、B5〜G5のセルで構成される算出対象グループは同じ算出対象グループと判断する。
表データ50が正しくなければ、値比較結果欄に格納されている確認結果は、計算結果と元々格納されていた数値が合致する算出グループがないことを示す「合致せず」となったり、1つのキーワード該当セルに対応する複数の集計結果格納セルで、対応する値比較結果の欄に格納されている算出対象グループが同じ算出対象グループにならなかったりする。
そこで、計算式置き換え部45は、1つのキーワード該当セルに対応する複数の集計結果格納セルに対応付けられている値比較結果欄に格納されている確認結果の状況に応じて、集計結果格納セルに計算式を挿入したり、計算結果と元々の値が不一致となったことをユーザに通知したりする。
詳細には、下記の処理1〜処理4のいずれか1つ、もしくは複数を行う。いずれの処理を行うかは、事前に設定されてもよいし、その都度、ユーザから選択を受けるようにしてもよい。
(処理1)一のキーワード該当セルに対応する集計結果格納セルの全部または一部において、その集計結果格納セルに対応付けられている値比較結果欄に格納されている確認結果が、その集計結果格納セルに元々格納されていた値と計算式による計算結果とが合致することを示し、かつ、その計算式で集計範囲にされた算出対象グループが同じ場合は、その全部または一部の集計結果格納セルの値を該当の計算式に置き換える。なお、全部のみに限定してもよい。
(処理2)一のキーワード該当セルに対応する集計結果格納セルの一部のみにおいて、その集計結果格納セルに対応付けられている値比較結果欄に格納されている確認結果が、その集計結果格納セルに元々格納されていた値と計算式の計算結果とが合致することを示し、かつ、その計算式で集計範囲にされた算出対象グループが同じ場合に、計算結果と元々の値が合致しなかった集計結果格納セルについては、計算ミスやOCRでの誤認などの可能性があるとして、その旨のエラー情報を追記する。
(処理3)一のキーワード該当セルに対応する集計結果格納セルの一部において、その集計結果格納セルに対応付けられている値比較結果欄に格納されている確認結果が、その集計結果格納セルに元々格納されていた値と計算式の計算結果とが合致することを示し、かつ、その計算式で集計範囲にされた算出対象グループが同じ場合に、計算結果と元々の値が合致しなかった集計結果格納セルについては、そのセルの背景や文字色を変更する等し、計算ミスやOCRでの誤認などの可能性がある旨をユーザに通知する。
(処理4)一のキーワード該当セルに対応する集計結果格納セルの一部において、その集計結果格納セルに対応付けられている値比較結果欄に格納されている確認結果が、その集計結果格納セルに元々格納されていた値と計算式の計算結果とが合致することを示し、かつ、その計算式で集計範囲にされた算出対象グループが同じ場合に、計算結果と元々の値が合致しなかった集計結果格納セルの値を、計算ミスやOCRでの誤認などの可能性があるとして、PC等の画面上にその旨のエラー情報を表示させる。
たとえば、図4に示す一連の処理で、図17に示す情報テーブル70Bが作成された場合、キーワード該当セルH2に対応する集計結果格納セルH3、H4、H5のうち、H3に対応する値比較結果とH4に対応する値比較結果が共に「(1)と合致」となっているので、H3とH4には、算出対象グループ1を集計範囲とする計算式を埋め込む。H5に対応する値比較結果は「合致せず」になっているので、H5のセルには、計算ミス等の可能性を示すエラー情報を表示等する。
なお、計算式を挿入する機能を計算式置き換え機能、不一致等のエラーをユーザに通知する機能を通知機能とする。計算式置き換え機能や通知機能は個別にON/OFFを設定することができる。
図18は、計算式置き換え部45が行う処理の流れを示している。計算式置き換え機能、通知機能のいずれかがONか否かを調べ(ステップS401)、いずれもOFFの場合は(ステップS401;No)、本処理を終了する。
計算式置き換え機能、通知機能のいずれかがONの場合(ステップS401;Yes)、すべてのキーワード該当セルについて完了するまで以下の処理を繰り返し行う。
まず、計算式置き換え機能がONか否かを調べ(ステップS402)、ONならば(ステップS402;Yes)、着目するキーワード該当セルに対応する1つ以上の集計結果格納セルの値が、計算式による計算結果と合致するか否かを判断する(ステップS403)。
合致する場合は(ステップS403;Yes)、該当の集計結果格納セルの値をその計算式に置き換えて(ステップS404)、ステップS405に移行する。合致しない場合は(ステップS403;No)、ステップS405に移行する。
ステップS405では、通知機能がONか否かを判断する。通知機能がOFFならば(ステップS405;No)、着目するキーワード該当セルに対する処理を終了する。
通知機能がONならば(ステップS405;Yes)、着目するキーワード該当セルに対応する一部の集計結果格納セルの値が、計算式による計算結果と異なるか否かを判断する(ステップS406)。異なる場合は(ステップS406;No)、計算ミス等の可能性がある旨をユーザに通知して(ステップS407)、このキーワード該当セルに対する処理を終了する。異なるものが無い場合は(ステップS406;No)、このキーワード該当セルに対する処理を終了する。
図19は、計算式置き換え部45が生成した第2表データを所定の表計算プログラムで読み込んだ際の表示画面の一例を示している。第2表データでは、集計結果格納セルに計算式が埋め込まれている。そのため、図19に示すように、該当のセル(図19の例ではH3のセル)を選択すると、そのセルに埋め込まれている計算式が関数表示欄81に表示される。従来の変換では計算式が埋め込まれないので、図20に示すように、H3のセルを選択しても、そのセルに格納されている数値が関数表示欄81に表示され、計算式は表示されない。
このように、本発明によれば、表データの中に「合計」「平均」等の特定のキーワードが使用されたセルがある場合に、そのセルを含む“行”または“列”にあって数値が登録されたセル(集計結果格納セル)に、該当の計算式を作成して挿入した第2表データを生成するので、該第2表データを表計算プログラムに読み込めば、各セルの数値を書き換えたり、行や列を追加したり削除したりする編集を行っても、計算結果が自動的に更新されるようになり、再編集を行う際のユーザ負担を大幅に軽減することができる。
また、OCRでの誤認識の可能性がある箇所をユーザに通知するので、変換時のエラーを容易に見つけて修正することが可能になる。
以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
演算種別(関数)やこれに対応するキーワードは実施の形態に例示したものに限定されない。たとえば、「最大値」「最小値」「数値の数」などでもよい。
集計結果格納セルに計算式を挿入したり、計算結果と元々の値が不一致となったことをユーザに通知したりする処理は、実施の形態で説明した処理1〜処理4に限定されるものではない。たとえば、一のキーワード該当セルに対応する複数の集計結果格納セルの全てで、計算式の計算結果と元々の数値とが合致する算出対象グループが無い場合は、エラーを通知する。また、一のキーワード該当セルに対応する複数の集計結果格納セルのうちの一部で計算結果と元々の数値とが合致する場合に、この合致した計算式に対応する計算式(同じ算出対象グループを使用した計算式)を、合致しなかった集計結果格納セルにも挿入しつつ、エラーの通知を行うようにしてもよい。
10…情報処理装置
11…CPU
12…RAM
13…記憶部
14…ネットワーク通信部
15…入力I/F部
16…出力I/F部
30…複合機
31…CPU
32…RAM
33…記憶部
34…画像処理部
35…画像読取部
36…操作パネル
36a…表示部
36b…操作部
37…印刷部
38…ネットワーク通信部
41…画像解析処理部
42…項目/数値分離部
43…集計結果格納セル特定部
43a…キーワード検出処理
43b…演算種別特定処理
43c…集計結果格納セル特定処理
44…算出対象グループ抽出部
44a…算出対象グループ抽出処理
44b…仮集計結果算出処理
45…計算式置き換え部
45a…集計範囲決定処理
45b…計算式作成処理
45c…挿入通知処理
50…表データ
60…抽出キーワードテーブル
70、70B…情報テーブル
81…関数表示欄

Claims (9)

  1. 情報処理装置が以下の各ステップを実行する表データ変換方法であって、
    格子状にマス目が配列された表データを、数値の登録されたマス目が行列状に配列された数値部と、その周囲に配列された項目の登録されたマス目からなる項目部とに分類する分類ステップと、
    前記情報処理装置が、前記項目部に分類されたマス目の登録内容を解析して集計方法を示す所定のキーワードを検出する検出ステップと、
    前記検出ステップで検出したキーワードに対応する演算種別を特定する第1特定ステップと、
    集計結果が格納されるマス目である集計結果格納セルと、該集計結果格納セルに格納される集計結果を求める際の集計範囲を特定する第2特定ステップと、
    前記集計結果格納セルに格納する集計結果を算出するための計算式を、前記第2特定ステップで特定した集計範囲と前記第1特定ステップで特定した演算種別とから作成する計算式作成ステップと、
    前記表データの前記集計結果格納セルに前記計算式作成ステップで作成した計算式を挿入した第2表データを生成する挿入ステップと、
    を有し、
    前記第2特定ステップでは、
    前記検出ステップで前記所定のキーワードが検出されたマス目と同一の行もしくは同一の列に存在する数値部の各マス目を、集計結果が格納される集計結果格納セルとし、
    前記所定のキーワードが検出されたマス目と前記集計結果格納セルとが同一の行にある場合は前記集計結果格納セルと同一の列にある数値部のマス目を、前記所定のキーワードが検出されたマス目と前記集計結果格納セルとが同一の列にある場合は前記集計結果格納セルと同一の行にある数値部のマス目を、所定のグループ化条件でグループ化して1または2以上の仮集計範囲を設定し、
    前記第1特定ステップで特定した演算種別の計算を前記仮集計範囲に適用して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値との比較結果に基づいて、前記仮集計範囲の中から前記集計結果格納セルに格納される集計結果を求める際の集計範囲を特定する
    ことを特徴とする表データ変換方法。
  2. 前記第1特定ステップでは、集計方法を示すキーワードと演算種別とが予め対応付けて登録されたテーブルを参照して、前記検出ステップで検出されたキーワードに対応する演算種別を特定する
    ことを特徴とする請求項1に記載の表データ変換方法。
  3. 前記グループ化条件は、
    ・隣接するマス目間の罫線の種類が同じである、
    ・隣接するマス目の背景色が同じである、
    の少なくとも1つを含む
    ことを特徴とする請求項1または2に記載の表データ変換方法。
  4. 前記挿入ステップでは、
    前記所定のキーワードが検出された一のマス目に対応する前記集計結果格納セルの全部もしくは少なくとも1つで、前記表データのマス目に含まれる数値を前記集計結果格納セルに挿入予定の計算式で計算して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値とが一致する場合に、前記前記集計結果格納セルに前記計算式を挿入する
    ことを特徴とする請求項1乃至のいずれか1つに記載の表データ変換方法。
  5. 前記表データのマス目に含まれる数値を前記集計結果格納セルに挿入予定の計算式で計算して得た計算結果と前記表データの前記集計結果格納セルの位置に元々あった数値とが一致しない場合に、その旨をユーザに通知する通知ステップ
    をさらに有する
    ことを特徴とする請求項1乃至のいずれか1つに記載の表データ変換方法。
  6. 画像データを解析して表を識別し、該表の各マス目に含まれる画像を数値または文字のデータに置き換えて前記表データを生成するステップをさらに有する、
    ことを特徴とする請求項1乃至のいずれか1つに記載の表データ変換方法。
  7. 前記画像データは、原稿をスキャナで光学的に読み取って得たイメージデータである
    ことを特徴とする請求項に記載の表データ変換方法。
  8. 情報処理装置にて実行されるプログラムであって、
    請求項1乃至のいずれか1つに記載の表データ変換方法の各ステップを有する
    ことを特徴とするプログラム。
  9. 原稿を光学的に読み取って画像データを取得するスキャナと、
    前記スキャナで原稿を読み取って得たイメージデータを対象に請求項に記載の表データ変換方法を実行する情報処理装置と、
    を有する
    ことを特徴とする画像読取装置。
JP2016076276A 2016-04-06 2016-04-06 表データ変換方法、プログラム、画像読取装置 Active JP6680052B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016076276A JP6680052B2 (ja) 2016-04-06 2016-04-06 表データ変換方法、プログラム、画像読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016076276A JP6680052B2 (ja) 2016-04-06 2016-04-06 表データ変換方法、プログラム、画像読取装置

Publications (2)

Publication Number Publication Date
JP2017187931A JP2017187931A (ja) 2017-10-12
JP6680052B2 true JP6680052B2 (ja) 2020-04-15

Family

ID=60044237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016076276A Active JP6680052B2 (ja) 2016-04-06 2016-04-06 表データ変換方法、プログラム、画像読取装置

Country Status (1)

Country Link
JP (1) JP6680052B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6911797B2 (ja) * 2018-03-15 2021-07-28 京セラドキュメントソリューションズ株式会社 画像処理装置、画像処理方法
JP7110723B2 (ja) * 2018-05-21 2022-08-02 コニカミノルタ株式会社 データ変換装置、画像処理装置及びプログラム
CN110427599A (zh) * 2019-06-06 2019-11-08 北京辰森世纪科技股份有限公司 报表小计的统计方法及装置、存储介质、电子装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH103503A (ja) * 1996-06-14 1998-01-06 Sharp Corp 表計算処理装置
JP4235286B2 (ja) * 1998-09-11 2009-03-11 キヤノン株式会社 表認識方法及び装置
JP4742404B2 (ja) * 2000-05-17 2011-08-10 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2012190434A (ja) * 2011-02-24 2012-10-04 Ricoh Co Ltd 帳票定義装置、帳票定義方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2017187931A (ja) 2017-10-12

Similar Documents

Publication Publication Date Title
JP4742404B2 (ja) 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
CN101924851B (zh) 图像处理装置及图像处理方法
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2007279828A (ja) 帳票処理装置、帳票様式作成装置、帳票、帳票処理用のプログラム、帳票様式作成用のプログラム
JP2011192274A (ja) フォームテンプレートを定義する方法及び装置
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
JP6680052B2 (ja) 表データ変換方法、プログラム、画像読取装置
EP2884425B1 (en) Method and system of extracting structured data from a document
US11710329B2 (en) Image processing apparatus with automated registration of previously encountered business forms, image processing method and storage medium therefor
JP2022074466A (ja) 画像処理装置および画像形成装置
JP7408313B2 (ja) 画像処理装置、その制御方法及びプログラム
CN102883085B (zh) 图像处理装置和图像处理方法
JP7241506B2 (ja) 光学式文字認識結果の修正支援装置および修正支援用プログラム
US11588945B2 (en) Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area
JP4518212B2 (ja) 画像処理装置及びプログラム
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11170211B2 (en) Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium
JP2018005801A (ja) 画像処理装置
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP4517822B2 (ja) 画像処理装置及びプログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP6613871B2 (ja) 情報処理装置、画像読み取り装置、および、プログラム
JP2020047138A (ja) 情報処理装置
JP7110723B2 (ja) データ変換装置、画像処理装置及びプログラム
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200302

R150 Certificate of patent or registration of utility model

Ref document number: 6680052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150