JP2021114211A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021114211A JP2021114211A JP2020007235A JP2020007235A JP2021114211A JP 2021114211 A JP2021114211 A JP 2021114211A JP 2020007235 A JP2020007235 A JP 2020007235A JP 2020007235 A JP2020007235 A JP 2020007235A JP 2021114211 A JP2021114211 A JP 2021114211A
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- image
- correction
- row
- screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 22
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 127
- 238000012545 processing Methods 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000012447 hatching Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
【課題】表を含む表画像の認識結果を元の表の構造のまま表示する場合に比較して、操作者が表画像と認識結果を確認する手間を軽減する。【解決手段】プロセッサを備え、プロセッサは、表を含む表画像の認識結果を取得し、表の行又は列ごとに、表画像と認識結果とを交互に配置した画面を表示するように制御することを特徴とする情報処理装置。【選択図】図7
Description
本発明は、情報処理装置及びプログラムに関する。
ユーザにより記入された紙文書を読み取った画像に対して、記入箇所を認識する画像処理装置であって、記入箇所のうち、記入されたマークを認識する領域を予め設定し、設定された領域に基づいて、認識対象となる画像上の領域に対してマークの認識を行い、マークの認識がされた領域に対する認識結果を示すオブジェクトを生成し、生成されたオブジェクトを、マークの認識がされた領域に対応する位置に重ね合わせて表示する画像処理装置は、知られている(例えば、特許文献1参照)。
表の画像に含まれる罫線と文字列の配置状態に基づいて、表における各項の領域とその位置を解析して表構造を得、得られた表構造を表示し、表示された表構造に対して、項の領域の修正を指示し、修正指示に基づいて、項の領域と位置を修正して修正後の表構造を得、修正後の表構造における各項について文字認識を行い、その認識結果と表構造に基づいて表形式データを生成する表認識装置も、知られている(例えば、特許文献2参照)。
表を含む表画像を認識した認識結果を操作者が確認して修正することがある。その際、表画像とは別に認識結果を元の表の構造のまま表示させて、操作者が表画像と認識結果を確認する場合、表画像と認識結果が離れて表示されているため、操作者は表画像と認識結果を行き来しながら認識結果を確認しなくてはいけなく、操作者にとって、確認作業は手間であった。
本発明の目的は、表を含む表画像の認識結果を元の表の構造のまま表示する場合に比較して、操作者が表画像と認識結果を確認する手間を軽減することにある。
請求項1に記載の発明は、プロセッサを備え、前記プロセッサは、表を含む表画像の認識結果を取得し、前記表の行又は列ごとに、前記表画像と前記認識結果とを交互に配置した画面を表示するように制御する
ことを特徴とする情報処理装置である。
請求項2に記載の発明は、前記プロセッサは、前記画面を表示する際に、前記表画像における行又は列の構造と、前記認識結果における行又は列の構造との間の不整合がある箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記プロセッサは、操作者から入力された前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記プロセッサは、前記認識結果を解析して得られた前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置である。
請求項5に記載の発明は、前記プロセッサは、操作者の前記認識結果を修正する操作に応じて、当該認識結果を修正した修正後認識結果を表示するように制御することを特徴とする請求項1に記載の情報処理装置である。
請求項6に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、前記表画像から切り出された画像は表示しないように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項7に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、修正前の前記認識結果を並べて表示するように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項8に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、当該修正後認識結果における修正された箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項9に記載の発明は、コンピュータに、表を含む表画像の認識結果を取得する機能と、前記表の行又は列ごとに、前記表画像と前記認識結果とを交互に配置した画面を表示するように制御する機能とを実現させるためのプログラムである。
ことを特徴とする情報処理装置である。
請求項2に記載の発明は、前記プロセッサは、前記画面を表示する際に、前記表画像における行又は列の構造と、前記認識結果における行又は列の構造との間の不整合がある箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記プロセッサは、操作者から入力された前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置である。
請求項4に記載の発明は、前記プロセッサは、前記認識結果を解析して得られた前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置である。
請求項5に記載の発明は、前記プロセッサは、操作者の前記認識結果を修正する操作に応じて、当該認識結果を修正した修正後認識結果を表示するように制御することを特徴とする請求項1に記載の情報処理装置である。
請求項6に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、前記表画像から切り出された画像は表示しないように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項7に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、修正前の前記認識結果を並べて表示するように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項8に記載の発明は、前記プロセッサは、前記修正後認識結果を表示する際に、当該修正後認識結果における修正された箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項5に記載の情報処理装置である。
請求項9に記載の発明は、コンピュータに、表を含む表画像の認識結果を取得する機能と、前記表の行又は列ごとに、前記表画像と前記認識結果とを交互に配置した画面を表示するように制御する機能とを実現させるためのプログラムである。
請求項1の発明によれば、表を含む表画像の認識結果を元の表の構造のまま表示する場合に比較して、操作者が表画像と認識結果を確認する手間を軽減することができる。
請求項2の発明によれば、表画像における行又は列の構造と認識結果における行又は列の構造との間の不整合がある箇所を他の箇所と同じ態様で表示する場合に比較して、不整合がある箇所の発見が容易になる。
請求項3の発明によれば、表画像を解析して得られた表の列数又は行数に基づいて不整合がある箇所を特定する場合に比較して、不整合がある箇所を正確に特定することができる。
請求項4の発明によれば、操作者から入力された表の列数又は行数に基づいて不整合がある箇所を特定する場合に比較して、不整合がある箇所を特定するための操作者の手間を軽減することができる。
請求項5の発明によれば、認識結果を修正した効果を確認することが可能となる。
請求項6の発明によれば、修正した認識結果を表画像から切り出された画像と共に表示する場合に比較して、認識結果を修正した効果を見易い状態で確認することが可能となる。
請求項7の発明によれば、修正した認識結果を単独で表示する場合に比較して、認識結果を修正した効果の確認が容易になる。
請求項8の発明によれば、修正した認識結果における修正された箇所を他の箇所と同じ態様で表示する場合に比較して、認識結果を修正した効果の確認が容易になる。
請求項9の発明によれば、表を含む表画像の認識結果を元の表の構造のまま表示する場合に比較して、操作者が表画像と認識結果を確認する手間を軽減することができる。
請求項2の発明によれば、表画像における行又は列の構造と認識結果における行又は列の構造との間の不整合がある箇所を他の箇所と同じ態様で表示する場合に比較して、不整合がある箇所の発見が容易になる。
請求項3の発明によれば、表画像を解析して得られた表の列数又は行数に基づいて不整合がある箇所を特定する場合に比較して、不整合がある箇所を正確に特定することができる。
請求項4の発明によれば、操作者から入力された表の列数又は行数に基づいて不整合がある箇所を特定する場合に比較して、不整合がある箇所を特定するための操作者の手間を軽減することができる。
請求項5の発明によれば、認識結果を修正した効果を確認することが可能となる。
請求項6の発明によれば、修正した認識結果を表画像から切り出された画像と共に表示する場合に比較して、認識結果を修正した効果を見易い状態で確認することが可能となる。
請求項7の発明によれば、修正した認識結果を単独で表示する場合に比較して、認識結果を修正した効果の確認が容易になる。
請求項8の発明によれば、修正した認識結果における修正された箇所を他の箇所と同じ態様で表示する場合に比較して、認識結果を修正した効果の確認が容易になる。
請求項9の発明によれば、表を含む表画像の認識結果を元の表の構造のまま表示する場合に比較して、操作者が表画像と認識結果を確認する手間を軽減することができる。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[帳票処理システムの全体構成]
図1は、本実施の形態が適用される帳票処理システム1の全体構成例を示した図である。図示するように、この帳票処理システム1は、画像読取装置10と、帳票認識装置20と、認識結果訂正装置30と、帳票処理装置50とが通信回線80に接続されることにより構成されている。尚、図では、画像読取装置10、帳票認識装置20、認識結果訂正装置30、帳票処理装置50を1つずつしか示していないが、各装置は2つ以上設けられていてもよい。
図1は、本実施の形態が適用される帳票処理システム1の全体構成例を示した図である。図示するように、この帳票処理システム1は、画像読取装置10と、帳票認識装置20と、認識結果訂正装置30と、帳票処理装置50とが通信回線80に接続されることにより構成されている。尚、図では、画像読取装置10、帳票認識装置20、認識結果訂正装置30、帳票処理装置50を1つずつしか示していないが、各装置は2つ以上設けられていてもよい。
画像読取装置10は、紙等の記録媒体に記録された画像を読み取る装置である。ここで、画像読取装置10は、例えばスキャナであり、光源から原稿に照射した光に対する反射光をレンズで縮小してCCD(Charge Coupled Devices)で受光するCCD方式や、LED光源から原稿に順に照射した光に対する反射光をCIS(Contact Image Sensor)で受光するCIS方式のものを用いるとよい。本実施の形態において、画像読取装置10は、特に、記入枠を有し、その記入枠内に手書き又は印刷により文字、数字等の記号が記入された帳票を読み取る。
帳票認識装置20は、画像読取装置10が読み取った帳票の記入枠や記入枠内に記入された文字、数字等の記号を認識する装置である。帳票認識装置20は、特に、記入枠が表構造を有している場合にその表構造を認識する。
認識結果訂正装置30は、帳票認識装置20が帳票を認識した結果(以下、「帳票認識結果」という)を訂正する装置である。認識結果訂正装置30は、帳票認識結果を訂正するための訂正画面を表示し、この訂正画面上でユーザが帳票認識結果の訂正操作を行うと、帳票認識結果を訂正する。
帳票処理装置50は、帳票認識装置20による帳票認識結果、又は、認識結果訂正装置30による帳票認識結果を認識結果訂正装置30が訂正したものに対して、予め定められた処理を行う装置である。ここで、予め定められた処理としては、帳票の記入枠に関連付けられた項目と、記入枠内に記入された文字等を認識して得られたテキストデータとを対応付けてデータベースに格納する処理等がある。
[本実施の形態の概要]
本実施の形態では、認識結果訂正装置30が、表の行又は列ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する。尚、表の行ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する場合と、表の列ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する場合とは、行と列とが異なるだけで、その他は同じなので、以下では、前者の場合についてのみ説明する。前者の場合において行を列と読み替えれば、後者の場合となる。即ち、本実施の形態は、以下において「行」を「行又は列」と読み替えたものである。
本実施の形態では、認識結果訂正装置30が、表の行又は列ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する。尚、表の行ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する場合と、表の列ごとに、表を含む表画像とその表画像の認識結果とを交互に配置した画面を表示する場合とは、行と列とが異なるだけで、その他は同じなので、以下では、前者の場合についてのみ説明する。前者の場合において行を列と読み替えれば、後者の場合となる。即ち、本実施の形態は、以下において「行」を「行又は列」と読み替えたものである。
図2(a),(b)は、認識結果訂正装置30が帳票認識結果410から表領域を構成する際の様子を示した図である。尚、このように構成された表領域のことを、以下では、「表認識結果420」と呼ぶことにする。
図2(a)には、認識結果訂正装置30が帳票認識装置20から取得した帳票認識結果410の一例を示している。図2(a)に示すように、帳票認識結果410は、例えばXML(eXtensible Markup Language)による記述となっている。
この記述において、記述行411〜414は、表の1行目の認識結果を示している。具体的には、表の1行目から4つのセルを認識し、1つ目、2つ目、3つ目、4つ目のセルからそれぞれ文字「A1」、「M2」、「A3」、「A4」を認識したことを示している。
また、記述行415〜419は、表の2行目の認識結果を示している。具体的には、表の2行目から5つのセルを認識し、1つ目、2つ目のセルからそれぞれ文字「B1」、「B2」を認識し、3つ目のセルから文字を認識せず、4つ目、5つ目のセルからそれぞれ文字「B3」、「B4」を認識したことを示している。
図2(b)には、認識結果訂正装置30が帳票認識結果410から構成した表認識結果420の一例を示している。
図2(b)に示すように、表認識結果420の行認識結果421は、図2(a)の記述行411〜414に従い、4つのセルから構成され、1つ目、2つ目、3つ目、4つ目のセル内にそれぞれ文字「A1」、「M2」、「A3」、「A4」が設定されたものとなっている。
表認識結果420の行認識結果422は、図2(a)の記述行415〜419に従い、5つのセルから構成され、1つ目、2つ目のセル内にそれぞれ文字「B1」、「B2」が設定され、3つ目のセル内には文字が設定されず、4つ目、5つ目のセル内にそれぞれ文字「B3」、「B4」が設定されたものとなっている。
表認識結果420の行認識結果423は、図2(a)では対応する記述行を省略したが、4つのセルから構成され、1つ目、2つ目、3つ目、4つ目のセル内にそれぞれ文字「C1」、「C2」、「C3」、「C4」が設定されたものとなっている。
表認識結果420の行認識結果424は、図2(a)では対応する記述行を省略したが、5つのセルから構成され、1つ目、2つ目、3つ目、4つ目、5つ目のセル内にそれぞれ文字「D1」、「D2」、「D3」、「D」、「4」が設定されたものとなっている。
表認識結果420の行認識結果425は、図2(a)では対応する記述行を省略したが、4つのセルから構成され、1つ目、2つ目、3つ目、4つ目のセル内にそれぞれ文字「E1」、「E2」、「E3」、「E4」が設定されたものとなっている。
図3(a),(b)は、認識結果訂正装置30が帳票画像430から表領域の画像を切り出して再配置する際の様子を示した図である。尚、このように切り出された表領域の画像のことを、以下では、「表領域画像440」と呼ぶことにする。
図3(a)には、認識結果訂正装置30が画像読取装置10から取得した帳票画像430の一例を示している。この帳票画像430には、図2(b)に示した表認識結果420の範囲431も示している。つまり、この例では、表のセルが存在しない領域が表認識結果420の範囲431に含まれており、表の6行目は表認識結果420の範囲431に含まれていない。これは、5つのセルが含まれていると誤認識された行があること、及び、6行目が認識されなかったことによる。
図3(b)には、認識結果訂正装置30が帳票画像430から行ごとに切り出して再配置した表領域画像440の一例を示している。認識結果訂正装置30は、図2(b)の行認識結果421〜425にそれぞれ対応する行領域画像441〜445を切り出している。
その際、認識結果訂正装置30は、帳票画像430から表以外の領域の画像を全て除去するのではなく、表以外の領域の画像にも除去しない部分を設けている。具体的には、表の画像だけを切り出すのではなく、表の画像と一緒に表の周囲の領域の画像を切り出している。表の周囲の領域の画像としては、例えば、表の大きさの予め定められた比率分の領域の画像が考えられる。このように表の周囲の領域の画像も切り出すことで、表の画像を切り出した際に列数の誤認識により表の画像の比較対象の部分が欠けてしまうことを防止できる。図3(b)では、表の周囲の領域の画像として、領域画像441a、領域画像441b〜445b、領域画像441c〜445c、領域画像445dを切り出している。尚、上記では、表の大きさの予め定められた比率分の領域の画像としたが、この例では、帳票画像430の横幅に限界があるので、領域画像441a及び領域画像445dの比率の方が、領域画像441b〜445b及び領域画像441c〜445cの比率よりも高くなっている。また、領域画像445dは、後述するように行領域画像445の下に行認識結果425を挿入するために、行領域画像445から切り離されている。
図4(a),(b)は、認識結果訂正装置30が表示する訂正画面450の一例を示した図である。訂正画面450は、ユーザが表認識結果420を訂正するための画面である。
図4(a)には、ユーザが訂正を行う前の訂正画面450を示している。認識結果訂正装置30は、図3(b)に示した行領域画像441〜445及び領域画像445dの間に、図2(b)に示した行認識結果421〜425を挿入することで、この訂正画面450を生成している。その際、行領域画像441〜445と行認識結果421〜425との間で表の構造や文字の認識結果に不整合がある場合、認識結果訂正装置30は、この不整合がある箇所をハイライト表示する。このハイライト表示は、不整合が修正された箇所については消去される。図中、ハイライト表示は、斜線ハッチングで示している。
具体的には、まず、行認識結果421の2つ目のセル内の文字の認識結果の信頼性が低いので、このセルをハイライト表示している。この場合、ハイライト表示されたセルに対してユーザが操作を行うと、認識結果訂正装置30は、この認識結果に対する訂正候補を含む訂正候補表示欄452を表示する。そして、ユーザは、訂正候補表示欄452に含まれる訂正候補の何れかを選択する操作を行うことにより、当初の文字の認識結果を訂正する。
また、行認識結果422は、4つのセルを含むべきだが、5つのセルを含んでいるので、行全体をハイライト表示している。この場合、ユーザは、文字が設定されていない3つ目のセルを削除する操作を行うことにより、セルの数を4つに訂正する。
更に、行認識結果424も、4つのセルを含むべきだが、5つのセルを含んでいるので、行全体をハイライト表示している。この場合、ユーザは、文字が分かれて設定されている4つ目のセルと5つ目のセルとを結合する操作を行うことにより、セルの数を4つに訂正する。
尚、認識結果訂正装置30は、行領域画像441の1行目の画像の上に行追加マーク451を表示している。1行目よりも上の行が認識されていなければ、ユーザは、この行追加マーク451を操作することにより、その認識されていない行を追加する。
また、認識結果訂正装置30は、行認識結果425の5行目の画像の下にも行追加マーク455を表示している。5行目よりも下の行が認識されていなければ、ユーザは、この行追加マーク455を操作することにより、その認識されていない行を追加する。この例では、実際に6行目が認識されていないので、ユーザは、行追加マーク455を操作することにより、6行目を追加することになる。
図4(b)には、ユーザがこのように訂正を行った後の訂正画面450を示している。認識結果訂正装置30は、図3(a)の帳票画像430から、図4(a)の行認識結果421〜425を訂正した訂正後行認識結果471〜475に応じて切り出した行画像461〜465と、この訂正後行認識結果471〜475とを交互に配置することで、訂正を行った後の訂正画面450を生成している。そして、ユーザが確認ボタン453を押下する操作を行うと、認識結果訂正装置30は、訂正後の表認識結果420を確認するための訂正後確認画面470を表示する。
図5は、認識結果訂正装置30が表示する訂正後確認画面470の一例を示した図である。この訂正後確認画面470は、訂正前表認識結果480と、訂正後表認識結果490とを含む。認識結果訂正装置30は、訂正前表認識結果480と、訂正後表認識結果490とで、訂正により変更された箇所をハイライト表示する。図中、ハイライト表示は、斜線ハッチングで示している。
具体的には、まず、訂正前表認識結果480の訂正前行認識結果481の2つ目のセルでは文字「M2」だったのが、訂正後表認識結果490の訂正後行認識結果491の2つ目のセルでは文字「A2」となっているので、訂正前表認識結果480及び訂正後表認識結果490ではこのセルをハイライト表示している。
また、訂正前表認識結果480の訂正前行認識結果482には文字が設定されていないセルがあったが、訂正後表認識結果490の訂正後行認識結果492ではこのセルは削除されているので、訂正前表認識結果480では削除されたセルを、訂正後表認識結果490では削除されたセルがあった箇所を、それぞれハイライト表示している。
更に、訂正前表認識結果480の訂正前行認識結果484には文字「D」が設定されたセルと文字「4」が設定されたセルとがあったが、訂正後表認識結果490の訂正後行認識結果494ではこのセルが文字「D4」が設定された1つのセルに結合されているので、訂正前表認識結果480では結合前の2つのセルを、訂正後表認識結果490では結合後の1つのセルを、それぞれハイライト表示している。
更にまた、訂正前表認識結果480では訂正前行認識結果485の下に行領域はなかったが、訂正後表認識結果490では訂正後行認識結果495の下に訂正後行認識結果496が追加されているので、訂正後表認識結果490では訂正後行認識結果496をハイライト表示している。
尚、この訂正後確認画面470では、訂正後表認識結果490と一緒に訂正前表認識結果480も並べて表示するようにしたが、これには限らない。訂正前表認識結果480を並べて表示せず、訂正後表認識結果490のみを表示するようにしてもよい。
[認識結果訂正装置のハードウェア構成]
図6は、本実施の形態における認識結果訂正装置30のハードウェア構成例を示した図である。図示するように、認識結果訂正装置30は、演算手段であるプロセッサ31と、記憶手段であるメインメモリ32及びHDD(Hard Disk Drive)33とを備える。ここで、プロセッサ31は、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、後述する各機能を実現する。また、メインメモリ32は、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、HDD33は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。更に、認識結果訂正装置30は、外部との通信を行うための通信I/F34と、ディスプレイ等の表示デバイス35と、キーボードやマウス等の入力デバイス36とを備える。
図6は、本実施の形態における認識結果訂正装置30のハードウェア構成例を示した図である。図示するように、認識結果訂正装置30は、演算手段であるプロセッサ31と、記憶手段であるメインメモリ32及びHDD(Hard Disk Drive)33とを備える。ここで、プロセッサ31は、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、後述する各機能を実現する。また、メインメモリ32は、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、HDD33は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。更に、認識結果訂正装置30は、外部との通信を行うための通信I/F34と、ディスプレイ等の表示デバイス35と、キーボードやマウス等の入力デバイス36とを備える。
[認識結果訂正装置の機能構成]
図7は、本実施の形態における認識結果訂正装置30の機能構成例を示したブロック図である。本実施の形態における認識結果訂正装置30は、情報処理装置の一例であり、図示するように、受信部41と、帳票認識結果記憶部42と、帳票画像記憶部43と、表認識結果生成部44と、表領域画像生成部45と、画面生成部46と、表示制御部47と、操作受付部48と、送信部49とを備えている。
図7は、本実施の形態における認識結果訂正装置30の機能構成例を示したブロック図である。本実施の形態における認識結果訂正装置30は、情報処理装置の一例であり、図示するように、受信部41と、帳票認識結果記憶部42と、帳票画像記憶部43と、表認識結果生成部44と、表領域画像生成部45と、画面生成部46と、表示制御部47と、操作受付部48と、送信部49とを備えている。
受信部41は、帳票認識装置20から帳票認識結果410を受信する。また、画像読取装置10から帳票画像430を受信する。
帳票認識結果記憶部42は、受信部41が受信した帳票認識結果410を記憶する。
帳票画像記憶部43は、受信部41が受信した帳票画像430を記憶する。
表認識結果生成部44は、図2(a),(b)に示したように、帳票認識結果記憶部42に記憶された帳票認識結果410から表認識結果420を生成する。本実施の形態では、表を含む表画像の認識結果として、表認識結果420を用いており、表画像の認識結果を取得する手段の一例として、表認識結果生成部44を設けている。
また、表認識結果生成部44は、後述するように画面生成部46から訂正後行認識結果が通知されると、帳票認識結果記憶部42に記憶された帳票認識結果410を、訂正後行認識結果の内容で訂正する。
表領域画像生成部45は、図3(a),(b)に示したように、帳票画像記憶部43に記憶された帳票画像430から、帳票認識結果記憶部42に記憶された表領域の座標に基づいて表領域画像440を切り出す。その際、表領域画像440から行ごとに行領域画像も切り出す。
また、表領域画像生成部45は、帳票認識結果記憶部42に記憶された帳票認識結果410が訂正後行認識結果の内容で訂正されると、帳票認識結果410における訂正後の行の座標に基づいて行画像を切り出す。
画面生成部46は、表領域画像生成部45が生成した表領域画像440と、表認識結果生成部44が生成した表認識結果420とから、表認識結果420を訂正するための訂正画面450を生成する。具体的には、図4(a)に示したように、表領域画像440から切り出した行領域画像と、表認識結果420から切り出した行認識結果とを交互に配置した訂正画面450を生成する。本実施の形態では、表の行ごとに表画像と認識結果とを交互に配置した画面の一例として、訂正画面450を用いており、この画面を表示するように制御する手段の一例として、画面生成部46を設けている。
また、画面生成部46は、表認識結果420における不整合がある箇所を特定し、図4(a)に示したように、訂正画面450上で、不整合がある箇所をハイライトする。本実施の形態では、表画像における行の構造と認識結果における行の構造との間の不整合がある箇所を他の箇所とは異なる態様で表示するように制御する手段の一例として、画面生成部46を設けている。
その際、不整合がある箇所は、例えば、次のような方法で特定すればよい。
第1の方法は、表の列数と表認識結果420におけるある行の列数とが異なる場合に、その行を不整合がある箇所として特定する、というものである。ここで、表の列数は、操作受付部48が受け付けたユーザ操作で指定されたものであってよい。この場合、画面生成部46は、操作者から入力された表の列数に基づいて、不整合がある箇所を特定する手段の一例である。或いは、表の列数は、表認識結果420を解析して求めたものであってもよい。例えば、表認識結果420における行のうち予め定められた基準以上の行の列数が同じであれば、その列数を表の列数とすることが考えられる。この場合、画面生成部46は、認識結果を解析して得られた表の列数に基づいて、不整合がある箇所を特定する手段の一例である。
第2の方法は、表認識結果420におけるあるセル内の文字の認識結果の信頼度が予め定められた基準以下であれば、そのセルを不整合がある箇所として特定する、というものである。
更に、画面生成部46は、訂正画面450上で表認識結果420を訂正するユーザ操作を操作受付部48が受け付けると、表認識結果420が訂正された訂正画面450を生成する。具体的には、図4(b)に示したように、表領域画像生成部45が切り出した行画像と、訂正後行認識結果とが交互に配置された訂正画面450を生成する。本実施の形態では、認識結果を修正した修正後認識結果の一例として、訂正後行認識結果を用いており、操作者の認識結果を修正する操作に応じて修正後認識結果を表示するように制御する手段の一例として、画面生成部46を設けている。そして、画面生成部46は、この訂正後行認識結果を表認識結果生成部44に通知する。
また、画面生成部46は、図5に示したように、行画像が配置されることなく訂正後行認識結果が配置された訂正後確認画面470を生成することもある。この場合、画面生成部46は、修正後認識結果を表示する際に、表画像から切り出された画像は表示しないように制御する手段の一例である。更に、画面生成部46は、図5に示したように、訂正前表認識結果480が訂正後表認識結果490と並べて配置された訂正後確認画面470を生成することもある。この場合、画面生成部46は、修正後認識結果を表示する際に、修正前の認識結果を並べて表示するように制御する手段の一例である。更にまた、画面生成部46は、訂正後確認画面470上で、訂正前表認識結果480と訂正後表認識結果490とで変更された箇所をハイライトすることもある。この場合、画面生成部46は、修正後認識結果を表示する際に、修正前の認識結果を並べて表示するように制御する手段の一例である。
表示制御部47は、画面生成部46が生成した訂正画面450及び訂正後確認画面470を表示するように表示デバイス35を制御する。
操作受付部48は、訂正画面450上で表認識結果を訂正するユーザ操作を受け付ける。また、帳票内の表の列数を指定するユーザ操作を受け付けることもある。
送信部49は、帳票認識結果記憶部42に記憶された帳票認識結果410を、その訂正が必要ないことが分かった後又はその訂正が完了した後に、帳票処理装置50へ送信する。
[認識結果訂正装置の動作]
本実施の形態における認識結果訂正装置30では、まず、受信部41が帳票認識装置20から帳票認識結果410を受信して帳票認識結果記憶部42に記憶し、受信部41が画像読取装置10から帳票画像430を受信して帳票画像記憶部43に記憶する。そして、認識結果訂正装置30は、帳票認識結果記憶部42に記憶された帳票認識結果410を訂正するための訂正画面450を生成して表示する。
本実施の形態における認識結果訂正装置30では、まず、受信部41が帳票認識装置20から帳票認識結果410を受信して帳票認識結果記憶部42に記憶し、受信部41が画像読取装置10から帳票画像430を受信して帳票画像記憶部43に記憶する。そして、認識結果訂正装置30は、帳票認識結果記憶部42に記憶された帳票認識結果410を訂正するための訂正画面450を生成して表示する。
図8は、このときの認識結果訂正装置30の動作例を示したフローチャートである。尚、このフローチャートは、帳票認識結果410に対する様々な訂正のうち、表認識結果420に対する訂正のための訂正画面450に着目したフローチャートとなっている。
図示するように、認識結果訂正装置30では、まず、表認識結果生成部44が、帳票認識結果記憶部42に記憶された帳票認識結果410が表を含むかどうかを判定する(ステップ301)。
その結果、帳票認識結果410が表を含むと判定しなければ、表認識結果生成部44は、処理を終了する。
一方、帳票認識結果410が表を含むと判定すれば、表認識結果生成部44は、帳票認識結果410から表認識結果420を生成する(ステップ302)。
次に、表領域画像生成部45が、帳票画像記憶部43に記憶された帳票画像430から表領域画像440を生成する(ステップ303)。具体的には、帳票画像記憶部43に記憶された帳票画像430から、帳票認識結果記憶部42に記憶された表領域の座標に基づいて切り出すことにより、表領域画像440を生成する。
そして、表領域画像生成部45は、ステップ303で生成した表領域画像440から行領域画像を生成する(ステップ304)。具体的には、表領域画像440から行ごとに切り出すことにより、行領域画像を生成する。
そして、表領域画像生成部45は、ステップ304で生成した行領域画像をスペースを空けて再配置する(ステップ305)。
次に、画面生成部46が、ステップ305で行領域画像が再配置された際の空いたスペースに行認識結果を配置することにより、訂正画面450を生成する(ステップ306)。ここで、行認識結果は、ステップ302で生成された表認識結果420を行ごとに分けたものである。
そして、画面生成部46は、ステップ306で生成した訂正画面450において、問題箇所をハイライトする(ステップ307)。具体的には、表の列数と表認識結果420におけるある行の列数とが異なる場合に、その行を問題個所としてハイライトする。或いは、表認識結果420におけるあるセル内の文字の認識結果の信頼度が予め定められた基準以下であれば、そのセルを問題箇所として特定する。
次いで、表示制御部47が、ステップ306で生成され、ステップ307で問題箇所がハイライトされた訂正画面450を表示するように、表示デバイス35を制御する(ステップ308)。
その後、表認識結果生成部44は、帳票認識結果410に未処理の表があるかどうかを判定する(ステップ309)。
その結果、未処理の表があると判定すれば、表認識結果生成部44は、処理をステップ302へ戻して、その表についてステップ302〜308の処理を繰り返す。
一方、未処理の表があると判定しなければ、表認識結果生成部44は、処理を終了する。
さて、このように表示された訂正画面450上で行認識結果を訂正するユーザ操作があったとする。すると、認識結果訂正装置30では、まず、操作受付部48が、そのユーザ操作を受け付ける。次に、画面生成部46が、行認識結果を訂正した訂正後行認識結果を表認識結果生成部44に通知する。次いで、表認識結果生成部44が、帳票認識結果記憶部42に記憶された帳票認識結果410を、訂正後行認識結果の内容で訂正する。
また、このように帳票認識結果記憶部42に記憶された帳票認識結果410が訂正後行認識結果の内容で訂正されると、表領域画像生成部45が、帳票画像記憶部43に記憶された帳票画像430から帳票認識結果410における訂正後の行の座標に基づいて行画像を切り出す。次に、画面生成部46が、表領域画像生成部45が切り出した行画像と、訂正後行認識結果とが交互に配置された訂正画面450を生成する。次いで、表示制御部47が、この訂正画面450を表示するように表示デバイス35を制御する。
そして、最後に、送信部49が、帳票認識結果記憶部42に記憶されて訂正された帳票認識結果410を、帳票処理装置50へ送信する。或いは、送信部49は、帳票認識結果410を訂正する必要がない場合は、帳票認識結果記憶部42に記憶された帳票認識結果410をそのまま帳票処理装置50へ送信してもよい。
[プロセッサ]
本実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
本実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また、本実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は、本実施の形態において記載した順序のみに限定されるものではなく、変更してもよい。
[プログラム]
本実施の形態における認識結果訂正装置30が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
本実施の形態における認識結果訂正装置30が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
即ち、本実施の形態を実現するプログラムは、コンピュータに、表を含む表画像の認識結果を取得する機能と、表の行又は列ごとに、表画像と認識結果とを交互に配置した画面を表示するように制御する機能とを実現させるためのプログラムとして捉えられる。
尚、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD−ROM等の記録媒体に格納して提供することも可能である。
10…画像読取装置、20…帳票認識装置、30…認識結果訂正装置、41…受信部、42…帳票認識結果記憶部、43…帳票画像記憶部、44…表認識結果生成部、45…表領域画像生成部、46…画面生成部、47…表示制御部、48…操作受付部、49…送信部
Claims (9)
- プロセッサを備え、
前記プロセッサは、
表を含む表画像の認識結果を取得し、
前記表の行又は列ごとに、前記表画像と前記認識結果とを交互に配置した画面を表示するように制御する
ことを特徴とする情報処理装置。 - 前記プロセッサは、前記画面を表示する際に、前記表画像における行又は列の構造と、前記認識結果における行又は列の構造との間の不整合がある箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、操作者から入力された前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置。
- 前記プロセッサは、前記認識結果を解析して得られた前記表の列数又は行数に基づいて、前記不整合がある箇所を特定することを特徴とする請求項2に記載の情報処理装置。
- 前記プロセッサは、操作者の前記認識結果を修正する操作に応じて、当該認識結果を修正した修正後認識結果を表示するように制御することを特徴とする請求項1に記載の情報処理装置。
- 前記プロセッサは、前記修正後認識結果を表示する際に、前記表画像から切り出された画像は表示しないように制御することを特徴とする請求項5に記載の情報処理装置。
- 前記プロセッサは、前記修正後認識結果を表示する際に、修正前の前記認識結果を並べて表示するように制御することを特徴とする請求項5に記載の情報処理装置。
- 前記プロセッサは、前記修正後認識結果を表示する際に、当該修正後認識結果における修正された箇所を、他の箇所とは異なる態様で表示するように制御することを特徴とする請求項5に記載の情報処理装置。
- コンピュータに、
表を含む表画像の認識結果を取得する機能と、
前記表の行又は列ごとに、前記表画像と前記認識結果とを交互に配置した画面を表示するように制御する機能と
を実現させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020007235A JP2021114211A (ja) | 2020-01-21 | 2020-01-21 | 情報処理装置及びプログラム |
CN202010926832.1A CN113221608A (zh) | 2020-01-21 | 2020-09-07 | 信息处理装置、信息处理方法及计算机可读介质 |
US17/018,290 US11410444B2 (en) | 2020-01-21 | 2020-09-11 | Information processing apparatus and non-transitory computer readable medium for arranging table image and recognition result |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020007235A JP2021114211A (ja) | 2020-01-21 | 2020-01-21 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021114211A true JP2021114211A (ja) | 2021-08-05 |
Family
ID=76857118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020007235A Pending JP2021114211A (ja) | 2020-01-21 | 2020-01-21 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11410444B2 (ja) |
JP (1) | JP2021114211A (ja) |
CN (1) | CN113221608A (ja) |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05250357A (ja) * | 1992-03-05 | 1993-09-28 | Ricoh Co Ltd | 画像読取修正装置および修正画像形成装置 |
JP4235286B2 (ja) | 1998-09-11 | 2009-03-11 | キヤノン株式会社 | 表認識方法及び装置 |
JP4973063B2 (ja) * | 2006-08-14 | 2012-07-11 | 富士通株式会社 | 表データ処理方法及び装置 |
JP5338063B2 (ja) * | 2007-10-31 | 2013-11-13 | 富士通株式会社 | 画像認識プログラム、画像認識装置および画像認識方法 |
JP4825243B2 (ja) * | 2008-06-20 | 2011-11-30 | 富士通フロンテック株式会社 | 帳票認識装置、方法、データベース作成装置、方法、及びプログラム |
JP5432343B2 (ja) | 2012-08-29 | 2014-03-05 | キヤノンソフトウェア株式会社 | 画像処理装置及び方法、並びにプログラム |
CA2901703C (en) * | 2014-06-06 | 2016-07-05 | Maud Gagne-Langevin | System and method for generating task-embedded documents |
US10607381B2 (en) * | 2014-07-07 | 2020-03-31 | Canon Kabushiki Kaisha | Information processing apparatus |
JP6679350B2 (ja) * | 2016-03-09 | 2020-04-15 | キヤノン株式会社 | 情報処理装置、プログラム及び情報処理方法 |
US10706228B2 (en) * | 2017-12-01 | 2020-07-07 | International Business Machines Corporation | Heuristic domain targeted table detection and extraction technique |
CN110659527B (zh) * | 2018-06-29 | 2023-03-28 | 微软技术许可有限责任公司 | 电子表单中的表格检测 |
JP2021028770A (ja) * | 2019-08-09 | 2021-02-25 | 株式会社日立製作所 | 情報処理装置及び表認識方法 |
-
2020
- 2020-01-21 JP JP2020007235A patent/JP2021114211A/ja active Pending
- 2020-09-07 CN CN202010926832.1A patent/CN113221608A/zh active Pending
- 2020-09-11 US US17/018,290 patent/US11410444B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11410444B2 (en) | 2022-08-09 |
CN113221608A (zh) | 2021-08-06 |
US20210224529A1 (en) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8675260B2 (en) | Image processing method and apparatus, and document management server, performing character recognition on a difference image | |
JP2835178B2 (ja) | 文書読取装置 | |
JP5053722B2 (ja) | 画像処理装置及び画像処理方法、コンピュータプログラム及び記憶媒体 | |
US8878874B2 (en) | Image overlaying device and image overlaying program | |
JP2006252048A (ja) | 翻訳装置、翻訳プログラムおよび翻訳方法 | |
US20120163718A1 (en) | Removing character from text in non-image form where location of character in image of text falls outside of valid content boundary | |
JP2003346078A (ja) | 2次元コード読取装置、画像入力装置、2次元コード読み取り方法、画像入力方法、そのプログラム、及びそのプログラムを記録した記録媒体 | |
US11240399B2 (en) | Image processing apparatus | |
JP2021114211A (ja) | 情報処理装置及びプログラム | |
JP7241506B2 (ja) | 光学式文字認識結果の修正支援装置および修正支援用プログラム | |
JPH08129550A (ja) | 画像処理装置および画像処理方法 | |
JP4756650B2 (ja) | 画像処理装置、読み順設定方法及びプログラム | |
JP2009031937A (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2003067668A (ja) | 回答フォームを使用するデータ取得システムおよび方法 | |
JP2007087238A (ja) | データ変換プログラム、方法及び装置 | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP2005050094A (ja) | 光学的文字読取装置 | |
JP2020052480A (ja) | 情報処理装置及びプログラム | |
US8473856B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP2001273509A (ja) | 文書画像編集装置及び文書画像編集方法 | |
JP7354697B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JPH117493A (ja) | 文字認識処理装置 | |
JP2007249580A (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
JPH06266889A (ja) | 文書認識装置 | |
JP2834130B2 (ja) | 認識データの確認方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240423 |