JP2015185157A - 文字データ修正方法、文字データ修正装置およびプログラム - Google Patents

文字データ修正方法、文字データ修正装置およびプログラム Download PDF

Info

Publication number
JP2015185157A
JP2015185157A JP2014178030A JP2014178030A JP2015185157A JP 2015185157 A JP2015185157 A JP 2015185157A JP 2014178030 A JP2014178030 A JP 2014178030A JP 2014178030 A JP2014178030 A JP 2014178030A JP 2015185157 A JP2015185157 A JP 2015185157A
Authority
JP
Japan
Prior art keywords
character
image
code
field
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014178030A
Other languages
English (en)
Other versions
JP5661214B1 (ja
Inventor
元章 田中
Motoaki Tanaka
元章 田中
克則 仙浪
Katsunori Sennami
克則 仙浪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Mitsubishi Electric Information Technology Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Mitsubishi Electric Information Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp, Mitsubishi Electric Information Technology Corp filed Critical Mitsubishi Electric Information Systems Corp
Priority to JP2014178030A priority Critical patent/JP5661214B1/ja
Application granted granted Critical
Publication of JP5661214B1 publication Critical patent/JP5661214B1/ja
Publication of JP2015185157A publication Critical patent/JP2015185157A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】帳票等の文字イメージに対応する文字コードを修正する際に、オペレータが確認すべき文字の量を低減できる文字データ修正方法等を提供する。【解決手段】文字データ修正方法を実行する文字データ修正装置10は、複数の文字イメージと、各文字イメージに関連付けられた文字コードおよび精度とを取得し、文字イメージおよび文字キャラクタを対応させて表示し(対応付け表示ステップ)、文字コードを変更する変更操作を受け付ける。文字データ修正装置10は、精度が所定の閾値を超える文字イメージについては、対応付け表示ステップを実行せず、精度が前記閾値未満である文字イメージについては、対応付け表示ステップを実行する。【選択図】図5

Description

本発明は、文字データ修正方法、文字データ修正装置およびプログラムに関する。
手書きの文字や、印刷された文字を、コンピュータに画像として入力し、OCR(Optical Character Recognition:光学式文字認識)技術を用いて文字として認識させる構成が周知である。一般的に、OCRによる認識結果は必ずしも正しいとは限らないので、人間のオペレータによる確認・修正作業が必要となる。
多数のページにわたる画像に対してOCRによる認識作業を実施する際に、ページ単位ではなく、文字コード単位で認識結果の修正作業を行う技術が公知である。特許文献1には、このような技術の例が記載されている。
特開平11−7492号公報
しかしながら、従来の構成では、オペレータが確認すべき認識結果が多数表示されるため、確認・修正作業の効率に限度があるという問題があった。たとえば、特許文献1の構成では、確認・修正作業を行う際に、文字コードごとにすべての文字イメージが表示されるので、オペレータはすべての文字イメージを確認する必要がある。
この発明は、このような問題点を解決するためになされたものであり、文字コードを修正する際に、オペレータが確認すべき文字イメージの量を低減できる文字データ修正方法、文字データ修正装置およびプログラムを提供することを目的とする。
上述の問題点を解決するため、この発明に係る文字データ修正方法は、
コンピュータが、複数の文字イメージと、各文字イメージに関連付けられた文字コードおよび精度とを取得するステップと、
前記コンピュータが、少なくとも1つの前記文字イメージについて、前記文字イメージと、前記文字コードに係る文字キャラクタとを対応させて表示する、対応付け表示ステップと、
前記コンピュータが、対応付け表示ステップの対象となった前記文字イメージについて、前記文字コードを変更する変更操作を受け付けるステップと、
文字単位ビューを表示するステップと、
フィールド単位ビューを表示するステップと
を備え、
前記コンピュータは、前記精度が所定の閾値を超える前記文字イメージのうち少なくとも一部については、前記対応付け表示ステップを実行せず、
前記コンピュータは、前記精度が前記閾値未満である前記文字イメージのうち少なくとも一部については、前記対応付け表示ステップを実行し、
前記文字単位ビューにおいて、前記文字コードごとに、その文字コードが関連付けられた各文字イメージと、各文字イメージの文字コードに係る前記文字キャラクタとが表示可能であり、
前記フィールド単位ビューにおいて、複数の前記文字イメージを含むフィールドイメージについて、前記フィールドイメージに含まれる文字イメージのそれぞれに対応する文字キャラクタが表示可能であり、
前記コンピュータは、所定のビュー切替操作に応じて、前記文字単位ビューを表示する前記ステップまたは前記フィールド単位ビューを表示する前記ステップを実行する。
前記コンピュータは、
文字コードが変更されていない文字イメージ、または、文字コードが変更されていない文字イメージに係る文字キャラクタと、
前記変更操作に基づき文字コードが変更された文字イメージ、または、前記変更操作に基づき文字コードが変更された文字イメージに係る文字キャラクタと
を、前記対応付け表示ステップにおいてそれぞれ異なる態様で表示してもよい。
また、この発明に係る文字データ修正装置は、上述の方法を実行する。
また、この発明に係るプログラムは、コンピュータを、上述の文字データ修正装置として機能させる。
この発明に係る文字データ修正方法、文字データ修正装置およびプログラムによれば、文字コードの精度が高いものについては文字イメージおよび文字コードを表示しないので、これらに対する確認・修正作業が省略され、結果としてオペレータが確認すべき文字イメージの量が低減できる。
本発明の実施の形態1に係る文字データ修正装置の構成の例を示す図である。 図1の文字データ修正装置を用いた修正処理の対象となる帳票の例である。 図1の文字データ修正装置の処理の流れを示すフローチャートである。 確認・修正作業が行われる前の、文字単位ビューの例である。 確認・修正作業が行われた後の、文字単位ビューの例である。 確認・修正作業が行われる前の、フィールド単位ビューの例である。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1に、本発明の実施の形態1に係る文字データ修正装置10の構成の例を示す。文字データ修正装置10はコンピュータとしての構成を含み、演算を行う演算手段20と、情報を格納する記憶手段30と、情報の入力を受け付ける入力手段40と、情報を出力する出力手段50とを備える。また、とくに図示しないが、文字データ修正装置10は、外部の通信ネットワークに対し情報の入出力を受け付けるネットワークインタフェースを備えてもよい。また、このネットワークインタフェースが入力手段40や出力手段50を兼ねてもよい。
たとえば、演算手段20はCPU(中央処理装置)を含み、記憶手段30は半導体メモリおよびHDD(ハードディスクドライブ)等の記憶媒体を含む。また、たとえば入力手段40はキーボードおよびマウスを含み、出力手段50はディスプレイ等の表示手段を含む。
図2に、文字データ修正装置10を用いた修正処理の対象となる帳票100の例を示す。帳票100はたとえば商品の注文処理に関するものであり、注文日、注文者、商品等に関する情報を表す文字が記載されている。本明細書において、「文字」とは、数字および一部の記号を含む。また、本明細書では空白も文字として扱う場合がある。文字は、たとえば手書き、印刷、画像処理等の方法によりフィールドに記入される。
帳票は1つ以上のフィールドを含む。フィールドとは、帳票の一部を構成する特定の範囲であり、たとえば注文者の氏名を表すフィールドは「ご氏名」という表記によって示される。また、フィールドの少なくとも1つは、文字単位で記載範囲が指定されている。図2の例では、会員番号を表すフィールドは枠によって文字単位に分割され、各枠にそれぞれ1桁の数字を記入するようになっている。
図1に示すように、記憶手段30には、イメージデータ31、フィールドデータ32および文字データ33が記憶されている。イメージデータ31は、イメージ(画像)を表すデータを含む。イメージは、帳票イメージと、フィールドイメージと、文字イメージとを含む。
帳票イメージとは、1枚の帳票の全体またはその一部の記載内容を表す画像である。フィールドイメージとは、フィールドの記載内容を表す画像であり、たとえば帳票イメージから各フィールドに該当する範囲を切り出すことによって生成可能である。文字イメージとは、フィールド内に記載された文字の1つを表す画像であり、たとえばフィールドイメージから各文字に該当する範囲を切り出すことによって生成可能である。フィールドイメージは、互いに異なる文字コードに対応する複数の文字イメージを含む場合がある。
イメージデータ31には、複数の帳票に対応する帳票イメージが記憶されており、これらは帳票グループ単位に分類されている。帳票グループは、たとえば、帳票の種類によらず、帳票イメージの受信順に基づいて形成される。具体的には、帳票イメージのうち1番目から100番目までに受信されたものは第1の帳票グループに分類され、101番目から200番目までに受信されたものは第2の帳票グループに分類される。
文字イメージは、厳密には、フィールド内の特定の範囲(たとえば、各文字が枠で仕切られたフィールドにおける各枠内の範囲)の記載内容を表す画像であり、文字のみを含む場合もあるが、文字以外の汚れや枠線等を含む場合もある。
フィールドデータ32は、帳票とフィールドとの関係を表すデータを含む。たとえば、フィールドデータ32には、ある帳票に含まれるフィールドについて、その帳票のID、帳票内におけるフィールドのID、紙面上でのフィールドの位置(たとえばX座標およびY座標)、紙面上でのフィールドのサイズ(たとえば幅および高さ)、フィールドに含まれる文字の種類(たとえば数字のみ、カタカナのみ、英数字のみ、英数カタカナ混在、等)、フィールドに含まれる文字数(たとえば空白文字を含む文字数)、等が定義される。
文字データ33は、フィールドに含まれる文字イメージのそれぞれについて、文字コード、精度およびチェック状態を関連付ける。文字コードは、たとえばASCIIコード、ISO−2022−JPコード、シフトJISコード、EUC−JPコード、ユニコード等の文字コード体系に基づいて表される。文字コードは、たとえば、対応する文字イメージについて、OCR技術により認識処理を行った結果として得られるものである。なお、ある文字について、文字イメージとして表される文字と、文字コードに対応する文字とは、必ずしも一致するとは限らない。
精度は、フィールドに含まれる文字(すなわち実際に記載された文字、または文字イメージによって表される文字)と、文字コードが表す文字とが一致する度合い(または可能性、信頼度、確度、等)を表す。本実施形態では、精度は0以上100以下の整数として表され、大きいほど一致する度合いが高いことを表すものとするが、他の形式で表されてもよい。
精度の算出または決定方法は、当業者が適宜設計可能であり、たとえば公知のOCR技術を用いて、認識精度として決定することができる。より具体的には、たとえば輪郭解析法によって決定してもよいし、特徴マッチング法によって決定してもよいし、大規模な文字データから識別に有用な特徴量を抽出する多変量解析法によって決定してもよい。また、精度は、文字データ修正装置10が文字イメージに基づいて決定してもよいし、外部から入力されてもよい(たとえば他のコンピュータ等がOCR技術等を用いて決定した値を文字データ33に記録してもよい)。
チェック状態は、その文字イメージに関する確認・修正作業の進行状況または結果を表す。詳細は文字データ修正装置10の動作に関連して後述する。
また、記憶手段30には、図示しないプログラムが格納されている。文字データ修正装置10は、このプログラムを実行することにより、本明細書に記載される機能を実現する。
以上のように構成される文字データ修正装置10の動作を、以下に説明する。
図3は、文字データ修正装置10の処理の流れの例を示すフローチャートである。まず文字データ修正装置10は、ある帳票グループについて、イメージデータ、フィールドデータおよび文字データを取得する(ステップS1)。上述のように、イメージデータには、複数の文字イメージが含まれ、文字データには、複数の文字イメージにそれぞれ関連付けられた文字コードおよび精度が含まれる。
次に、文字データ修正装置10は、出力手段50を介して、文字単位ビューを出力する(ステップS2)。たとえば出力手段50が液晶ディスプレイである場合には、出力は画面における表示として行われる。
図4および図5に、画面に表示される文字単位ビューV1の構成の例を示す。文字単位ビューV1は、カーペット方式入力モードに対応する。文字単位ビューV1では、処理中の帳票グループに含まれる各文字イメージについて、文字イメージと文字コードとが対応付けられて出力される。図4は、後述の確認・修正作業(ステップS3)が行われる前の表示内容の例であり、図5は、確認・修正作業の途中または終了直前の表示内容の例である。
画面における表示の場合には、文字コードは、その文字コードに対応する文字キャラクタ(たとえば特定のフォントの特定の画像)を表示することによって示される。すなわち、文字単位ビューV1では、文字コードごとに、少なくとも1つの文字イメージについて、その文字コードが関連付けられた各文字イメージIと、各文字イメージIの文字コードに係る文字キャラクタCとを、対応付けて表示できるようになっている(対応付け表示ステップ)。
図4の例では、処理中の帳票グループに含まれる文字イメージのうち、文字コードがアラビア数字の0を表すものがすべて表示されている。
このように、文字単位ビューV1では、文字コードごとに表示が行われるので、オペレータが確認すべき文字イメージが1種類の文字コードに対応するものに限定され、確認・修正作業の効率が向上する。
また、ステップS2において、文字データ修正装置10は、各文字イメージについて、精度に基づき、上記の対応付け表示ステップを実行するか否かを決定する。とくに、本実施形態では、精度が高い文字イメージおよび低い文字イメージについては対応付け表示ステップを実行せず、精度が中程度の文字イメージのみ対応付け表示ステップを実行する。
たとえば、文字イメージのうち、精度が第1の閾値(たとえば80)を超えるものについては、対応付け表示ステップを実行しない(ただし、精度以外の判定基準を併用する場合には、精度が高い文字イメージの一部が表示されるケースを除外しない)。
また、文字イメージのうち、精度が第2の閾値(たとえば20)未満であるものについても、対応付け表示ステップを実行しない(同様に、精度以外の判定基準を併用する場合には、精度が低い文字イメージの一部が表示されるケースを除外しない)。これは、いわゆるリジェクト判定となる認識結果を非表示とすることに該当する。
そして、文字イメージのうち、精度が第2の閾値を超え第1の閾値未満であるものについては、対応付け表示ステップを実行する(同様に、精度以外の判定基準を併用する場合には、精度が中程度の文字イメージの一部を非表示とするケースを除外しない)。
このように、文字単位ビューV1では、精度が高い文字イメージは表示されない。したがって、第1の閾値を、実質的にすべての文字コードが正しくなる程度に高い値に設定しておけば、オペレータによる確認・修正作業が不要な文字イメージについては表示が省略されるので、作業対象となる文字イメージの量を低減でき、確認・修正作業の効率が向上する。なお、第1の閾値は、当業者が適宜決定可能である。
また、文字単位ビューV1では、とくに精度が低い文字イメージは表示されない。精度が低い文字イメージは、オペレータが見てもその文字イメージだけでは判読が困難な場合が多く、文字単位での確認・修正作業は効率的でない可能性がある。したがって、第2の閾値を適切に設定しておけば、オペレータによる確認・修正作業が困難な文字イメージについては表示を省略し、より適切な確認・修正作業が行える機会(たとえば後述のフィールド単位ビュー)に回すことができるので、全体的な確認・修正作業の効率が向上する。なお、第2の閾値は、当業者が適宜決定可能である。
ステップS2の後、文字データ修正装置10は、入力手段40を介して、確認・修正操作を受け付ける(ステップS3)。ここで、オペレータは、表示された文字イメージと文字キャラクタとの関係を確認しつつ、各文字イメージに対して確認・修正操作を行うことができる。なお、本実施形態では、ステップS3の確認・修正操作の対象となる文字イメージは、対応付け表示ステップの対象となった文字イメージである。
確認・修正操作は、確定操作、保留操作および変更操作を含む。
確定操作とは、特定の文字イメージの文字コードを、表示されたとおりに確定させる操作である。確定操作は、たとえばオペレータが目視確認の結果、文字イメージと文字キャラクタとが一致していると判断した場合に行う操作である。この操作は、たとえば文字キャラクタを選択した状態でエンターキーを押す操作に対応する。
保留操作とは、特定の文字イメージの文字コードを確定させず保留する操作である。保留操作は、たとえばオペレータが目視確認の結果、文字イメージがどの文字を表すのか判断できなかった場合に行う操作であり、後続の処理により文字コードを確定すべきであるということを指示する操作である。この操作は、たとえば文字キャラクタを選択した状態でタブキーを押す操作に対応する。
変更操作とは、特定の文字イメージの文字コードを、表示されたものから別のものに変更する操作である。変更操作は、たとえばオペレータが目視確認の結果、文字コードが誤っていると判断した場合に、文字コードを正しいものに訂正する操作である。変更操作において、文字データ修正装置10は文字コードの入力を受け付け、その文字イメージの文字コードを、入力されたものに変更し、その文字イメージについて対応付け表示ステップを再び実行する。この操作は、たとえば文字キャラクタを選択した状態で、変更後の文字コードを表すキーを押す操作に対応する。
文字単位ビューV1において、確認・修正操作が行われた文字イメージについては、行われた操作の内容に応じた表示が行われる。たとえば、この表示は、文字キャラクタの表示態様を文字データ修正装置10が変更することによって行われる。また、行われた確認・修正操作の内容は、チェック状態を表す情報としてその文字イメージに関連付けられ、文字データ33に記憶される。
本実施形態では、チェック状態としての記憶において、これらの操作はそれぞれビューごとに排他的である。たとえば、文字単位ビューV1においてある文字イメージに対して確定操作が行われた後、文字単位ビューV1において同じ文字イメージに対してさらに変更操作が行われると、最初の確定操作が取り消され、その文字イメージに対する文字単位ビューV1におけるチェック状態として変更操作のみが文字データ33に記憶される。なお、本実施形態では、後述のフィールド単位ビューにおけるチェック状態は、文字単位ビューV1におけるチェック状態とは別に記憶可能である。
図5にこのような表示の例を示す。たとえば、確認・修正操作がまだ行われていないものは、文字キャラクタの背景を白色で表示し(たとえば文字キャラクタC1)、確定操作が行われたものは、文字キャラクタの背景を青色で表示し(たとえば文字キャラクタC2)、保留操作が行われたものは、文字キャラクタの背景を黄色で表示し(たとえば文字キャラクタC3)、変更操作が行われたものは、文字キャラクタの背景を赤色で表示する(たとえば文字キャラクタC4)。なお本図面では背景の着色を網掛けおよび斜線で示している。
このように、文字データ修正装置10は、文字単位ビューV1の対応付け表示ステップにおいて、文字コードが変更されていない文字イメージに係る文字キャラクタ(背景が白色、青色または黄色)と、変更操作に基づき文字コードが変更された文字イメージに係る文字キャラクタ(背景が赤色)とを、それぞれ異なる態様で表示する。
また、文字データ修正装置10は、文字単位ビューV1の対応付け表示ステップにおいて、保留された文字イメージに係る文字キャラクタ(背景が黄色)と、保留されていない文字イメージに係る文字キャラクタ(背景が白色、赤色または青色)とを、それぞれ異なる態様で表示する。
また、文字単位ビューV1において、文字データ修正装置10は、いずれの確認・修正操作とも異なる所定のビュー切替操作を受け付ける。ビュー切替操作は、たとえば文字単位ビューV1内に表示されるOKボタン(図示しない)を操作することに対応する。ビュー切替操作が入力されると、文字データ修正装置10はこれに応じ、出力手段50を介して、フィールド単位ビューを出力する(ステップS4)。たとえば出力手段50が液晶ディスプレイである場合には、出力は画面における表示として行われる。
図6に、画面に表示されるフィールド単位ビューV2の構成の例を示す。フィールド単位ビューV2は、フィールド単位入力モードに対応する。フィールド単位ビューV2では、処理中の帳票グループに含まれる帳票イメージの1つについて、フィールドごとに、フィールドイメージ(または文字イメージ列)と文字コード列とが対応付けられて出力される。
画面における表示の場合には、フィールド単位ビューV2では、複数の文字イメージを含むフィールドイメージFについて、そのフィールドイメージFに含まれる文字イメージのそれぞれに対応する文字キャラクタCを、対応付けて表示できるようになっている(対応付け表示ステップ)。
図6は、後述の確認・修正作業(ステップS5)が行われる前の表示内容の例である。なお、図6の例では帳票イメージPも表示されているが、帳票イメージPの表示は省略してもよい。また、図6には一部のフィールドのみを示すが、実際はすべてのフィールドについて同様の表示が行われる。
フィールド単位ビューV2では、文字単位ビューV1とは異なり、文字イメージは精度に関わらず表示される。また、文字イメージまたは文字キャラクタは、精度およびチェック状態に応じ、異なる態様で表示される。
なお、同一のチェック状態にある同一の文字イメージについて、文字単位ビューV1における表示態様と、フィールド単位ビューV2における表示態様とが異なっていてもよい。たとえば本実施形態では、文字単位ビューV1において変更操作が行われ、フィールド単位ビューV2ではいずれの確認・修正操作も行われていない文字イメージについて、文字単位ビューV1では文字キャラクタの背景が赤色で表示されるが、フィールド単位ビューV2では青色で表示される。
文字イメージのうち、精度が第1の閾値(たとえば80)を超えるものについては、フィールド単位ビューV2の開始時点では、文字キャラクタを表示するとともに文字キャラクタの背景を白色で表示する(たとえば文字キャラクタC5)。
精度が第2の閾値(たとえば20)未満であるものについては、フィールド単位ビューV2の開始時点では、文字キャラクタとして所定の低精度指示記号(図6の例では「◆」記号)を表示するとともに、背景を白色で表示する(たとえば文字キャラクタC6)。このように精度が低い文字イメージは、OCR技術で適切に認識できなかった文字イメージ(いわゆる不読文字イメージまたはリジェクト判定された文字イメージ)に対応する。
文字単位ビューV1において確定操作が行われた文字イメージについては、フィールド単位ビューV2の開始時点では、文字キャラクタを表示するとともに文字キャラクタの背景を黄色で表示する(たとえば文字キャラクタC7)。
文字単位ビューV1において保留操作が行われた文字イメージについては、フィールド単位ビューV2の開始時点では、文字キャラクタとして所定の保留指示記号(図6の例では「■」記号)を表示するとともに、背景を青色で表示する(たとえば文字キャラクタC8)。また、文字単位ビューV1において変更操作が行われた文字イメージについては、フィールド単位ビューV2では、文字キャラクタを表示するとともに文字キャラクタの背景を青色で表示する(たとえば文字キャラクタC9)。
なお、フィールド単位ビューV2における変更操作により文字コードが入力された文字イメージは、保留が解除されたものとして扱われる。すなわち、文字単位ビューV1において保留操作が行われていた文字イメージであっても、その後フィールド単位ビューV2において文字コードが入力された文字イメージについては、「■」記号ではなく、その入力された文字コードに係る文字キャラクタが表示される。
このように、文字データ修正装置10は、文字単位ビューV1において変更された文字イメージに係る文字キャラクタ(文字キャラクタをそのまま表示し、背景が青色)と、変更されていない文字イメージに係る文字キャラクタ(特定の記号を用いるか、または背景が青色以外の色)とを、フィールド単位ビューV2の開始時点において、それぞれ異なる態様で表示する。
また、文字データ修正装置10は、保留された文字イメージに係る文字キャラクタ(「■」記号を用いる)と、保留されていない文字イメージに係る文字キャラクタ(それ以外の文字または記号を用いる)とについて、フィールド単位ビューV2の対応付け表示ステップにおいてそれぞれ異なる態様で表示する。このため、保留された文字イメージとそうでない文字イメージとが識別しやすく、フィールド単位ビューV2においてオペレータがとくに注意して確認すべき文字イメージを一目で把握することができる。これによって、作業対象となる文字イメージの量が実質的に低減されるので、確認・修正作業の効率が向上する。
また、本実施形態では、精度が低いために文字単位ビューV1において表示されなかった文字イメージについては、フィールド単位ビューV2において文字キャラクタとして低精度指示記号(「◆」記号)を用いる。したがって、オペレータは、とくに注意して確認すべき文字イメージを一目で把握することができ、作業対象となる文字イメージの量が実質的に低減されるので、確認・修正作業の効率が向上する。なお、フィールド単位ビューV2では、文字単位ビューV1とは異なり、その文字イメージだけでなく前後の文字イメージも表示されるので、文字イメージの判読はより容易になる。
ステップS4の後、文字データ修正装置10は、入力手段40を介して、確認・修正操作を受け付ける(ステップS5)。ここで、オペレータは、表示されたフィールドイメージと文字キャラクタ列との関係を確認しつつ、各フィールドに含まれる文字キャラクタに対して確認・修正操作を行うことができる。
ステップS5での確認・修正操作として、文字データ修正装置10は、たとえば文字単位ビューV1と同様の確定操作および変更操作を受け付ける。なお、フィールド単位ビューV2における変更操作は、低精度指示記号または保留指示記号が表示されている文字イメージの文字コードを、任意の値に指定する操作を含む。
確認・修正操作が行われた文字イメージについては、行われた操作の内容に応じた表示が行われる。たとえば、この表示は、文字キャラクタの表示態様を変更することによって行われる。
フィールド単位ビューV2において確認・修正操作が行われた場合の表示態様の具体例はとくに図示しないが、たとえば、精度、文字単位ビューV1でのチェック状態、フィールド単位ビューV2でのチェック状態(たとえば確認・修正操作によって文字コードが変更されたか否か)、等に基づいて決定される。
また、フィールド単位ビューV2において、文字データ修正装置10は、いずれの確認・修正操作とも異なる所定の帳票終了操作を受け付ける。帳票終了操作は、たとえばフィールド単位ビューV2内に表示されるOKボタン(図示しない)を操作することに対応する。帳票終了操作が入力されると、文字データ修正装置10は、次の帳票イメージについてステップS4およびS5の処理を実行する。このようにして、すべての帳票イメージについてステップS4およびS5のループが実行される。
処理中の帳票グループに含まれるすべての帳票イメージについてステップS4およびS5の処理が終了すると、文字データ修正装置10は、次の帳票グループについてステップS1〜S5の処理を実行する。このようにして、すべての帳票グループについてステップS1〜S5のループが実行される。
以上説明するように、本発明の実施の形態1によれば、文字コードを修正する際に、オペレータが確認すべき文字イメージの量を低減できるので、確認・修正作業の効率が向上する。
また、文字単位ビューV1およびフィールド単位ビューV2という2種類の表示方式を併用するので、一方のビューですべての文字イメージをチェックする必要がない。文字単位ビューV1では同じ文字コードの文字イメージを一覧してチェックできるので全体的に効率が向上し、一方で、精度が高くチェックの必要性が低い文字イメージや、文字単位での判読が困難である文字イメージについては、フィールド単位ビューV2でより確実なチェックを行うことができる。
とくに、文字単位での判読が困難である文字イメージについては、フィールド単位ビューV2で特定の記号を用いるので、それらの文字イメージを一目で把握することができ、効率が向上する。
実施の形態1において、以下の様な変形を施すことができる。
実施の形態1では、対応付け表示ステップにおける表示態様の変更は、文字キャラクタの背景色の変更および特定の記号によって実現した。これは他の方法によってもよい。たとえば、文字キャラクタの文字色(前景色)の変更、書体の変更、または文字サイズの変更によってもよいし、文字キャラクタへの下線その他の修飾表示または特定の記号の付加によってもよい。また、文字キャラクタの表示態様の変更に代えて、またはこれに加えて、文字イメージの表示態様を同様に変更してもよい。
また、精度およびチェック状態とこれらの表示態様との関連付けは、文字データ修正装置10の管理者またはオペレータが任意に変更できるように構成してもよい。たとえば、チェック状態のそれぞれに対応する表示態様(たとえば文字キャラクタの背景色)、低精度指示記号を表す文字コード、保留指示記号を表す文字コード、等を特定の設定ファイルに定義しておき、文字データ修正装置10はこの設定ファイルを参照し、定義に従って態様を変更してもよい。
実施の形態1では、文字単位ビューV1において精度が低い文字イメージは表示されないが、これを表示するようにしてもよい。この場合、文字単位ビューV1の他の文字イメージと同様にして文字コードに対応する文字キャラクタを表示してもよいし、フィールド単位ビューV2と同様に低精度指示記号を表示してもよい。
文字単位ビューV1においては、同一の文字コードに対応する文字イメージと文字キャラクタとの組が、グループとして認識できる程度にまとまって表示されていればよく、文字コードの区切りは必ずしも画面単位でなくともよい。たとえば、アラビア数字の0から9までに対応する文字イメージと文字キャラクタとの組が、1画面内に、数字ごとにまとまって表示されてもよい。また、ページ切り替えやスクロール等を用いて表示されてもよい。ページ切り替えを用いる場合、1ページ内に表示する行数および列数は、管理者またはオペレータが任意に変更できるように構成してもよい。
実施の形態1では、文字単位ビューV1は各帳票グループに対して1回だけ表示され、フィールド単位ビューV2は各帳票イメージに対して1回だけ表示される。変形例として、これらは任意に表示可能であってもよい。たとえば、文字データ修正装置10は、ビュー切替操作を随時受け付け可能であってもよく、ビュー切替操作に応じて、文字単位ビューV1を表示するステップ(ステップS2)またはフィールド単位ビューV2を表示するステップ(ステップS4)を実行してもよい。
実施の形態1では、確認・修正作業の対象として帳票を扱ったが、確認・修正作業の対象となる文書は、複数のフィールドおよび文字イメージを含むものであれば他の種類の文書であってもよい。また、実施の形態1ではOCRによる認識結果を扱っているが、文字イメージに対して文字コードおよび精度を提供する技術であれば、OCR以外の技術に応用してもよい。
帳票グループの分類基準は、任意に設定することができる。たとえば、同一種類の帳票に対応する帳票イメージの集合を帳票グループとしてもよい。この場合には、たとえば注文書に対応する帳票イメージは、受信順によらず、また異なる注文者から送信されたものであっても、注文書に対応する同一の帳票グループに分類されることになる。この場合、例えば図2の帳票100は、帳票番号202の注文書を表示しているが、帳票番号202の注文書が同一の帳票グループに分類される。
またさらに、同一種類の帳票の中で、受信順に帳票グループを生成するように設定してもよい。この場合、帳票番号202の注文書の中で、受信順に早いものが、一定枚数(例えば50枚)ずつ、同一の帳票グループに分類される。
10 文字データ修正装置(コンピュータ)、C,C1〜C9 文字キャラクタ、F フィールドイメージ、I 文字イメージ、P 帳票イメージ、V1 文字単位ビュー、V2 フィールド単位ビュー。

Claims (4)

  1. コンピュータが、複数の文字イメージと、各文字イメージに関連付けられた文字コードおよび精度とを取得するステップと、
    前記コンピュータが、少なくとも1つの前記文字イメージについて、前記文字イメージと、前記文字コードに係る文字キャラクタとを対応させて表示する、対応付け表示ステップと、
    前記コンピュータが、対応付け表示ステップの対象となった前記文字イメージについて、前記文字コードを変更する変更操作を受け付けるステップと、
    文字単位ビューを表示するステップと、
    フィールド単位ビューを表示するステップと
    を備え、
    前記コンピュータは、前記精度が所定の閾値を超える前記文字イメージのうち少なくとも一部については、前記対応付け表示ステップを実行せず、
    前記コンピュータは、前記精度が前記閾値未満である前記文字イメージのうち少なくとも一部については、前記対応付け表示ステップを実行し、
    前記文字単位ビューにおいて、前記文字コードごとに、その文字コードが関連付けられた各文字イメージと、各文字イメージの文字コードに係る前記文字キャラクタとが表示可能であり、
    前記フィールド単位ビューにおいて、複数の前記文字イメージを含むフィールドイメージについて、前記フィールドイメージに含まれる文字イメージのそれぞれに対応する文字キャラクタが表示可能であり、
    前記コンピュータは、所定のビュー切替操作に応じて、前記文字単位ビューを表示する前記ステップまたは前記フィールド単位ビューを表示する前記ステップを実行する、
    文字データ修正方法。
  2. 前記コンピュータは、
    文字コードが変更されていない文字イメージ、または、文字コードが変更されていない文字イメージに係る文字キャラクタと、
    前記変更操作に基づき文字コードが変更された文字イメージ、または、前記変更操作に基づき文字コードが変更された文字イメージに係る文字キャラクタと
    を、前記対応付け表示ステップにおいてそれぞれ異なる態様で表示する、請求項1に記載の方法。
  3. 請求項1または2に記載の方法を実行する、文字データ修正装置。
  4. コンピュータを請求項3に記載の装置として機能させるプログラム。
JP2014178030A 2014-09-02 2014-09-02 文字データ修正方法、文字データ修正装置およびプログラム Active JP5661214B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014178030A JP5661214B1 (ja) 2014-09-02 2014-09-02 文字データ修正方法、文字データ修正装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014178030A JP5661214B1 (ja) 2014-09-02 2014-09-02 文字データ修正方法、文字データ修正装置およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014057816A Division JP5632110B1 (ja) 2014-03-20 2014-03-20 文字データ修正方法、文字データ修正装置およびプログラム

Publications (2)

Publication Number Publication Date
JP5661214B1 JP5661214B1 (ja) 2015-01-28
JP2015185157A true JP2015185157A (ja) 2015-10-22

Family

ID=52437547

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014178030A Active JP5661214B1 (ja) 2014-09-02 2014-09-02 文字データ修正方法、文字データ修正装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5661214B1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151793A (ja) * 2016-02-25 2017-08-31 沖電気工業株式会社 画像切出し装置、画像切出し方法および画像切出し処理プログラム
JP2020052502A (ja) * 2018-09-25 2020-04-02 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2023238411A1 (ja) * 2022-06-10 2023-12-14 株式会社 東芝 蓄電池選択支援装置、方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023004111A (ja) * 2021-06-25 2023-01-17 ローレルバンクマシン株式会社 情報処理装置及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668299A (ja) * 1992-08-19 1994-03-11 Hitachi Ltd 読み取り結果表示方法、読み取り結果修正方法、およびデータ読み取り装置
JPH09106434A (ja) * 1995-10-11 1997-04-22 Hiroyuki Katsuyama Ocrの誤読修正方法
JPH09114918A (ja) * 1995-10-18 1997-05-02 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム
JP2004038348A (ja) * 2002-06-28 2004-02-05 Internatl Business Mach Corp <Ibm> 表示制御方法、これを用いたプログラム、情報処理装置及び光学式文字読み取り装置
JP2004341754A (ja) * 2003-05-14 2004-12-02 Matsushita Electric Ind Co Ltd 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム
JP2008084126A (ja) * 2006-09-28 2008-04-10 Canon Inc 文字認識システムにおける文字修正確認方法
JP2013077157A (ja) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> 光学式文字認識で生成したテキストデータの校正を支援するためのシステム、方法、プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668299A (ja) * 1992-08-19 1994-03-11 Hitachi Ltd 読み取り結果表示方法、読み取り結果修正方法、およびデータ読み取り装置
JPH09106434A (ja) * 1995-10-11 1997-04-22 Hiroyuki Katsuyama Ocrの誤読修正方法
JPH09114918A (ja) * 1995-10-18 1997-05-02 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2003242441A (ja) * 2002-02-15 2003-08-29 Glory Ltd 帳票処理方法および装置並びにプログラム
JP2004038348A (ja) * 2002-06-28 2004-02-05 Internatl Business Mach Corp <Ibm> 表示制御方法、これを用いたプログラム、情報処理装置及び光学式文字読み取り装置
JP2004341754A (ja) * 2003-05-14 2004-12-02 Matsushita Electric Ind Co Ltd 文字認識結果修正装置及びその方法並びに文字認識結果修正プログラム
JP2008084126A (ja) * 2006-09-28 2008-04-10 Canon Inc 文字認識システムにおける文字修正確認方法
JP2013077157A (ja) * 2011-09-30 2013-04-25 Internatl Business Mach Corp <Ibm> 光学式文字認識で生成したテキストデータの校正を支援するためのシステム、方法、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151793A (ja) * 2016-02-25 2017-08-31 沖電気工業株式会社 画像切出し装置、画像切出し方法および画像切出し処理プログラム
JP2020052502A (ja) * 2018-09-25 2020-04-02 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7271889B2 (ja) 2018-09-25 2023-05-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2023238411A1 (ja) * 2022-06-10 2023-12-14 株式会社 東芝 蓄電池選択支援装置、方法およびプログラム

Also Published As

Publication number Publication date
JP5661214B1 (ja) 2015-01-28

Similar Documents

Publication Publication Date Title
US10192329B2 (en) Electronic device which displays and outputs function formula data, data output method, and computer readable medium
JP5661214B1 (ja) 文字データ修正方法、文字データ修正装置およびプログラム
US10585500B2 (en) Input display device and input display method
US10366142B2 (en) Identifier based glyph search
US10359864B2 (en) Input display device and input display method
US20190205361A1 (en) Table-meaning estimating system, method, and program
JP5632110B1 (ja) 文字データ修正方法、文字データ修正装置およびプログラム
CN116311300A (zh) 表格生成方法、装置、电子设备以及存储介质
JP2007048272A (ja) 文字列検索装置およびプログラム
WO2014125658A1 (ja) 文字認識システム、文字認識プログラム及び文字認識方法
CN104156345A (zh) 识别便携文件格式文件中图注的方法和装置
US11972208B2 (en) Information processing device and information processing method
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
US20200192610A1 (en) Computer-readable storage medium storing a program and input format setting method
JP6657799B2 (ja) 図形処理装置、図形処理方法、および、図形処理プログラム
CN111079403B (zh) 一种页面对比方法及装置
US20230260308A1 (en) System and method for improved ocr efficacy through image segmentation
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP2017102587A (ja) 情報処理装置、画像読み取り装置、画像形成装置、および、プログラム
CN111444751B (zh) 信息处理装置、储存介质及信息处理方法
WO2014203905A2 (ja) 符号抽出方法、符号抽出装置及びプログラム
JP7178445B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230099764A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20210303842A1 (en) Information processing device and non-transitory computer readable medium
JP5315890B2 (ja) 評価システムおよび評価方法

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20141024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141202

R150 Certificate of patent or registration of utility model

Ref document number: 5661214

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250