JP2021114192A

JP2021114192A - 情報処理装置及びプログラム

Info

Publication number: JP2021114192A
Application number: JP2020007032A
Authority: JP
Inventors: 直樹岡本; Naoki Okamoto
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2021-08-05
Anticipated expiration: 2040-01-20
Also published as: US20210224530A1; US11482026B2; JP7467928B2

Abstract

【課題】文書に記入された文字を認識した結果を、文書ごとに表示する第１表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第２表示モードとを有する構成において、第２表示モードにおいて、画面の表示速度を上げる。【解決手段】情報処理装置は、文書を示す文書画像と、文書画像中の文字が記入されている部分である部分画像と、文字の文字認識結果とを取得し、第１表示モードにおいては、第１文書画像と、第１文書画像に含まれる第１文字の文字認識結果である第１文字認識結果と、第１文字認識結果に対応する第１部分画像とを、文書ごとに表示し、第２表示モードにおいては、複数の文書における第２文字の文字認識結果である第２文字認識結果を、複数の文書において共通した文字ごとに、第２文字認識結果に対応する第２部分画像とともに表示し、文書画像を表示しないようにする。【選択図】図７

Description

本発明は、情報処理装置及びプログラムに関する。

文書を電子化する技術がある。例えば特許文献１には、定型フォームに所定事項を記入した伝票をフォーム部と記入部分とに分離してデータを生成する技術が記載されている。

特開平５−２６６２４７号公報

文字認識技術を用いて文書画像に含まれる文字を認識した後、人がその文字認識結果を確認できるように、文字認識結果を表示する場合がある。文字認識結果を表示する方法としては、例えば文書に記入された文字を認識した結果を、文書ごとに表示する方法と、複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとにまとめて表示する方法とが考えられる。その表示に際しては文字を認識した結果とともに、文書を示す文書画像を表示することが知られている。しかし、複数の文書において共通した文字ごとに、文字を認識した結果を表示する場合、文字を認識した結果とともに文書画像を表示しようとすると、該複数の文書の文書画像の取得が必要となり、画面の表示速度が低下してしまう。
本発明は、文書に記入された文字を認識した結果を、文書ごとに表示する第１表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第２表示モードとを有する構成において、第２表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度を上げることを目的とする。

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、第１表示モードにおいては、第１文書画像と、前記第１文書画像に含まれる第１文字の文字認識結果である第１文字認識結果と、前記第１文字認識結果に対応する第１部分画像とを、文書ごとに表示し、第２表示モードにおいては、複数の文書における第２文字の文字認識結果である第２文字認識結果を、複数の文書において共通した文字ごとに、前記第２文字認識結果に対応する第２部分画像とともに表示し、前記文書画像を表示しないようにする、ことを特徴とする情報処理装置である。

請求項２に係る発明は、請求項１に記載の情報処理装置において、前記プロセッサは、前記第２表示モードでは、前記第２文字が記入される前の前記文書を示す他の文書画像をさらに表示することを特徴とする。

請求項３に係る発明は、請求項２に記載の情報処理装置において、前記プロセッサは、前記第２表示モードでは、利用者の操作に応じて、前記他の文書画像を表示することを特徴とする。

請求項４に係る発明は、請求項２又は３に記載の情報処理装置において、前記プロセッサは、前記他の文書画像中に、前記第２部分画像を表示することを特徴とする。

請求項５に係る発明は、請求項４に記載の情報処理装置において、前記プロセッサは、利用者の操作に応じて、前記他の文書画像中に前記第２部分画像を表示することを特徴とする。

請求項６に係る発明は、請求項４に記載の情報処理装置において、前記プロセッサは、前記第２文字に予め定められた範囲からはみ出した文字が含まれる場合には、前記はみ出した文字を含む第２部分画像を表示することを特徴とする。

請求項７に係る発明は、請求項１から６のいずれか１項に記載の情報処理装置において、前記プロセッサは、前記第２文字認識結果が予め定められた条件を満たさない場合には、前記第２文字が記入された前記文書を示す第２文書画像を表示することを特徴とする。

請求項８に係る発明は、請求項７に記載の情報処理装置において、前記第２文字認識結果のうち前記予め定められた条件を満たさない文字認識結果の数が閾値以上である場合には、前記第２文書画像を表示することを特徴とする。

請求項９に係る発明は、コンピュータに、文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得するステップと、第１表示モードにおいては、第１文書画像と、前記第１文書画像に含まれる第１文字の文字認識結果である第１文字認識結果と、前記第１文字認識結果に対応する第１部分画像とを、文書ごとに表示するステップと、第２表示モードにおいては、複数の文書における第２文字の文字認識結果である第２文字認識結果を、複数の文書において共通した文字ごとに、前記第２文字認識結果に対応する第２部分画像とともに表示し、前記文書画像を表示しないようにするステップと、を実行させるためのプログラムである。

請求項１に係る発明によれば、文書に記入された文字を認識した結果を、文書ごとに表示する第１表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第２表示モードとを有する構成において、第２表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度が上がる。
請求項２に係る発明によれば、文字が記入された文書の形式を確認することができる。
請求項３に係る発明によれば、必要に応じて、文字が記入された文書の形式を確認することができる。
請求項４に係る発明によれば、文字が記入された文書の形式とともに、その記入内容を確認することができる。
請求項５に係る発明によれば、必要に応じて、文字が記入された文書の形式とともに、その記入内容を確認することができる。
請求項６に係る発明によれば、予め定められた範囲からはみ出した文字を、その文字が記入された文書の形式とともに確認することができる。
請求項７に係る発明によれば、第２文字認識結果が予め定められた条件を満たさない場合には、文字が記入されている文書を示す文書画像を確認することができる。
請求項８に係る発明によれば、予め定められた条件を満たさない文字認識結果の数が閾値以上である場合には、文字が記入された文書を示す文書画像を確認することができる。
請求項９に係る発明によれば、文書に記入された文字を認識した結果を、文書ごとに表示する第１表示モードと複数の文書に記入された文字を認識した結果を、複数の文書において共通した文字ごとに表示する第２表示モードとを有する構成において、第２表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像とともに画面に表示する場合に比べて、画面の表示速度が上がる。

実施形態に係る文字認識システム１００の構成の一例を示す図である。クライアント装置１１０の構成の一例を示す図である。フォーム画像１４０、文書画像１５０、部分画像１６０、及び文字認識結果１７０の一例を示す図である。対応テーブル１８０の一例を示す図である。実施形態に係るクライアント装置１１０の動作の一例を示すフローチャートである。通常表示モードの確認画面２００の一例を示す図である。串刺し表示モードの確認画面２１０の一例を示す図である。

１．構成
図１は、本実施形態に係る文字認識システム１００の構成の一例を示す図である。文字認識システム１００は、文書を示す画像に含まれる文字を認識した結果を利用者が確認できるようにするシステムである。利用者は、この文字認識の結果が誤っている場合には、文字認識の結果を訂正してもよい。利用者による確認が行われた後、文字認識の結果は保存されてもよい。なお、ここでいう「文字」とは、言語の文字に限定されず、数字や記号も含むものとする。文字認識システム１００は、クライアント装置１１０とサーバ装置１２０とを備える。これらの装置は、通信回線１３０を介して接続されている。

図２は、クライアント装置１１０の構成の一例を示す図である。クライアント装置１１０は、コピー機能、プリント機能、スキャン機能、ファクシミリ機能等の画像を処理する複数の機能を有する。クライアント装置１１０は、文書をスキャンすることにより得られる画像をサーバ装置１２０に提供する。また、クライアント装置１１０は、サーバ装置１２０がこの画像に含まれる文字を認識した結果を利用者に提示する。なお、クライアント装置１１０は、本発明に係る情報処理装置の一例である。クライアント装置１１０は、プロセッサ１１１と、メモリ１１２と、通信部１１３と、操作部１１４と、表示部１１５と、画像読取部１１６と、画像形成部１１７とを備える。これらの部位はバス１１８を介して接続されている。

プロセッサ１１１は、プログラムを実行することにより、クライアント装置１１０の各部を制御し又は各種の処理を行う。プロセッサ１１１には、例えばＣＰＵ（Central Processing Unit）が用いられてもよい。メモリ１１２には、プロセッサ１１１により実行されるプログラムが記憶される。メモリ１１２には、例えばＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）が用いられてもよい。メモリ１１２には、文字認識の結果を利用者が確認できるようにする機能を実現するためのプログラムが記憶されている。また、メモリ１１２には、ウェブブラウザが記憶されていてもよい。この場合、クライアント装置１１０とサーバ装置１２０との間のデータのやり取りはウェブブラウザを介して行われてもよい。通信部１１３は、通信回線１３０を介して接続された他の装置とデータ通信を行う。操作部１１４は、利用者によるクライアント装置１１０の操作に用いられる。操作部１１４には、例えばタッチパネルとキーとが用いられてもよい。表示部１１５は、各種の情報を表示する。表示部１１５には、例えば液晶ディスプレイが用いられてもよい。画像読取部１１６は、画像を読み取って画像データに変換する。画像読取部１１６には、例えばイメージスキャナが用いられてもよい。画像形成部１１７は、画像データに応じた画像を用紙等の媒体上に形成する。画像形成部１１７には、例えばプリンターが用いられてもよい。

サーバ装置１２０は、クライアント装置１１０から提供された文書画像１５０に文字認識処理を施し、文字認識の結果をクライアント装置１１０に提供する。サーバ装置１２０には、フォーム画像１４０と、文書画像１５０と、部分画像１６０と、文字認識結果１７０と、対応テーブル１８０とが格納されている。

図３は、フォーム画像１４０、文書画像１５０、部分画像１６０、及び文字認識結果１７０の一例を示す図である。この例では、フォーム画像１４０には、フォーム画像１４１〜１４３が含まれる。フォーム画像１４１〜１４３は、それぞれ「帳票Ａ」〜「帳票Ｃ」という文書のフォームを示す画像である。すなわち、フォーム画像１４１〜１４３は、それぞれ文字が記入される前の白紙の文書を示す。これらの文書は、それぞれ予め定められた形式を有する。フォーム画像１４１には、予め定められた範囲の記入枠１４１１及び１４１２が含まれる。この記入枠１４１１及び１４１２には、記入者により文字が記入される。ただし、フォーム画像１４１は、記入者により文字が記入される前の状態を示すため、記入枠１４１１及び１４１２には文字が記載されていない。同様に、フォーム画像１４２、１４３には、それぞれ記入枠１４１２と同様の記入枠１４２１、１４３１が含まれる。ただし、フォーム画像１４２、１４３は、それぞれ記入者により文字が記入される前の状態を示すため、記入枠１４２１、１４３１には文字が記載されていない。なお、フォーム画像１４０は、本発明に係る他の文書画像の一例である。

文書画像１５０には、文書画像１５１〜１５３が含まれる。文書画像１５１〜１５３は、それぞれ文字が記入されている「帳票Ａ」〜「帳票Ｃ」という文書を示す。文書画像１５１〜１５３は、文書全体を示す画像であってもよいし、文書が複数の頁を有する場合には文書の各頁を示す画像であってもよい。例えばフォーム画像１４１を用紙に形成することにより記入用紙が作成される。第１記入者は記入用紙の記入枠１４１１及び１４１２に手書きで文字を記入する。この記入用紙をスキャンすることにより文書画像１５１が得られる。なお、文字を記入する方法は手書きに限定されず、印字により記入されてもよい。同様に、第２記入者、第３記入者は、それぞれフォーム画像１４２、１４３を用紙に形成することにより作成された記入用紙の記入枠１４２１、１４３１に手書きで文字を記入する。この記入用紙をスキャンすることにより文書画像１５２、１５３が得られる。

部分画像１６０には、部分画像１６１〜１６４が含まれる。部分画像１６１〜１６４は、それぞれ文書画像１５１〜１５３のいずれかにおいて文字が記入されている部分を示す。部分画像１６１〜１６４は、それぞれ文書画像１５１〜１５３のいずれかから文字が記入されている部分を切り出すことにより生成される。例えば文書画像１５１から記入枠１４１１、１４１２の部分を切り出すことにより部分画像１６１、１６２がそれぞれ生成される。同様に、文書画像１５２、１５３から記入枠１４２１、１４３１の部分を切り出すことにより部分画像１６３、１６４がそれぞれ生成される。また、サーバ装置１２０は、文字が記入枠からはみ出していることを検知するはみ出し検知機能を有する。なお、このはみ出し検知機能は、例えば既知の方法を用いて実現される。はみ出し検知機能によりはみ出しが検知された場合には、文書画像１５０において文字が記入されている部分を、記入枠より大きい範囲で切り出すことにより、部分画像１６０が生成されてもよい。これにより、記入枠から文字がはみ出している場合には、記入枠からはみ出した文字の部分も部分画像１６０に含まれる。

文字認識結果１７０には、文字認識結果１７１〜１７４が含まれる。文字認識結果１７１〜１７４は、文書画像１５１〜１５３のいずれかに含まれる文字を認識した結果を示す。文書画像１５１〜１５３には、文書画像１５１〜１５３の形式に従って文字認識処理が施される。この文字認識処理には、例えばＯＣＲ（Optical character recognition）が用いられてもよい。例えば文字認識結果１７１、１７２は、それぞれ文書画像１５１の記入枠１４１１、１４１２に記入された「富士太郎」、「２」という文字を認識することにより得られる。同様に、文字認識結果１７３、１７４は、それぞれ文書画像１５２、１５３の記入枠１４２１、１４３１に記入された「２」という文字を認識することにより得られる。

図４は、対応テーブル１８０の一例を示す図である。対応テーブル１８０には、文書画像ＩＤと、フォーム画像ＩＤと、部分画像ＩＤと、位置情報と、文字認識結果ＩＤとが含まれる。文書画像ＩＤは、文書画像１５０を一意に識別する情報である。フォーム画像ＩＤは、フォーム画像１４０を一意に識別する情報である。部分画像ＩＤは、部分画像１６０を一意に識別する情報である。位置情報は、文書画像１５０における部分画像１６０の位置を示す情報である。位置情報には、部分画像１６０に対応する記入枠を一意に識別する情報が用いられてもよい。ただし、位置情報は、記入枠を一意に識別する情報に限定されず、文書画像１５０における部分画像１６０の位置座標であってもよい。文字認識結果ＩＤは、文字認識結果１７０を一意に識別する情報である。

図４に示す対応テーブル１８０では、文書画像１５１の文書画像ＩＤには、フォーム画像１４１のフォーム画像ＩＤと、部分画像１６１及び１６２の部分画像ＩＤと、記入枠１４１１及び１４１２の記入枠ＩＤと、文字認識結果１７１及び１７２の文字認識結果ＩＤとが対応付けられている。これは、フォーム画像１４１は文字が記入される前の「帳票Ａ」という文書を示す画像であり、文書画像１５１は部分画像１６１及び１６２を含み、文書画像１５１に含まれる文字を認識することにより文字認識結果１７１及び１７２が得られることを示す。また、部分画像１６１の部分画像ＩＤには、記入枠１４１１を示す位置情報が対応付けられている。これは、部分画像１６１は、文書画像１５１において記入枠１４１１のところに位置することを示す。

サーバ装置１２０に格納された文字認識結果１７０は、利用者によりクライアント装置１１０を用いて確認される。このとき、クライアント装置１１０が文字認識結果１７０を表示する方法には、通常表示モードと串刺し表示モードとが含まれる。

通常表示モードは、文書毎に文字認識結果１７０を表示する表示モードである。通常表示モードでは、対象の文書を示す文書画像１５０と、その文書画像１５０に含まれる文字の文字認識結果１７０と、その文字認識結果１７０に対応する部分画像１６０とが文書ごとに表示される。通常表示モードは、例えば単一の文書を通して文字認識結果１７０の整合性を確認するのに用いられる。なお、通常表示モードは、本発明に係る第１表示モードの一例である。また、通常表示モードにおいて表示される文書画像１５０、文字認識結果１７０、部分画像１６０は、それぞれ本発明に係る第１文書画像、第１文字認識結果、第１部分画像の一例である。

串刺し表示モードは、複数の文書において共通する複数の文字認識結果１７０をまとめて表示する表示モードである。串刺し表示モードでは、複数の文書における文字の文字認識結果１７０を、複数の文書において共通した文字ごとに、その文字認識結果１７０に対応する部分画像１６０とともに表示されるが、文書画像１５０は基本的には表示されない。この共通する文字には、例えば確認をしたことを示す記号、確認をしていないことを示す記号、同じ数字又は文字が含まれる。串刺し表示モードは、例えば複数の文書において共通する文字認識結果１７０を迅速且つ効率的に確認するのに用いられる。なお、串刺し表示モードは、本発明に係る第２表示モードの一例である。また、串刺し表示モードにおいて表示される文字認識結果１７０、部分画像１６０は、それぞれ本発明に係る第２文字認識結果、第２部分画像の一例である。

２．動作
以下の説明において、プロセッサ１１１を処理の主体として記載する場合、これは、それぞれメモリ１１２に記憶されたプログラムと、このプログラムを実行するプロセッサ１１１との協働により、プロセッサ１１１が演算を行い又は他のハードウェア要素の動作を制御することにより、処理が行われることを意味する。

図５は、本実施形態に係るクライアント装置１１０の動作の一例を示すフローチャートである。この動作は、利用者がサーバ装置１２０に格納された文字認識結果１７０を確認するときに行われる。

ステップＳ１１において、プロセッサ１１１は、利用者の操作に応じて複数の文書を選択する。例えば図３に示される「帳票Ａ」〜「帳票Ｃ」という文書に含まれる文字の文字認識結果１７０を確認する場合、利用者は、操作部１１４を用いて「帳票Ａ」〜「帳票Ｃ」という文書を選択する操作を行う。この操作に応じて、「帳票Ａ」〜「帳票Ｃ」という文書が選択される。

ステップＳ１２において、プロセッサ１１１は、利用者の操作に応じて文字認識結果１７０を通常表示モードで表示するか串刺し表示モードで表示するかを選択する。例えば利用者が操作部１１４を用いて通常表示モードを選択する操作を行った場合、この操作に応じて通常表示モードが選択される。この場合、ステップＳ１２の判定は通常表示モードとなり、処理はステップＳ１３に進む。

ステップＳ１３において、プロセッサ１１１は、サーバ装置１２０から対象文書の文書画像１５０を取得する。この対象文書は、ステップＳ１１において選択された複数の文書のいずれかの文書である。例えば対象文書は、ステップＳ１１において選択された最初の文書であってもよいし、ステップＳ１１において選択された複数の文書の中から利用者の操作に応じて選択された文書であってもよい。具体的にはプロセッサ１１１は、サーバ装置１２０に対象文書の文書画像１５０の取得要求を通信部１１３から送信する。サーバ装置１２０は、この取得要求に応じてこの文書画像１５０をクライアント装置１１０に送信する。プロセッサ１１１は、サーバ装置１２０から送信された文書画像１５０を通信部１１３にて受信する。

ステップＳ１４において、プロセッサ１１１は、サーバ装置１２０から対象文書の部分画像１６０と文字認識結果１７０とを取得する。具体的にはプロセッサ１１１は、サーバ装置１２０に対象文書の部分画像１６０と文字認識結果１７０の取得要求を通信部１１３から送信する。サーバ装置１２０は、この取得要求に応じてこれらの部分画像１６０及び文字認識結果１７０をクライアント装置１１０に送信する。プロセッサ１１１は、サーバ装置１２０から送信された部分画像１６０及び文字認識結果１７０を通信部１１３にて受信する。ここでは、対象文書が、図３に示す「帳票Ａ」という文書であるものとする。図４に示す対応テーブル１８０では、「帳票Ａ」という文書を示す文書画像１５１の文書画像ＩＤと、部分画像１６１及び１６２の部分画像ＩＤと、文字認識結果１７１及び１７２の文字認識結果ＩＤとが対応付けられている。この場合、部分画像１６１及び１６２と文字認識結果１７１及び１７２とが取得される。

ステップＳ１５において、プロセッサ１１１は、ステップＳ１３及びＳ１４において取得された対象文書の文書画像１５０、部分画像１６０、及び文字認識結果１７０に基づいて、通常表示モードの確認画面２００を表示部１１５に表示する。

図６は、通常表示モードの確認画面２００の一例を示す図である。ここでは、ステップＳ１３において文書画像１５１が取得され、ステップＳ１４において部分画像１６１及び１６２と文字認識結果１７１及び１７２とが取得されたものとする。確認画面２００は、領域２０１と領域２０２とに分割されている。領域２０１には、文書画像１５１が表示される。領域２０２には、部分画像１６１と文字認識結果１７１、部分画像１６２と文字認識結果１７２とがそれぞれ対応する位置に表示される。利用者は、この確認画面２００を見ることにより、「帳票Ａ」という文書の文書画像１５１全体を参照しながら、この文書画像１５１に含まれる文字の文字認識結果１７１及び１７２を、その文字が記入された部分を示す部分画像１６１及び１６２と対比しながら確認する。

なお、図６に示す確認画面２００が表示された後、例えば利用者が操作部１１４を用いて対象文書を「帳票Ａ」という文書から他の文書に変更する操作を行うと、変更後の文書についてステップＳ１３以降の処理が行われてもよい。

一方、上述したステップＳ１２において、例えば利用者が操作部１１４を用いて串刺し表示モードを選択する操作を行った場合、この操作に応じて串刺し表示モードが選択される。この場合、ステップＳ１２の判定は串刺し表示モードとなり、処理はステップＳ１６に進む。また、このとき、利用者は、操作部１１４を用いて表示条件を設定する操作を行う。例えば「２」という文字を文字認識した結果だけを見たい場合、「２」という文字を含むことを示す表示条件が設定される。

ステップＳ１６において、プロセッサ１１１は、サーバ装置１２０からステップＳ１１において選択された複数の文書のいずれかに対応し、表示条件を満たす部分画像１６０及び文字認識結果１７０を取得する。具体的な取得方法は、上述したステップＳ１４と同様である。ここでは、ステップＳ１１において選択された文書が「帳票Ａ」〜「帳票Ｃ」という文書であり、「２」という文字を含むことを示す表示条件が設定されたものとする。図４に示す対応テーブル１８０では、「帳票Ａ」〜「帳票Ｃ」という文書を示す文書画像１５１〜１５３の文書画像ＩＤと、文字認識結果１７１〜１７４の文字認識結果ＩＤと、部分画像１６１〜１６４の部分画像ＩＤとが対応付けられている。また、図３に示されるように、文字認識結果１７１は「２」という文字を含まず、文字認識結果１７２〜１７４は「２」という文字を含む。さらに、図４に示す対応テーブル１８０では、文字認識結果１７２〜１７４の文字認識ＩＤと、部分画像１６２〜１６４の部分画像ＩＤとが対応付けられている。この場合、文字認識結果１７２〜１７４と部分画像１６２〜１６４とが取得される。

ステップＳ１７において、プロセッサ１１１は、ステップＳ１６において取得された部分画像１６０及び文字認識結果１７０に基づいて、串刺し表示モードの確認画面２１０を表示部１１５に表示する。このとき、プロセッサ１１１は、図６に示す確認画面２００とは異なり、文書画像１５０を表示しないようにする。

図７は、串刺し表示モードの確認画面２１０の一例を示す図である。ここでは、ステップＳ１６において文字認識結果１７２〜１７４と部分画像１６２〜１６４とが取得されたものとする。ステップＳ１７では、図７（ａ）に示す確認画面２１０が表示される。確認画面２１０は、領域２１１と領域２１２とに分割されている。図７（ａ）に示す確認画面２１０においては、領域２１１には何の画像も表示されない。領域２１２には、ステップＳ１６において取得された部分画像１６２と文字認識結果１７２、部分画像１６３と文字認識結果１７３、部分画像１６４と文字認識結果１７４とがそれぞれ対応する位置に表示される。文字認識結果１７２〜１７４は、いずれも「２」という文字を認識した結果を示す。利用者は、この確認画面２１０を見ることにより、「帳票Ａ」〜「帳票Ｃ」という文書に含まれる「２」という文字の文字認識結果１７２〜１７４を、その文字が記入された部分を示す部分画像１６２〜１６４と対比しながら確認する。

ステップＳ１８において、プロセッサ１１１は、フォーム画像１４０の表示が指示されたか否かを判定する。例えばステップＳ１７において表示された確認画面２１０において、利用者が操作部１１４を用いて部分画像１６０のいずれかを選択する操作を行うと、選択された部分画像１６０に対応する対象文書のフォーム画像１４０の表示が指示されたと判定される。例えば図７（ａ）に示す確認画面２１０において、文字認識結果１７２に誤りがあり、文字認識結果１７２を訂正するのに周囲の記載を見る必要がある場合、利用者は部分画像１６２を選択する操作を行ってもよい。この部分画像１６２を選択する操作は、例えば部分画像１６２及び文字認識結果１７２を含む範囲を選択する操作であってもよい。フォーム画像１４０の表示が指示されていない場合、ステップＳ１８の判定がＮＯになり、処理は終了する。一方、フォーム画像１４０の表示が指示された場合、ステップＳ１８の判定がＹＥＳになり、処理はステップＳ１９に進む。

ステップＳ１９において、プロセッサ１１１は、サーバ装置１２０から対象文書のフォーム画像１４０と選択された部分画像１６０の位置情報とを取得する。具体的にはプロセッサ１１１は、サーバ装置１２０に対象文書のフォーム画像１４０及び選択された部分画像１６０の位置情報の取得要求を通信部１１３から送信する。サーバ装置１２０は、この取得要求に応じてこれらのフォーム画像１４０及び位置情報をクライアント装置１１０に送信する。プロセッサ１１１は、サーバ装置１２０から送信されたフォーム画像１４０及び位置情報を通信部１１３にて受信する。ここでは、図７（ａ）に示される確認画面２１０において、部分画像１６２を選択する操作が行われたものとする。この場合、「帳票Ａ」という文書が対象文書となる。図４に示す対応テーブル１８０では、部分画像１６２の部分画像ＩＤと、フォーム画像１４１のフォーム画像ＩＤと、記入枠１４１２を示す位置情報とが対応付けられている。この場合、フォーム画像１４１と記入枠１４１２を示す位置情報とが取得される。

ステップＳ２０において、プロセッサ１１１は、対象文書のフォーム画像１４０を確認画面２１０上に表示する。このとき、プロセッサ１１１は、ステップＳ１９において取得された位置情報に基づいて、対象文書のフォーム画像１４０の上に対象の部分画像１６０を重ねて表示する。この場合、図７（ｂ）に示されるように、確認画面２１０の領域２１１には、「帳票Ａ」という文書の文字が記入される前の状態を示すフォーム画像１４１が表示される。また、このフォーム画像１４１上には、位置情報により示される記入枠１４１２の位置に部分画像１６２が重ねて表示される。すなわち、位置情報に従って部分画像１６２がフォーム画像１４１上にマッピングされ、フォーム画像１４１中に部分画像１６２が表示される。利用者は、この確認画面２１０を見ることにより、「帳票Ａ」という文書のフォーム画像１４１と、この文書において「２」という文字が記入された部分の部分画像１６２とを参照しながら、この文字を示す文字認識結果１７２を確認する。なお、図７（ａ）及び図７（ｂ）に示す確認画面２１０には、文書画像１５０は表示されない。これは、串刺し表示モードにおいて表示される確認画面２１０は複数の文書において共通する文字認識結果１７０を迅速且つ効率的に確認するために用いられるため、文書画像１５０を表示しなくても足りると考えられるためである。

ステップＳ２１において、プロセッサ１１１は、対象文書の文書画像１５０の表示が指示されたか否かを判定する。例えばステップＳ２０において表示された確認画面２１０において、利用者が操作部１１４を用いて領域２１１に含まれる部分画像１６０を選択する操作を行うと、対象文書の文書画像１５０の表示が指示されたと判定される。例えば図７（ｂ）に示される確認画面２１０において、文字が記入枠から大きくはみ出していることにより文字認識結果１７２に誤りが発生したと考えられる場合には、文字認識結果１７２を訂正するのに対象文書を示す文書画像１５１全体の見た方がよいと考えられる。このような場合には、図７（ｂ）に示される確認画面２１０において、領域２１１に含まれる部分画像１６２を選択する操作が行われてもよい。文書画像１５０の表示が指示されていない場合、ステップＳ２１の判定がＮＯになり、処理は終了する。一方、文書画像１５０の表示が指示された場合、ステップＳ２１の判定がＹＥＳになり、処理はステップＳ２２に進む。

ステップＳ２２において、プロセッサ１１１は、サーバ装置１２０から対象文書の文書画像１５０を取得する。具体的な取得方法は、上述したステップＳ１３と同様である。ここでは、図７（ｂ）に示される確認画面２１０において、領域２１１に含まれる部分画像１６２が選択されたものとする。図４に示される対応テーブル１８０では、部分画像１６２の部分画像ＩＤと文書画像１５１の文書画像ＩＤとが対応付けられている。この場合、文書画像１５１が取得される。

ステップＳ２３において、プロセッサ１１１は、ステップＳ２２において取得された文書画像１５０を確認画面２１０上に表示する。なお、この文書画像１５０は、本発明に係る第２文書画像の一例である。ここでは、ステップＳ２２において文書画像１５１が取得されたものとする。この場合、図７（ｃ）に示されるように、確認画面２１０の領域２１１に、図７（ｂ）に示されるフォーム画像１４１及び部分画像１６２に代えて、文書画像１５１が表示される。利用者は、この確認画面２１０を見ることにより、「帳票Ａ」という文書を示す文書画像１５１全体を参照しながら、この文書に含まれる「２」という文字の文字認識結果１７２を確認する。

なお、図７（ａ）〜図７（ｃ）の少なくともいずれかに示される確認画面２１０が表示された後、利用者により表示条件を変更する操作が行われた場合には、変更後の表示条件に従って上述したステップＳ１６以降の処理が行われてもよい。また、図７（ｂ）に示す確認画面２１０において、利用者により確認画面２１０に含まれる他の部分画像１６０を選択する操作が行われると、他の部分画像１６０に対応する文書が対象文書となり、新たな対象文書についてステップＳ１９以降の処理が行われてもよい。

以上説明した実施形態によれば、串刺し表示モードでは部分画像１６０及び文字認識結果１７０は取得されるものの利用者により要求されない限り文書画像１５０は取得されないため、通常表示モードに比べてサーバ装置１２０からのデータの取得にかかる時間が短縮される。また、串刺し表示モードでは利用者により要求されない限り文書画像１５０が表示されないため、通常表示モードに比べて表示に必要なデータ量及び確認画面２１０の描画量が少なくなる。そのため、串刺し表示モードにおいて、複数の文書に記入された文字を認識した結果を、文書を示す文書画像１５０とともに確認画面２１０に表示する場合に比べて、確認画面２１０の表示速度が上がる。その結果、利用者の操作性が向上する。

さらに、串刺し表示モードにおいては、利用者の操作に応じてフォーム画像１４０とフォーム画像１４０上の部分画像１６０とが表示されるため、必要に応じて、対象文書の形式とともに、対象文書に記入された内容を確認することができる。さらに、串刺し表示モードにおいては、利用者の操作に応じてフォーム画像１４０に代えて文書画像１５０が表示されるため、必要に応じて、文字が記入されていない文書を示すフォーム画像１４０に代えて、文字が記入されている文書を示す文書画像１５０を確認することができる。

３．変形例
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。また、上述した実施形態が以下の例のように変形して実施されてもよい。このとき、以下の２以上の変形例が組み合わせて用いられてもよい。

上述した実施形態において、串刺し表示モードが選択された場合においてステップＳ１１において選択された文書に表示条件を満たし且つ記入枠からはみ出した文字が含まれるときは、利用者の操作を介さずに、その文書のフォーム画像１４０とはみ出した文字を含む部分画像１６０とが確認画面２１０の領域２１１に表示されてもよい。例えば「帳票Ａ」という文書に記入されている「２」という文字が記入枠１４１２からはみ出している場合には、利用者の操作を介さずに、この文書のフォーム画像１４１が取得され、フォーム画像１４１とこの文字を含む部分画像１６２とが確認画面２１０の領域２１１に表示されてもよい。このとき、部分画像１６２は、記入枠１４１２より大きい範囲で切り出されて生成されていてもよい。また、この場合、上述したステップＳ１７及びＳ１８の処理は行われなくてもよい。この変形例によれば、記入枠からはみ出した文字を、その文字が記入された文書の形式とともに確認することができる。

上述した実施形態では、串刺し表示モードが選択された場合にはフォーム画像１４０上に部分画像１６０が表示されていたが、この部分画像１６０は必ずしもフォーム画像１４０とともに表示されなくてもよい。例えばフォーム画像１４０が表示された後、利用者の操作に応じてフォーム画像１４０上に部分画像１６０が表示されてもよい。また、利用者が確認画面２１０において部分画像１６０を選択する操作を行い、且つ、選択された部分画像１６０に対応する文字が記入枠からはみ出している場合には、フォーム画像１４０上に部分画像１６０が表示されてもよい。すなわち、利用者が確認画面２１０において部分画像１６０を選択する操作を行った場合にも、選択された部分画像１６０に対応する文字が記入枠からはみ出していない場合には、フォーム画像１４０上に部分画像１６０が表示されなくてもよい。

上述した実施形態において、串刺し表示モードが選択された場合において文字認識が良好に行われたことを示す予め定められた条件を文字認識結果１７０が満たさないときは、利用者の操作を介さずに、文書画像１５０が確認画面２１０の領域２１１に表示されてもよい。例えば、上述したステップＳ１１において選択された複数の文書において、記入枠からはみ出している文字の数又は認識されなかった文字の数が閾値以上である場合には、文字認識結果１７０がこの条件を満たさないと判定され、利用者の操作を介さずに、これらの文書のいずれかを示す文書画像１５０が確認画面２１０の領域２１１に表示されてもよい。この閾値は、例えば文字認識が良好に行われていないことを示す最小値に設定される。この場合、上述したステップＳ１７〜Ｓ２１の処理は行われなくてもよい。この変形例によれば、串刺し表示モードにおいて、例えば予め定められた条件を満たさない文字認識結果１７０の数が閾値以上である場合のように文字認識結果１７０が予め定められた条件を満たさない場合には、文字が記入されている文書を示す文書画像１５０を確認することができる。

上述した実施形態において、対象文書が複数の頁を有する場合、ステップＳ１３又はステップＳ２２では、対象文書の最初の頁を示す文書画像１５０だけが取得されてもよい。この場合、対象文書の最初の頁以外の頁を示す文書画像１５０は、例えば利用者の操作に応じて取得され表示されてもよい。同様に、ステップＳ１９では、対象文書の最初の頁を示すフォーム画像１４０だけが取得されてもよい。対象文書の最初の頁以外の頁を示すフォーム画像１４０は、例えば利用者の操作に応じて取得され表示されてもよい。

上述した実施形態において、図７（ａ）に示す確認画面２１０又は図７（ｂ）に示す確認画面２１０のいずれか一方だけが表示されてもよい。また、図７（ｃ）に示す確認画面２１０は必ずしも表示されなくてもよい。

上述した実施形態において、フォーム画像１４０上において位置情報が示す位置に部分画像１６０が合成されてもよい。この場合、この合成処理は、クライアント装置１１０において行われてもよいしサーバ装置１２０において行われてもよい。

上述した実施形態において、クライアント装置１１０は必ずしもスキャン機能を有していなくてもよい。例えばクライアント装置１１０は、サーバ装置１２０から取得した情報を表示するコンピュータであってもよい。この場合、文書は、クライアント装置１１０とは異なる画像読取装置においてスキャンされてもよい。

上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

また上記実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

上述した実施形態において、文字認識システム１００において処理の主体は、実施形態で説明した例に限定されない。例えばクライアント装置１１０において行われる処理の少なくとも一部が他の装置において行われてもよい。

本発明は、クライアント装置１１０において実行されるプログラムとして提供されてもよい。なお、クライアント装置１１０は、それぞれ本発明に係るコンピュータの一例である。このプログラムは、インターネットなどの通信回線を介してダウンロードされてもよいし、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。

１００：文字認識システム、１１０：クライアント装置、１１１：プロセッサ、１１２：メモリ、１１３：通信部、１１４：操作部、１１５：表示部、１１６：画像読取部、１１７：画像形成部、１１８：バス、１２０：サーバ装置

Claims

プロセッサを備え、
前記プロセッサは、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得し、
第１表示モードにおいては、第１文書画像と、前記第１文書画像に含まれる第１文字の文字認識結果である第１文字認識結果と、前記第１文字認識結果に対応する第１部分画像とを、文書ごとに表示し、
第２表示モードにおいては、複数の文書における第２文字の文字認識結果である第２文字認識結果を、複数の文書において共通した文字ごとに、前記第２文字認識結果に対応する第２部分画像とともに表示し、前記文書画像を表示しないようにする、
ことを特徴とする情報処理装置。
前記プロセッサは、前記第２表示モードでは、前記第２文字が記入される前の前記文書を示す他の文書画像をさらに表示する
ことを特徴とする請求項１に記載の情報処理装置。
前記プロセッサは、前記第２表示モードでは、利用者の操作に応じて、前記他の文書画像を表示する
ことを特徴とする請求項２に記載の情報処理装置。
前記プロセッサは、前記他の文書画像中に、前記第２部分画像を表示する
ことを特徴とする請求項２又は３に記載の情報処理装置。
前記プロセッサは、利用者の操作に応じて、前記他の文書画像中に前記第２部分画像を表示する
ことを特徴とする請求項４に記載の情報処理装置。
前記プロセッサは、前記第２文字に予め定められた範囲からはみ出した文字が含まれる場合には、前記はみ出した文字を含む第２部分画像を表示する
ことを特徴とする請求項４に記載の情報処理装置。
前記プロセッサは、前記第２文字認識結果が予め定められた条件を満たさない場合には、前記第２文字が記入された前記文書を示す第２文書画像を表示する
ことを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記第２文字認識結果のうち前記予め定められた条件を満たさない文字認識結果の数が閾値以上である場合には、前記第２文書画像を表示する
ことを特徴とする請求項７に記載の情報処理装置。
コンピュータに、
文書を示す文書画像と、前記文書画像中の文字が記入されている部分である部分画像と、前記文字の文字認識結果とを取得するステップと、
第１表示モードにおいては、第１文書画像と、前記第１文書画像に含まれる第１文字の文字認識結果である第１文字認識結果と、前記第１文字認識結果に対応する第１部分画像とを、文書ごとに表示するステップと、
第２表示モードにおいては、複数の文書における第２文字の文字認識結果である第２文字認識結果を、複数の文書において共通した文字ごとに、前記第２文字認識結果に対応する第２部分画像とともに表示し、前記文書画像を表示しないようにするステップと、
を実行させるためのプログラム。