JP2020170273A

JP2020170273A - 文字認識システム、文字認識サーバープログラム及び文字認識クライアントプログラム

Info

Publication number: JP2020170273A
Application number: JP2019070283A
Authority: JP
Inventors: 真之織田; Masayuki Oda
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2020-10-15

Abstract

【課題】光学文字認識により判断された文字を目視して確認する。【解決手段】クライアント装置の第１の制御回路は、文字を含む画像を取得して記憶装置に記憶し、サーバー装置に、画像を送信し、サーバー装置の第２の制御回路は、クライアント装置から、画像を受信し、画像を光学文字認識することにより、画像に含まれる文字を判断し、判断した文字を示すテキストデータを生成し、画像内での文字の位置を示す情報である位置情報を生成し、クライアント装置に、テキストデータ及び位置情報を送信し、クライアント装置の第１の制御回路は、サーバー装置から、テキストデータ及び位置情報を受信し、記憶装置から、画像を読み出し、読み出した画像の位置情報に基づく位置に、テキストデータが示す文字を配置することにより、合成画像を生成する。【選択図】図４

Description

本開示は、文字を含む画像を取得するクライアント装置と、この画像を光学文字認識するサーバー装置とを有する文字認識システムに関する。本開示は、さらに、このクライアント装置が実行する文字認識クライアントプログラムと、このサーバー装置が実行する文字認識サーバープログラムとに関する。

クライアント装置が文字を含む画像を取得し、サーバー装置がこの画像を光学文字認識することにより、この画像に含まれる文字を判断する技術が知られている。

特開２０１８−１５１９２５号公報特開２０１５−２０４０１５号公報特開２０１２−５８９０４号公報

光学文字認識により判断された文字が、画像に実際に含まれる文字に対して正確であるかどうか、ユーザーがクライアント装置に表示された結果を目視して確認することが望ましい。

本開示の一形態に係る文字認識システムは、
第１の制御回路及び記憶装置を有するクライアント装置と、
第２の制御回路を有し、前記クライアント装置と通信可能に接続されたサーバー装置と
を具備し、
前記クライアント装置の前記第１の制御回路は、
文字を含む画像を取得して前記記憶装置に記憶し、
前記サーバー装置に、前記画像を送信し、
前記サーバー装置の前記第２の制御回路は、
前記クライアント装置から、前記画像を受信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、
前記画像内での前記文字の位置を示す情報である位置情報を生成し、
前記クライアント装置に、前記テキストデータ及び前記位置情報を送信し、
前記クライアント装置の前記第１の制御回路は、
前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、
前記記憶装置から、前記画像を読み出し、
読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する。

（１）本実施形態によれば、サーバー装置は、クライアント装置に、光学文字認識の結果として、テキストデータ及び位置情報を送信する。これにより、例えば、クライアント装置が、画像及び文字を含むウェブページ（ＨＴＭＬデータ）を、ウェブサーバー装置からダウンロードする場合に比べて、ネットワークトラフィックが削減される。本実施形態によれば、クライアント装置は、記憶装置から読み出した画像の、サーバー装置から受信した位置情報に基づく位置に、サーバー装置から受信したテキストデータが示す文字を配置することにより、合成画像を生成する。典型的に、クライアント装置のＣＰＵやメモリ等の処理能力は、サーバー装置のＣＰＵやメモリ等の処理能力より劣る。しかしながら、本実施形態によれば、クライアント装置は、ローカルの記憶装置から読み出した画像と、受信したテキストデータとを合成して、ユーザーが一目で把握することが容易な合成画像を生成することができる。これにより、サーバー装置が画像（を含む合成画像を表示するためのＨＴＭＬデータ）を送信しないことでネットワークトラフィックを削減できると同時に、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置がローカルで生成することができる。

前記クライアント装置の前記第１の制御回路は、
前記画像内の前記位置情報が示す位置に、前記テキストデータが示す前記文字を配置することにより、前記合成画像を生成する。

（２）本実施形態によれば、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置がローカルで生成することができる。

前記クライアント装置の前記第１の制御回路は、
前記画像を仮想的に示す領域内の前記位置情報が示す位置に、前記テキストデータが示す前記文字を配置し、前記文字を配置した前記領域と前記画像とを互いに重畳しないように配置することにより、前記合成画像を生成する。

（３）本実施形態によれば、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置がローカルで生成することができる。

前記クライアント装置は、撮像装置をさらに有するモバイルデバイスであり、
前記クライアント装置の前記第１の制御回路は、
前記撮像装置が撮像した画像を、前記文字を含む前記画像として取得する。

（４）典型的に、モバイルデバイスのＣＰＵやメモリ等の処理能力は比較的低い。しかしながら、本実施形態によれば、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置（モバイルデバイス）がローカルで生成することができる。

前記クライアント装置は、表示装置と、入力装置とをさらに有し、
前記クライアント装置の前記第１の制御回路は、さらに、
前記合成画像を前記表示装置に表示し、
前記入力装置に入力された、前記合成画像に含まれる前記文字を別の文字に置換するための要求を検出すると、
前記サーバー装置に、前記別の文字を示す別のテキストデータを送信し、
前記サーバー装置の前記第２の制御回路は、
前記クライアント装置から、前記別のテキストデータを受信し、
生成した前記テキストデータを、受信した前記別のテキストデータに置換する。

（５）本実施形態によれば、例えば、クライアント装置が、置換すべき文字を入力するためのウェブページ（ＨＴＭＬデータ）を、ウェブサーバー装置からダウンロードする場合に比べて、ネットワークトラフィックが削減される。

本開示の一形態に係る文字認識クライアントプログラムは、
サーバー装置と通信可能に接続され、記憶装置を有するクライアント装置の第１の制御回路を、
文字を含む画像を取得して前記記憶装置に記憶し、
前記サーバー装置に、前記画像を送信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、前記画像内での前記文字の位置を示す情報である位置情報を生成し、前記クライアント装置に、前記テキストデータ及び前記位置情報を送信する前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、
前記記憶装置から、前記画像を読み出し、
読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する
よう動作させる。

本開示の一形態に係る文字認識サーバープログラムは、
記憶装置を有するクライアント装置と通信可能に接続されたサーバー装置の第２の制御回路を、
文字を含む画像を取得して前記記憶装置に記憶し、前記サーバー装置に、前記画像を送信する前記クライアント装置から、前記画像を受信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、
前記画像内での前記文字の位置を示す情報である位置情報を生成し、
前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、前記記憶装置から、前記画像を読み出し、読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する前記クライアント装置に、前記テキストデータ及び前記位置情報を送信する
よう動作させる。

本開示によれば、光学文字認識により判断された文字が、画像に実際に含まれる文字に対して正確であるかどうか、ユーザーがクライアント装置に表示された結果を目視して確認することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示の一実施形態に係る文字認識システムを示す。クライアント装置のハードウェア構成を示す。サーバー装置のハードウェア構成を示す。文字認識システムの機能的構成を示す。クライアント装置の動作フローを示す。サーバー装置の動作フローを示す。クライアント装置が生成及び表示する合成画像の一例を模式的に示す。クライアント装置が生成及び表示する合成画像の別の例を模式的に示す。

以下、図面を参照しながら、本開示の実施形態を説明する。

１．文字認識システム

図１は、本開示の一実施形態に係る文字認識システムを示す。

文字認識システム１は、クライアント装置１０と、サーバー装置２０とを有する。クライアント装置１０と、サーバー装置２０とは、インターネット等のネットワークＮを介して通信可能に接続される。

クライアント装置１０は、撮像装置（カメラ）を有する。クライアント装置１０は、例えば、ノート型パーソナルコンピューター、タブレットコンピューター、スマートフォン等のモバイルデバイスある。クライアント装置１０は、撮像装置を用いて文字が記載された原稿を撮影し、文字を含む画像を取得する。原稿に記載された文字は、タイプされた文字でもよいし、手書きの文字でもよい。クライアント装置１０は、サーバー装置２０に、文字を含む画像を送信する。

サーバー装置２０は、クライアント装置１０から、文字を含む画像を受信する。サーバー装置２０は、画像を光学文字認識（ＯＣＲ）することにより、画像に含まれる文字を判断する。サーバー装置２０は、クライアント装置１０に、光学文字認識の結果を送信する。

サーバー装置２０は、さらに、電子的なワークフローシステムを提供するワークフローサーバーとしての機能も有する。サーバー装置２０は、光学文字認識の結果等を、ワークフローシステムにアップロードする。

２．クライアント装置のハードウェア構成

図２は、クライアント装置のハードウェア構成を示す。

クライアント装置１０は、ＣＰＵ１１（Central Processing Unit）、ＲＯＭ１２（Read Only Memory）、ＲＡＭ１３（Random Access Memory）、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量の不揮発性の記憶装置１４、ネットワーク通信インターフェース１５、操作装置１６、表示装置１７及び撮像装置１９（カメラ）と、これらを相互に接続するバス１８とを有する。

ＣＰＵ１１、ＲＯＭ１２、及びＲＡＭ１３は、制御回路１００を構成する。ＣＰＵ１１は、ＲＯＭ１２が記憶する情報処理プログラムをＲＡＭ１３にロードして実行する。ＲＯＭ１２は、ＣＰＵ１１が実行するプログラムやデータなどを固定的に記憶する。ＲＯＭ１２は、非一過性のコンピューター読み取り可能な記録媒体の一例である。

３．サーバー装置のハードウェア構成

図３は、サーバー装置のハードウェア構成を示す。

サーバー装置２０は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ＨＤＤやＳＳＤ等の大容量の不揮発性の記憶装置２４、ネットワーク通信インターフェース２５、操作装置２６及び表示装置２７と、これらを相互に接続するバス２８とを有する。

ＣＰＵ２１、ＲＯＭ２２、及びＲＡＭ２３は、制御回路２００を構成する。ＣＰＵ２１は、ＲＯＭ２２が記憶する情報処理プログラムをＲＡＭ２３にロードして実行する。ＲＯＭ２２は、ＣＰＵ２１が実行するプログラムやデータなどを固定的に記憶する。ＲＯＭ２２は、非一過性のコンピューター読み取り可能な記録媒体の一例である。

４．文字認識システムの機能的構成

図４は、文字認識システムの機能的構成を示す。

クライアント装置１０の制御回路１００（第１の制御回路）において、ＣＰＵ１１は、ＲＯＭ１２が記憶する情報処理プログラム（文字認識クライアントプログラム）をＲＡＭ１３にロードして実行することにより、ワークフロー判断部１０１、画像取得部１０２、画像供給部１０３、テキストデータ取得部１０４、合成画像生成部１０５及び確認結果供給部１０６として動作する。

サーバー装置２０の制御回路２００（第２の制御回路）において、ＣＰＵ２１は、ＲＯＭ２２が記憶する情報処理プログラム（文字認識サーバープログラム）をＲＡＭ２３にロードして実行することにより、画像取得部２０１、光学文字認識部２０２、位置判断部２０３、テキストデータ供給部２０４、確認結果取得部２０５及びワークフロー連携部２０６として動作する。

５．文字認識システムの動作フロー

図５は、クライアント装置の動作フローを示す。

動作の前提として、ユーザーは、操作装置１６を操作することにより、撮像装置１９により撮像した画像のアップロード先となるワークフローを選択する。このワークフローは、サーバー装置２０が提供する電子的なワークフローシステムに含まれる。また、撮像装置１９（カメラ）は、文字が記載された原稿を撮影する。「文字が記載された原稿」は、典型的には、帳票等の、固定的なテンプレート部分と、可変的な文字（数字を含む）を含む原稿である。

クライアント装置１０のワークフロー判断部１０１は、選択されたワークフローを判断する（ステップＳ１０１）。

クライアント装置１０の画像取得部１０２は、撮像装置１９（カメラ）が撮影した、文字を含む画像を取得する。画像取得部１０２は、ワークフロー判断部１０１が判断したワークフローを識別するワークフロー識別子１１１と、画像１１２と、画像１１２を識別する画像識別子１１３とを、互いに関連付けて、記憶装置１４に記憶する（ステップＳ１０２）。

クライアント装置１０の画像供給部１０３は、記憶装置１４に互いに関連付けて記憶された、画像１１２と、画像識別子１１３と、ワークフロー識別子１１１とを、サーバー装置２０に送信する（ステップＳ１０３）。

図６は、サーバー装置の動作フローを示す。

サーバー装置２０の画像取得部２０１は、クライアント装置１０から、画像１１２と、画像識別子１１３と、ワークフロー識別子１１１とを受信する。画像取得部２０１は、受信した画像１１２と、画像識別子１１３と、ワークフロー識別子１１１とを、互いに関連付けて記憶装置２４に記憶する（ステップＳ２０１）。

サーバー装置２０の光学文字認識部２０２は、画像１１２を光学文字認識することにより、画像に含まれる文字を判断し、判断した文字を示すテキストデータを生成する。光学文字認識部２０２は、生成したテキストデータ１２１を、画像識別子１１３に関連付けて記憶装置２４に記憶する（ステップＳ２０２）。

なお、画像１１２がテンプレート部分を含む場合（帳票等）、光学文字認識部２０２は、テンプレートにより区画される可変的な文字部分（１又は複数）を個々に光学文字認識すればよい。区画された文字部分が複数ある場合、光学文字認識部２０２は、複数のテキストデータ１２１を生成すればよい。一方、画像１１２がテンプレート部分を含まない場合、光学文字認識部２０２は、画像１１２全体を光学文字認識すればよい。この場合、光学文字認識部２０２は、１又は複数のテキストデータ１２１を生成すればよい。

サーバー装置２０の位置判断部２０３は、テキストデータ１２１の位置情報を生成する。位置判断部２０３は、テキストデータ１２１が複数ある場合は、複数のテキストデータ１２１それぞれの位置情報を生成する。位置判断部２０３は、生成した位置情報１２２を、テキストデータ１２１に関連付けて記憶装置２４に記憶する（ステップＳ２０３）。

位置情報１２２は、画像１１２内での文字（テキストデータ１２１が示す文字）の位置を示す情報である。画像１１２がテンプレート部分を含む場合（帳票等）、位置情報１２２は、例えば、テンプレートにより区画される可変的な文字部分（１又は複数）の位置（画像１１２内での座標）を識別する位置情報でよい。一方、画像１１２がテンプレート部分を含まない場合、位置情報１２２は、例えば、画像１１２内での位置（座標）及び文字を含む領域のサイズでよい。

サーバー装置２０のテキストデータ供給部２０４は、記憶装置２４に互いに関連付けて記憶された、画像識別子１１３と、テキストデータ１２１と、位置情報１２２とを、クライアント装置１０に送信する（ステップＳ２０４）。

クライアント装置１０のテキストデータ取得部１０４は、サーバー装置２０から、画像識別子１１３と、テキストデータ１２１と、位置情報１２２とを受信する（ステップＳ１０４）。

クライアント装置１０の合成画像生成部１０５は、受信した画像識別子１１３に関連付けて記憶された画像１１２を、記憶装置１４から読み出す（ステップＳ１０５）。合成画像生成部１０５は、サーバー装置２０から受信した位置情報１２２に基づいて、記憶装置１４から読み出した画像１１２と、サーバー装置２０から受信したテキストデータ１２１とを合成することにより、合成画像を生成する。具体的には、合成画像生成部１０５は、読み出した画像１１２の位置情報１２２に応じた位置に、テキストデータ１２１が示す文字を配置することにより、合成画像を生成する。合成画像生成部１０５は、生成した合成画像を、表示装置１７に表示する（ステップＳ１０６）。

図７は、クライアント装置が生成及び表示する合成画像の一例を模式的に示す。

クライアント装置１０の表示装置１７は、合成画像Ｉ１を表示する。合成画像Ｉ１は、画像１１２内の位置情報１２２が示す位置に、テキストデータ１２１が示す文字を配置したものである。要するに、合成画像Ｉ１は、テキストデータ１２１が示す文字を、画像１１２内に（画像１１２に重畳して）、配置したものである。

図８は、クライアント装置が生成及び表示する合成画像の別の例を模式的に示す。

クライアント装置１０の表示装置１７は、合成画像Ｉ２を表示する。合成画像Ｉ２は、テキストデータ１２１が示す文字を配置した領域１２３と、画像１１２とを、互いに重畳しないように配置したものである。領域１２３は、画像１１２を仮想的に示す。テキストデータ１２１が示す文字は、領域１２３内の位置情報１２２が示す位置に配置される。要するに、合成画像Ｉ２は、テキストデータ１２１が示す文字を、画像の１１２内での実際の位置関係に対応するように、仮想的に配置したものである。

ユーザーは、クライアント装置１０の表示装置１７に表示（ステップＳ１０６）された合成画像Ｉ１又はＩ２を目視する。ユーザーは、合成画像Ｉ１又はＩ２に含まれるテキストデータ１２１が示す文字が正確かどうかを、目視により確認する。例えば、ユーザーは、合成画像Ｉ１（図７）に含まれるテキストデータ１２１が示す文字と、原稿そのものに記載された文字とを見比べる。あるいは、ユーザーは、合成画像Ｉ２（図８）に含まれる、テキストデータ１２１が示す文字と、画像１１２に含まれる文字とを見比べる。ユーザーは、テキストデータ１２１が示す文字が正確か、あるいは、別の文字に置換するかを、操作装置１６を操作することによりクライアント装置１０に入力する。後者の場合、例えば、ユーザーは、操作装置１６（物理的キーボード又はソフトウェアキーボード）を用いて、置換すべき別の文字を入力すればよい。

クライアント装置１０の確認結果供給部１０６は、テキストデータ１２１が示す文字が正確か、あるいは、別の文字に置換するか、の何れがユーザーより操作装置１６を介して入力されたか判断する（ステップＳ１０７）。

確認結果供給部１０６は、テキストデータ１２１が示す文字が正確であることを示す確認結果が入力されたと判断すると（ステップＳ１０７、ＮＯ）、サーバー装置２０に、テキストデータ１２１が示す文字が正確であることを示す確認結果と、画像識別子１１３とを送信する（ステップＳ１０８）。

一方、確認結果供給部１０６は、操作装置１６に入力された、テキストデータ１２１が示す文字を別の文字に置換するための要求を検出すると（ステップＳ１０７、ＹＥＳ）、サーバー装置２０に、確認結果として、別の文字（置換すべき文字）を示す別のテキストデータと、画像識別子１１３とを送信する（ステップＳ１０９）。

サーバー装置２０の確認結果取得部２０５は、クライアント装置１０から、確認結果を受信する（ステップＳ２０５）。

サーバー装置２０の確認結果取得部２０５は、テキストデータ１２１が示す文字が正確であることを示す確認結果と、画像識別子１１３とを受信する（ステップＳ２０６、ＮＯ）。

サーバー装置２０のワークフロー連携部２０６は、受信した画像識別子１１３に関連付けられたテキストデータ１２１を、記憶装置２４から読み出す（ステップＳ２０７）。ワークフロー連携部２０６は、さらに、受信した画像識別子１１３に関連付けられた画像１１２及び位置情報１２２を、記憶装置２４から読み出す（ステップＳ２０８）。ワークフロー連携部２０６は、受信した画像識別子１１３に関連付けられたワークフロー識別子１１１を、記憶装置２４から読み出す。ワークフロー連携部２０６は、読み出したテキストデータ１２１と、画像１１２と、位置情報１２２と、ワークフロー識別子１１１とを互いに関連付けて、ワークフローシステムにアップロードする（ステップＳ２０９）。

一方、サーバー装置２０の確認結果取得部２０５は、別の文字（置換すべき文字）を示す別のテキストデータと、画像識別子１１３とを受信する（ステップＳ２０６、ＹＥＳ）。

サーバー装置２０のワークフロー連携部２０６は、受信した画像識別子１１３に関連付けられた画像１１２及び位置情報１２２を、記憶装置２４から読み出す（ステップＳ２０８）。ワークフロー連携部２０６は、受信した画像識別子１１３に関連付けられたワークフロー識別子１１１を、記憶装置２４から読み出す。ワークフロー連携部２０６は、受信した別のテキストデータと、読み出した画像１１２、位置情報１２２及びワークフロー識別子１１１とを互いに関連付けて、ワークフローシステムにアップロードする（ステップＳ２０９）。

６．結語

サーバー装置が、クライアント装置から文字を含む画像を受信し、画像を光学文字認識（ＯＣＲ）することにより、画像に含まれる文字を判断する技術がある。この技術においては、光学文字認識により判断された文字が、画像に実際に含まれる文字（原稿に実際に記載された文字）に対して正確であるかどうか、クライアント装置に表示された光学文字認識の結果を、ユーザーが目視して確認することが望ましい。さらに、光学文字認識の結果が不正確とユーザーが判断した場合、クライアント装置からサーバー装置に、正確な文字を供給する必要がある。

例えば、以下の方法が考えられる。サーバー装置はウェブサーバーであり、クライアント装置はウェブアプリケーションを実行する。サーバー装置は、画像及び光学文字認識により判断した文字を合成した合成画像を表示するためのウェブページ（ＨＴＭＬデータ）を生成する。クライアント装置は、画像及び文字を合成した合成画像を表示するためのウェブページ（ＨＴＭＬデータ）を、サーバー装置からダウンロードし、表示装置に表示する。また、光学文字認識の結果が不正確とユーザーが判断した場合、クライアント装置は、置換すべき文字を入力するためのウェブページ（ＨＴＭＬデータ）を、サーバー装置からダウンロードし、表示装置に表示する。この方法では、クライアント装置がウェブページ（ＨＴＭＬデータ）をサーバー装置からダウンロードするためのネットワークトラフィックを要する。

（１）これに対して、本実施形態によれば、サーバー装置２０は、クライアント装置１０に、画像１１２の光学文字認識の結果として、テキストデータ１２１及び位置情報１２２を送信する（ステップＳ２０４）。これにより、例えば、クライアント装置が、画像及び文字を含むウェブページ（ＨＴＭＬデータ）を、ウェブサーバー装置からダウンロードする場合に比べて、ネットワークトラフィックが削減される。本実施形態によれば、クライアント装置１０は、記憶装置１４から読み出した画像１１２の、サーバー装置２０から受信した位置情報１２２に基づく位置に、サーバー装置２０から受信したテキストデータ１２１が示す文字を配置することにより、合成画像１１２を生成する（ステップＳ１０４乃至Ｓ１０６）。典型的に、クライアント装置１０のＣＰＵやメモリ等の処理能力は、サーバー装置２０のＣＰＵやメモリ等の処理能力より劣る。しかしながら、本実施形態によれば、クライアント装置１０は、ローカルの記憶装置１４から読み出した画像１１２と、受信したテキストデータ１２１とを合成して、ユーザーが一目で把握することが容易な合成画像を生成することができる。これにより、サーバー装置２０が画像１１２（を含む合成画像を表示するためのＨＴＭＬデータ）を送信しないことでネットワークトラフィックを削減できると同時に、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置１０がローカルで生成することができる。

（２）本実施形態によれば、クライアント装置１０は、画像１１２内の位置情報１２２が示す位置に、テキストデータ１２１が示す文字を配置することにより、合成画像Ｉ１（図７）を生成する（ステップＳ１０６）。これにより、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置１０がローカルで生成することができる。

（３）本実施形態によれば、クライアント装置１０は、画像１１２を仮想的に示す領域１２３内の位置情報１２２が示す位置に、テキストデータ１２１が示す文字を配置し、文字を配置した領域１２３と画像１１２とを互いに重畳しないように配置することにより、合成画像Ｉ２（図８）を生成する（ステップＳ１０６）。これにより、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置１０がローカルで生成することができる。

（４）本実施形態によれば、クライアント装置１０は、撮像装置１９をさらに有するモバイルデバイスである。典型的に、モバイルデバイスのＣＰＵやメモリ等の処理能力は比較的低い。しかしながら、本実施形態によれば、ウェブアプリケーションで表示するような視認性の高い合成画像と同等の合成画像を、クライアント装置１０（モバイルデバイス）がローカルで生成することができる。

（５）本実施形態によれば、クライアント装置１０は、合成画像１１２に含まれる文字を別の文字に置換する場合、サーバー装置２０に、別の文字（置換すべき文字）を示す別のテキストデータ１２１を送信する（ステップＳ１０９）。これにより、例えば、クライアント装置が、置換すべき文字を入力するためのウェブページ（ＨＴＭＬデータ）を、ウェブサーバー装置からダウンロードする場合に比べて、ネットワークトラフィックが削減される。

本技術の各実施形態及び各変形例について上に説明したが、本技術は上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

文字認識システム１
クライアント装置１０
サーバー装置２０
ワークフロー判断部１０１
画像取得部１０２
画像供給部１０３
テキストデータ取得部１０４
合成画像生成部１０５
確認結果供給部１０６
画像取得部２０１
光学文字認識部２０２
位置判断部２０３
テキストデータ供給部２０４
確認結果取得部２０５
ワークフロー連携部２０６

Claims

第１の制御回路及び記憶装置を有するクライアント装置と、
第２の制御回路を有し、前記クライアント装置と通信可能に接続されたサーバー装置と
を具備し、
前記クライアント装置の前記第１の制御回路は、
文字を含む画像を取得して前記記憶装置に記憶し、
前記サーバー装置に、前記画像を送信し、
前記サーバー装置の前記第２の制御回路は、
前記クライアント装置から、前記画像を受信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、
前記画像内での前記文字の位置を示す情報である位置情報を生成し、
前記クライアント装置に、前記テキストデータ及び前記位置情報を送信し、
前記クライアント装置の前記第１の制御回路は、
前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、
前記記憶装置から、前記画像を読み出し、
読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する
文字認識システム。
請求項１に記載の文字認識システムであって、
前記クライアント装置の前記第１の制御回路は、
前記画像内の前記位置情報が示す位置に、前記テキストデータが示す前記文字を配置することにより、前記合成画像を生成する
文字認識システム。
請求項１に記載の文字認識システムであって、
前記クライアント装置の前記第１の制御回路は、
前記画像を仮想的に示す領域内の前記位置情報が示す位置に、前記テキストデータが示す前記文字を配置し、前記文字を配置した前記領域と前記画像とを互いに重畳しないように配置することにより、前記合成画像を生成する
文字認識システム。
請求項１乃至３の何れか一項に記載の文字認識システムであって、
前記クライアント装置は、撮像装置をさらに有するモバイルデバイスであり、
前記クライアント装置の前記第１の制御回路は、
前記撮像装置が撮像した画像を、前記文字を含む前記画像として取得する
文字認識システム。
請求項１乃至４の何れか一項に記載の文字認識システムであって、
前記クライアント装置は、表示装置と、入力装置とをさらに有し、
前記クライアント装置の前記第１の制御回路は、さらに、
前記合成画像を前記表示装置に表示し、
前記入力装置に入力された、前記合成画像に含まれる前記文字を別の文字に置換するための要求を検出すると、
前記サーバー装置に、前記別の文字を示す別のテキストデータを送信し、
前記サーバー装置の前記第２の制御回路は、
前記クライアント装置から、前記別のテキストデータを受信し、
生成した前記テキストデータを、受信した前記別のテキストデータに置換する
文字認識システム。
サーバー装置と通信可能に接続され、記憶装置を有するクライアント装置の第１の制御回路を、
文字を含む画像を取得して前記記憶装置に記憶し、
前記サーバー装置に、前記画像を送信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、前記画像内での前記文字の位置を示す情報である位置情報を生成し、前記クライアント装置に、前記テキストデータ及び前記位置情報を送信する前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、
前記記憶装置から、前記画像を読み出し、
読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する
よう動作させる
文字認識クライアントプログラム。
記憶装置を有するクライアント装置と通信可能に接続されたサーバー装置の第２の制御回路を、
文字を含む画像を取得して前記記憶装置に記憶し、前記サーバー装置に、前記画像を送信する前記クライアント装置から、前記画像を受信し、
前記画像を光学文字認識することにより、前記画像に含まれる前記文字を判断し、判断した前記文字を示すテキストデータを生成し、
前記画像内での前記文字の位置を示す情報である位置情報を生成し、
前記サーバー装置から、前記テキストデータ及び前記位置情報を受信し、前記記憶装置から、前記画像を読み出し、読み出した前記画像の前記位置情報に基づく位置に、前記テキストデータが示す前記文字を配置することにより、合成画像を生成する前記クライアント装置に、前記テキストデータ及び前記位置情報を送信する
よう動作させる
文字認識サーバープログラム。