JP7134380B2

JP7134380B2 - 文書画像認識システム

Info

Publication number: JP7134380B2
Application number: JP2022534682A
Authority: JP
Inventors: 光貴岩村; 守真横田; 剛久三輪; 康次長谷川; 仁己小田; 誠司奥村; 孝之小平; 啓太齊藤; 嵩久榎本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-09-09
Anticipated expiration: 2040-08-24
Also published as: CN116569225B; JPWO2022044067A1; WO2022044067A1; CN116569225A

Description

文字認識クラウドＡＰＩを利用した文書画像認識システムに関する。

クラウドサービスが提供する文字認識機能アプリケーションプログラムインターフェース（以下、文字認識クラウドＡＰＩという）を利用する文書画像認識システムが知られている。このシステムでは、事前に用意した試験用画像を用いて複数の文字認識クラウドＡＰＩの正解率や処理速度を評価して文字認識クラウドＡＰＩを選定し、選定した文字認識クラウドＡＰＩに文字認識処理を実行させる場合が多い（例えば、特許文献１参照）。

特開２００８－２９３３５４号公報

一方、文字認識クラウドＡＰＩは文書画像の特徴により文字認識の正解率が異なる場合がある。このため、事前に文字認識クラウドＡＰＩの評価の際に用いた試験用画像と異なる特徴を有する文書画像を入力した場合、事前評価と異なる文字認識クラウドＡＰＩが最適となる場合がある。このため、文書画像認識システムの文字認識精度が低下する場合があった。

そこで、本発明は、文字認識精度の高い文書画像認識システムを提供することを目的とする。

本発明の文書画像認識システムは、文書画像を取得するユーザ端末と、前記ユーザ端末と通信回線で接続されたセンタサーバと、前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、前記センタサーバは、前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、処理対象文書画像の特徴に基づいて選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新すること、を特徴とする。

このように、ユーザ端末から受信した処理対象文書画像の文字認識処理に最適な文字認識クラウドＡＰＩを選択し、その文字認識クラウドＡＰＩに文字認識処理を行わせるので、文書画像認識システムの文字認識精度を向上させることができるとともに、選択データベースの最適化を図ることができ、文書画像認識システムの文字認識精度を向上させることができる。

また、本発明に文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、処理対象文書画像の特徴と選択した一の文字認識クラウドＡＰＩとの組を選択データベースに追加してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、処理対象文書画像の特徴に基づいて他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、処理対象文書画像の特徴と他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩとの組を選択データベースに追加してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に正解がない場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、処理対象文書画像の特徴に基づいて選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に正解がない場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、処理対象文書画像の特徴と選択した一の文字認識クラウドＡＰＩとの組を選択データベースに追加してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、処理対象文書画像の特徴に基づいて他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、処理対象文書画像の特徴と他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩとの組を選択データベースに追加してもよい。

また、本発明の文書画像認識システムにおいて、前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に１つも正解がなかった場合には、入力文書画像の特徴と組として選択データベースに格納されている文字認識クラウドＡＰＩ以外の別の文字認識クラウドＡＰＩに処理対象文書画像を送信し、別の文字認識クラウドＡＰＩから受信した文字認識結果が正解の場合には、処理対象文書画像の特徴と別の文字認識クラウドＡＰＩとの組を選択データベースに追加してもよい。

また、本発明の文書画像認識システムにおいて、文書画像の特徴は、文書画像の画素情報から算出される画像特徴量と、前記ユーザ端末で文書画像を取得した際の状況を示す画像属性と、学習機を用いて算出される学習特徴値と、の少なくとも１つを含んでもよい。

また、本発明の文書画像認識システムにおいて、前記画像属性は、前記ユーザ端末で文書画像を取得する際に前記ユーザ端末で取得した情報で、文書画像の輝度、照度、取得場所、取得時間の少なくとも１つを含んでもよい。

また、本発明の文書画像認識システムにおいて、前記選択データベースに格納されている文字認識クラウドＡＰＩは、含有文字列が既知の複数の設定用文書画像の特徴を抽出し、特徴が相互に類似する設定用文書画像をグルーピングし、設定用文書画像の各グループに含まれる複数の設定用文書画像の文字認識を行った際に文字認識の正解率が最大となる文字認識クラウドＡＰＩであり、文字認識クラウドＡＰＩと組になっている入力文書画像の特徴は、設定用文書画像の各グループの特徴を代表する代表特徴としてもよい。

本発明は、文字認識精度の高い文書画像認識システムを提供することができる。

実施形態の文書画像認識システムの構成を示す系統図である。汎用コンピュータの構成を示す系統図である。実施形態の文書画像認識システムの選択データベース設定動作の前半部分を示すフローチャートである。実施形態の文書画像認識システムの選択データベース設定動作の後半部分を示すフローチャートである。選択データベース設定動作における設定用文書画像の特徴の抽出を示す説明図である。選択データベース設定動作における画像特徴データセットの分類と、設定用文書画像のグルーピングとを示す説明図である。選択データベース設定動作における文字認識クラウドＡＰＩの正解率の算出と、正解率が最も高い文字認識クラウドＡＰＩの抽出とを示す説明図である。選択データベース設定動作における代表画像特徴データセットの生成を示す説明図である。代表画像特徴データセットと文字認識クラウドＡＰＩとの組と、代表画像特徴データセットと設定用文書画像グループとの対応を示す説明図である。選択データベースの構造を示す説明図である。実施形態の文書画像認識システムの文字認識動作を示すフローチャートである。文字認識動作における処理対象文書画像の特徴の抽出を示す説明図である。文字認識動作における文字認識クラウドＡＰＩの選択を示す説明図である。ユーザ端末から処理対象文書画像の正解文字列の入力があった場合の選択データベース更新動作を示すフローチャートである。図１４に示す結合子２の場合の処理を示すフローチャートである。図１４に示す結合子３の場合の処理を示すフローチャートである。図１４に示す結合子４の場合の処理を示すフローチャートである。図１７に示す結合子５の場合の処理を示すフローチャートである。ユーザ端末から処理対象文書画像の正解文字列の入力があった場合の選択データベース更新動作を示す説明図である。

以下、図面を参照しながら実施形態の文書画像認識システム１００について説明する。以下の説明では、文字認識クラウドＡＰＩをクラウドＡＰＩ３１、又は、クラウドＡＰＩ３２として説明する。図１に示すように、文書画像認識システム１００は、ユーザ端末１０と、センタサーバ２０と、複数のクラウドＡＰＩ３１を含むクラウドＡＰＩ群３０とで構成されている。ユーザ端末１０は文書画像を取得してセンタサーバ２０に送信する。センタサーバ２０はクラウドＡＰＩ群３０の中から選択したクラウドＡＰＩ３１に文書画像を送信し、クラウドＡＰＩ３１から文字認識結果を受信し、ユーザ端末１０に送信する。ユーザ端末１０は、センタサーバ２０から受信した文字認識結果を表示する。以下の説明では、複数のクラウドＡＰＩ３１を区別しない場合には、符号３１を用い、各クラウドＡＰＩ３１を区別する場合には、符号３１の後にアルファベットを括弧付けで付記し、クラウドＡＰＩ３１（Ａ）～クラウドＡＰＩ３１（Ｍ）のように表記する。

ユーザ端末１０は、カメラ付きスマートフォン、或いはカメラ付きタブレット端末で構成され、インターネット、電話回線等の通信回線によってセンタサーバ２０と接続されている。ユーザ端末１０は、文書画像取得部１１と、文字列表示部１２と、正解文字列入力部１３の３つの機能ブロックを含んでいる。ユーザ端末１０は、文書画像取得部１１で撮像等により文書画像を取得し、取得した文書画像を処理対象文書画像８０（図１２参照）としてセンタサーバ２０に送信する。また、ユーザ端末１０は、センタサーバ２０から処理対象文書画像８０の文字認識結果を受信して、文字列表示部１２に表示する。ユーザ端末１０の正解文字列入力部１３は、文字列表示部１２に表示された文字列が正しい文字列である場合にはユーザの承認入力を受け付け、正しくない文字列の場合には、ユーザの正解文字列の入力を受け付ける。

ユーザ端末１０の文書画像取得部１１はユーザ端末１０に取付けられているカメラによって実現される。また、文字列表示部１２は、スマートフォン又はタブレット端末の画面によって実現される。また、正解文字列入力部１３は、スマートフォン又はタブレット端末の画面に表示されるアイコンやタッチキー又はキーボード等の入力装置と文字変換機能、或いは、音声入力機能によって実現される。

センタサーバ２０は、ユーザ端末１０と通信回線で接続されると共に、クラウドＡＰＩ群３０に含まれる各クラウドＡＰＩ３１とインターネットや電話回線等の通信回線で接続されている。センタサーバ２０は、文字認識処理部２１と、選択データベース２４と、選択データベース更新部２５の３つの機能ブロックを備えている。また、文字認識処理部２１は、内部にデータ送受信部２２と、クラウドＡＰＩ選択部２３の２つの機能ブロックを含んでいる。

データ送受信部２２は、ユーザ端末１０から処理対象文書画像８０を受信し、受信した処理対象文書画像８０をクラウドＡＰＩ選択部２３が選択した一のクラウドＡＰＩ３１に送信する。また、データ送受信部２２は、選択した一のクラウドＡＰＩ３１から文字認識結果を受信し、受信した文字認識結果をユーザ端末１０に送信する。クラウドＡＰＩ選択部２３は、選択データベース２４を参照しながら処理対象文書画像８０の特徴に基づいて文字認識に最適なクラウドＡＰＩ３１を選択し、選択した結果をデータ送受信部２２に出力する。ここで、選択データベース２４は、入力文書画像の特徴と、入力文書画像の文字認識処理を行った際に文字認識の正解率が複数のクラウドＡＰＩ３１の中で最大となるクラウドＡＰＩ３１との組を格納したデータベースである。なお、クラウドＡＰＩ選択部２３の動作の詳細は後で説明する。

選択データベース更新部２５は、ユーザ端末１０から処理対象文書画像８０の正解文字列が入力された際に、処理対象文書画像８０をクラウドＡＰＩ群３０の各クラウドＡＰＩ３１に送信し、各クラウドＡＰＩ３１から文字認識結果を受信し、文字認識結果の正解或いは不正解の度合いである正解度に応じて選択データベース２４の内容を更新する。選択データベース更新部２５の動作については後で詳細に説明する。

センタサーバ２０の各機能ブロックは、図２に示すような汎用コンピュータ１５０によって実現することができる。図２に示すように、汎用コンピュータ１５０は、情報処理を行うプロセッサであるＣＰＵ１５１と、情報処理の際にデータを一時的に記憶するＲＯＭ１５２、ＲＡＭ１５３と、プログラムやユーザのデータ等を格納するハードディスクドライブ（ＨＤＤ）１５４と、入力手段として設けられたマウス１５５と、キーボード１５６、及び表示装置として設けられたディスプレイ１５７とを含んでいる。ＣＰＵ１５１とＲＯＭ１５２とＲＡＭ１５３とＨＤＤ１５４とはデータバス１６０によって接続されている。また、マウス１５５とキーボード１５６とディスプレイ１５７とは入出力コントローラ１５８を介してデータバス１６０に接続されている。また、データバス１６０には通信手段として設けられたネットワークコントローラ１５９が接続されている。

センタサーバ２０のデータ送受信部２２、クラウドＡＰＩ選択部２３、選択データベース更新部２５は、図２に示す汎用コンピュータ１５０のハードウェアとＣＰＵ１５１で動作するプログラムとの協調動作により実現される。選択データベース２４は、図２に示す汎用コンピュータ１５０のＨＤＤ１５４に入力文書画像の特徴とクラウドＡＰＩ３１との組を格納することにより実現される。なお、ＨＤＤ１５４に代えて、外部の記憶手段をネットワーク経由で利用することによって実現してもよい。

複数のクラウドＡＰＩ３１は、クラウドサービスが提供する文字認識機能アプリケーションプログラムインターフェース（文字認識クラウドＡＰＩ）である。各クラウドＡＰＩ３１は、外部から入力された文書画像の文字認識処理を行い、文字認識結果を外部に出力する。各クラウドＡＰＩ３１は、センタサーバ２０とインターネット、電話回線等の通信回線で接続されている。

次に、図３から図１０を参照しながら、選択データベース２４の設定動作の一例について説明する。なお、以下の説明では、複数の設定用文書画像５０、複数の画像特徴データセット５１、複数の画像特徴データセットグループ５５、複数の設定用文書画像グループ６０、複数の代表画像特徴データセット７０、を区別しない場合には各符号５０，５１，５５，６０，７０を用いる。また、複数のそれぞれを区別する場合には、符号の後に括弧付けで番号を（１）、（２）、（Ｊ）のように付記して表記する。

まず、図３のステップＳ１０１、図５に示すように、選択データベース２４の設定に使用する設定用文書画像５０をＮ個準備する。設定用文書画像５０は、画像の中に含まれている含有文字列が既知の文書画像である。

次に、図３のステップＳ１０２、図５に示すように、Ｎ個の設定用文書画像５０をセンタサーバ２０に入力する。センタサーバ２０のプロセッサは、各設定用文書画像５０の画像の特徴を抽出する。画像の特徴は図５に示すように、画像の特徴を示す複数のパラメータと、各パラメータのデータとで構成される画像特徴データセット５１として抽出される。画像特徴データセット５１のパラメータは、文書画像の画素情報から算出される複数の画像特徴量と、ユーザ端末１０で文書画像を取得した際の状況を示す複数の画像属性と、学習機を用いて算出される学習特徴値とで構成されている。なお、画像特徴データセット５１は、画像特徴量と画像属性と学習特徴値とを全て含まなくてもよく、これらの内の少なくとも１つを含んでいればよい。

画像特徴量としては、様々なパラメータを用いることができるが、例えば、外部余白率、内部余白率、色度分布率、彩度分布率、色収差分布率、フォーマット化率等を用いてもよい。ここで、外部余白率は、外周の余白面積が文書画像の面積に対して何％を占めるかを示す指標である。内部余白率は、外周の余白を除いた文書画像内の白色部分が何％を占めるかを示す指標である。色度分布率は、カラフルな部分の分布状況を示す指標である。彩度分布率は、色度分布率と同様、カラフルな部分の分布状況を示す指標である。色収差分布率は、画像のズレやにじみ、ボケの分布状況を示す指数である。フォーマット化率は、文字が規則的にならんでいることを数値化した指標である。

画像属性は、例えば、ユーザ端末１０のカメラで文書画像を撮像した際の、文書画像の輝度、照度や、取得場所、取得時間である。また、学習特徴値は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）を用いて抽出した特徴値等である。

次に、図３のステップＳ１０３、図６に示すように、センタサーバ２０のプロセッサは、図３のステップＳ１０２で抽出したＮ個の画像特徴データセット５１（１）～５１（Ｎ）を相互の類似値が所定の閾値以上になるＫ個の画像特徴データセットグループ５５（１）～５５（Ｋ）に分類する。図６に示すように、各画像特徴データセットグループ５５には、それぞれ複数の画像特徴データセット５１が含まれる。例えば、画像特徴データセットグループ５５（１）には、画像特徴データセット５１（１），５１（４），・・・５１（Ｎ－１）が含まれており、画像特徴データセットグループ５５（Ｋ）には、画像特徴データセット５１（２），５１（３），・・・５１（Ｎ）が含まれている。ここで、類似値は、相互の類似性を示す数値であり、一致する場合が１．０で全く類似しない場合には０である。所定の閾値は自由に決めることができるが、例えば、０．７～０．９程度としてもよい。また、高めの閾値で分類を行い、うまく分類できない場合には、閾値を順次低くして分類を行うようにしてもよい。

また、センタサーバ２０のプロセッサは、図３のステップＳ１０４で、図６に示すように、各画像特徴データセットグループ５５にそれぞれ含まれる複数の画像特徴データセット５１に対応する各設定用文書画像５０をグループにしたＫ個の設定用文書画像グループ６０を生成する。例えば、画像特徴データセットグループ５５（１）に含まれる画像特徴データセット５１（１），５１（４），・・・５１（Ｎ－１）にそれぞれ対応する設定用文書画像５０（１），５０（４），・・・５０（Ｎ－１）をグルーピングして設定用文書画像グループ６０（１）を生成する。また、画像特徴データセットグループ５５（Ｋ）に含まれる画像特徴データセット５１（２），５１（３），・・・５１（Ｎ）にそれぞれ対応する設定用文書画像５０（２），５０（３），・・・５０（Ｎ）をグルーピングして設定用文書画像グループ６０（Ｋ）を生成する。

次に、図４のステップＳ１０５に示すように、センタサーバ２０のプロセッサは、カウンタＪに初期値の１をセットする。そして、図４のステップＳ１０６に進んで図７に示すように設定用文書画像グループ６０（Ｊ）に含まれる各設定用文書画像をＭ個のクラウドＡＰＩ３１に送信する。そして、センタサーバ２０は、図４のステップＳ１０７に示すように、Ｍ個のクラウドＡＰＩ３１（Ａ）～３１（Ｍ）からそれぞれ文字認識結果を受信する。

センタサーバ２０のプロセッサは、図４のステップＳ１０８において、一のクラウドＡＰＩ３１（Ａ）から受信した設定用文書画像グループ６０（Ｊ）に含まれる複数の設定用文書画像５０の文字認識結果と各設定用文書画像５０の既知の含有文字列とを比較して、文字認識結果と既知の含有文字列とが完全に一致した場合を正解、完全に一致しなかった場合を不正解とする。そして、センタサーバ２０のプロセッサは、正解となった設定用文書画像５０の数をカウントする。

そして、センタサーバ２０のプロセッサは、図４のステップＳ１０９において、正解数を設定用文書画像グループ６０（Ｊ）に含まれる設定用文書画像５０の全数で割って、クラウドＡＰＩ３１（Ａ）に設定用文書画像グループ６０（Ｊ）の複数の設定用文書画像５０を文字認識させた場合の正解率を算出する。

同様に、センタサーバ２０のプロセッサは、他のクラウドＡＰＩ３１（Ｂ）～ＡＰＩ３１（Ｍ）から受信した設定用文書画像グループ６０（Ｊ）に含まれる複数の設定用文書画像５０の文字認識結果と各設定用文書画像５０の既知の含有文字列とを比較して、クラウドＡＰＩ３１（Ｂ）～クラウドＡＰＩ３１（Ｍ）に設定用文書画像グループ６０（Ｊ）の複数の設定用文書画像５０を文字認識させた場合の正解率をそれぞれ算出する。

そして、センタサーバ２０のプロセッサは、図４のステップＳ１１０において、ステップＳ１０９で算出した正解率が最も高いクラウドＡＰＩ３１（Ａ）を抽出する。

次に、センタサーバ２０のプロセッサは、図４のステップＳ１１１において、図８に示すように、１つの画像特徴データセットグループ５５（Ｊ）の各パラメータの代表値を各パラメータの各データとする代表画像特徴データセット７０（Ｊ）を生成する。図８に示すように、画像特徴データセットグループ５５（１）には、画像特徴データセット５１（１），５１（４），・・・５１（Ｎ－１）が含まれている。同様に画像特徴データセット５１（４）も、画像特徴量（１）、画像特徴量（２）、画像属性（１）、画像属性（２）、学習特徴値等の各パラメータの各データが格納されている。センタサーバ２０のプロセッサは、各パラメータのデータの代表値を代表画像特徴データセット７０（Ｊ）の対するパラメータのデータに格納する。代表値は、例えば、平均値、中央値等を用いてもよい。平均値を用いる場合、画像特徴量（１）の代表値は画像特徴データセット５１（１）の画像特徴量（１）から画像特徴データセット５１（Ｎ－１）の画像特徴量（１）までの平均値となる。また、画像属性（１）では各画像特徴データセット５１の各画像属性（１）を包含する上位概念の用語を代表値としてもよい。また、ユーザ端末１０で文書画像を撮像した際の場所を画像属性（１）としている場合には、経緯度の平均値、或いは中央値を代表値としてもよい。

図９に示すように、代表画像特徴データセット７０（Ｊ）は、複数の設定用文書画像５０を含む設定用文書画像グループ６０（Ｊ）の画像の特徴を代表する代表特徴である。

図３のステップＳ１０３の分類の際の閾値を０．７～０．９程度とした場合、生成した代表画像特徴データセット７０（Ｊ）は、画像特徴データセットグループ５５（Ｊ）に含まれる複数の画像特徴データセット５１との類似値は、閾値と同様の０．７～０．９程度になる。従って、設定用文書画像グループ６０（Ｊ）に含まれる複数の設定用文書画像５０を文字認識させた場合の正解率が最も高くなるクラウドＡＰＩ３１（Ａ）は、その代表画像特徴データセット７０に類似する画像特徴データセット５１を有する文書画像の文字認識を行った際に最も高い正解率となるクラウドＡＰＩ３１となる。

センタサーバ２０のプロセッサは、図４のステップＳ１１２において、ステップＳ１１１で生成した代表画像特徴データセット７０（Ｊ）と図４のステップＳ１１０で抽出した正解率が最も高いクラウドＡＰＩ３１（Ａ）とを組にして選択データベース２４に格納する。

センタサーバ２０のプロセッサは、図４のステップＳ１１３でカウンタＪを1だけインクレメントして図４のステップＳ１１４でカウンタＪが画像特徴データセットグループ５５の数、或いは、設定用文書画像グループ６０の数であるＫを越えたかどうか判断する。そして、図４のステップＳ１１４でＮＯと判断した場合には、図４のステップＳ１０６に戻る。

そして、センタサーバ２０のプロセッサは、図４のステップＳ１０６からステップＳ１１２を繰り返し実行し、図１０に示すように、Ｋ個の代表画像特徴データセット７０と、その代表画像特徴データセット７０に類似する画像特徴データセット５１を有する文書画像の文字認識を行った際に最も高い正解率となるクラウドＡＰＩ３１との組をＫ組生成して選択データベース２４に格納する。なお、１つのクラウドＡＰＩ３１が複数の代表画像特徴データセット７０と組になっていてもよい。

そして、センタサーバ２０のプロセッサは、図４のステップＳ１１４でＹＥＳと判断したら、選択データベース２４の設定動作を終了する。

なお、以上説した選択データベース２４の設定動作は一例であって、他の動作によって選択データベース２４を設定してもよい。

次に図１及び図１１から図１３を参照して文書画像認識システム１００を用いた文字認識動作について説明する。

図１に示すように、ユーザがユーザ端末１０によって取得した文書画像をセンタサーバ２０に処理対象文書画像８０として送信すると、図１１のステップＳ２０１に示すように、センタサーバ２０のデータ送受信部２２は、処理対象文書画像８０を受信する。データ送受信部２２は、受信した処理対象文書画像８０をクラウドＡＰＩ選択部２３に出力する。

図１１のステップＳ２０２、図１２に示すように、クラウドＡＰＩ選択部２３は、先に選択データベース設定動作で説明したと同様、処理対象文書画像８０の特徴を抽出して処理対象文書画像８０の画像特徴データセット８１を生成する。

次に、クラウドＡＰＩ選択部２３は、図１１のステップＳ２０３、図１３に示すように、選択データベース２４に格納されている複数の代表画像特徴データセット７０との各類似値を算出する。そして、類似値が最大の代表画像特徴データセット７０（１）を選択する。最大の類似値は、処理対象文書画像８０の画像特徴データセット８１によって異なるが、画像特徴データセット８１が選択データベース２４の設定の際に用いた設定用文書画像５０の特徴に近いものである場合には、例えば、０．８或いは、０．７ように高くなる。一方、画像特徴データセット８１が選択データベース２４の設定の際に用いた設定用文書画像５０の特徴から離れたものである場合には０．２から０．３程度のように低くなる。

そして、クラウドＡＰＩ選択部２３は、図１１のステップＳ２０４において、ステップＳ２０３で選択した代表画像特徴データセット７０（１）と組になっているクラウドＡＰＩ３１（Ａ）を選択してデータ送受信部２２に出力する。

データ送受信部２２は、図１１のステップＳ２０５に示すようにクラウドＡＰＩ選択部２３から入力された選択されたクラウドＡＰＩ３１（Ａ）に処理対象文書画像８０を送信する。そして、データ送受信部２２は、図１１のステップＳ２０６において、クラウドＡＰＩ３１（Ａ）から文字認識結果を受信する。

そして、データ送受信部２２は、クラウドＡＰＩ３１（Ａ）から受信した文字認識結果をユーザ端末１０に送信する。

図１に示すように、ユーザ端末１０は、センタサーバ２０のデータ送受信部２２から送信された文字認識結果の文字列を文字列表示部１２に表示する。

以上説明したように、実施形態の文書画像認識システム１００は、ユーザ端末１０から受信した処理対象文書画像８０の文字認識処理に最適なクラウドＡＰＩ３１を選択し、そのクラウドＡＰＩ３１に文字認識処理を行わせるので、高い精度で文字認識処理を行うことができる。

次に、図１４から図１９を参照しながら、選択データベース２４の更新動作について説明する。

先に説明したように、クラウドＡＰＩ選択部２３は、処理対象文書画像８０の画像特徴データセット８１と選択データベース２４に格納されている複数の代表画像特徴データセット７０との各類似値を算出し、類似値が最大の代表画像特徴データセット７０を選択する。しかし、最大の類似値は、画像特徴データセット８１が選択データベース２４の設定の際に用いた設定用文書画像５０の特徴に近いものである場合には、例えば、０．８或いは、０．７ように高くなる。一方、画像特徴データセット８１が選択データベース２４の設定の際に用いた設定用文書画像５０の特徴から離れたものである場合には０．２から０．３程度のように低くなる。このため、類似値が最大となる代表画像特徴データセット７０を選択し、それと組になっているクラウドＡＰＩ３１を用いて文字認識処理を行った場合でも、文字認識結果が正解とならない可能性がある。そこで、処理対象文書画像８０の画像特徴データセット８１と選択データベース２４に格納されている代表画像特徴データセット７０との類似値ができるだけ高くなるように選択データベース２４を更新していくことが必要となる。

選択データベース２４の更新は、ユーザ端末１０がセンタサーバ２０から文字認識結果を受信して文字列表示部１２に文字認識結果の文字列を表示し、これを見たユーザが処理対象文書画像８０に含まれる正解文字列を正解文字列入力部１３に入力することにより開始される。正解文字列が入力されると、ユーザ端末１０は、正解文字列をセンタサーバ２０に送信する。センタサーバ２０は、処理対象文書画像８０を各クラウドＡＰＩ３１に送信し、受信した文字認識結果の正解或いは不正解の度合いである正解度に応じて選択データベース２４の更新を行う。以下、詳細に説明する。なお、以下の説明では、正解とは受信した文字認識結果の文字列が全て正しい場合をいい、受信した文字認識結果の文字列に１つでも正しくない文字が含まれている場合には不正解として説明する。また、以下の説明では、文字認識動作において、クラウドＡＰＩ３１（Ａ）が選択されたものとして説明する。

図１に示すように、ユーザは、ユーザ端末１０の文字列表示部１２に表示された文字認識結果の文字列を確認する。この際、ユーザ端末１０の画面には承認アイコンと文字入力エリアとが表示されている。承認アイコンと文字入力エリアとは正解文字列入力部１３を構成する。

ユーザは、文字列表示部１２に表示された文字認識結果が正しい文字列であれば、ユーザ端末１０の画面に表示されている承認アイコンを押す。すると、ユーザ端末１０は、図１１のステップＳ２０７でセンタサーバ２０から送信された文字認識結果を正解文字列としてセンタサーバ２０の選択データベース更新部２５に送信する。一方、ユーザが文字列表示部１２に表示された文字列を確認した結果、文字認識結果が正しい文字列ではないと判断した場合、ユーザは、ユーザ端末１０の画面に表示されている文字入力エリアに処理対象文書画像８０の正解文字列を入力する。ユーザ端末１０は、文字入力エリアに正解文字列が入力された場合には、入力された正解文字列をセンタサーバ２０の選択データベース更新部２５に送信する。なお、ユーザは、承認入力、或いは正解文字列の入力を音声入力してもよい。この際、音声入力機能は正解文字列入力部１３を構成する。

図１４のステップＳ３０１に示すように、センタサーバ２０の選択データベース更新部２５は、ユーザ端末１０から処理対象文書画像８０の正解文字列の入力があるまで待機し、正解文字列の入力があったら図１４のステップＳ３０２に進んで、図１９に示すように、処理対象文書画像８０をＭ個のクラウドＡＰＩ３１（Ａ）～３１（Ｍ）全てに送信する。そして、図１４のステップＳ３０３に示すように、選択データベース更新部２５は、Ｍ個のクラウドＡＰＩ３１（Ａ）～３１（Ｍ）から文字認識結果を受信する。

図１４のステップＳ３０４、図１９に示すように、選択データベース更新部２５は、先の文字認識動作でクラウドＡＰＩ選択部２３が選択したクラウドＡＰＩ３１（Ａ）から受信した文字認識結果と正解文字列とを対比し、選択したクラウドＡＰＩ３１（Ａ）の文字認識結果が正解の場合には、図１４のステップＳ３０５に進む。

選択データベース更新部２５は、図１４のステップＳ３０５で先に選択したクラウドＡＰＩ３１（Ａ）以外の他のクラウドＡＰＩ３１（Ｂ）～３１（Ｍ）から受信した文字認識結果と正解文字列とを対比し、他のクラウドＡＰＩ３１（Ｂ）～３１（Ｍ）から受信した文字認識結果の少なくとも１つに正解がある場合には、図１５のステップＳ３０６に進む。

選択データベース更新部２５は、図１５のステップＳ３０６で、図１２に示す処理対象文書画像８０の画像特徴データセット８１と先に選択したクラウドＡＰＩ３１（Ａ）と組になっている図１３に示す代表画像特徴データセット７０（１）との類似値が所定の閾値以上かどうか判断する。ここで、所定の閾値は自由に選択できるが、例えば、０．８或いは０．７程度に設定してもよい。

選択データベース更新部２５は、図１５のステップＳ３０６でＹＥＳと判断した場合には、図１５のステップＳ３０７に進んで処理対象文書画像８０の画像特徴データセット８１に基づいて先に選択したクラウドＡＰＩ３１（Ａ）と組になっている代表画像特徴データセット７０（１）を更新する。更新は、例えば、代表画像特徴データセット７０（１）の各パラメータの各データと処理対象文書画像８０の画像特徴データセット８１各パラメータの各データの差に重みをつけた量だけ代表画像特徴データセット７０（１）の各パラメータの各データを増減させてもよい。また、代表画像特徴データセット７０（１）の各パラメータの各データを処理対象文書画像８０の画像特徴データセット８１各パラメータの各データに置き換えてもよい。

また、選択データベース更新部２５は、図１５のステップＳ３０６でＮＯと判断した場合には、図１５のステップＳ３０８に進んで処理対象文書画像８０の画像特徴データセット８１と先に選択した一のクラウドＡＰＩ３１（Ａ）との組を選択データベース２４に追加する。ただし、選択データベース２４の中に、上記の組が存在する場合には、組の追加は行わない。

選択データベース更新部２５は、図１５のステップＳ３０７又はステップＳ３０８の処理を終了したら図１５のステップＳ３０９に進み、処理対象文書画像８０の画像特徴データセット８１と他のクラウドＡＰＩ３１の内で図１４のステップＳ３０５で文字認識結果が正解とされたクラウドＡＰＩ３１と組になっている代表画像特徴データセット７０との類似値が所定の閾値以上か判断する。

そして、選択データベース更新部２５は、図１５のステップＳ３０９でＹＥＳと判断した場合には、図１５のステップＳ３１０に進んで、処理対象文書画像８０の画像特徴データセット８１に基づいて他のクラウドＡＰＩ３１の内で文字認識結果が正解となったクラウドＡＰＩ３１と組になっている代表画像特徴データセット７０を更新する。更新は、先に説明したと同様、代表画像特徴データセット７０の各パラメータの各データと処理対象文書画像８０の画像特徴データセット８１各パラメータの各データの差に重みをつけた量だけ代表画像特徴データセット７０の各パラメータの各データを増減させてもよい。また、代表画像特徴データセット７０の各パラメータの各データを処理対象文書画像８０の画像特徴データセット８１各パラメータの各データに置き換えてもよい。

また、選択データベース更新部２５は、図１５のステップＳ３０９でＮＯと判断した場合には、図１５のステップＳ３１１に進んで、処理対象文書画像８０の画像特徴データセット８１と他のクラウドＡＰＩ３１の内で文字認識結果が正解となったクラウドＡＰＩ３１との組を選択データベース２４に追加する。なお、選択データベース２４に上記の組が存在する場合には、組の追加は行わない。

なお、図１４のステップＳ３０５で他のクラウドＡＰＩ３１（Ｂ）～３１（Ｍ）から受信した複数の文字認識結果が正解となった場合には、それぞれの他のクラウドＡＰＩ３１について図１５のステップＳ３０９からＳ３１１の処理を行う。

選択データベース更新部２５は、図１５のステップＳ３１０又はＳ３１１の処理を終了したら更新動作を終了する。

また、選択データベース更新部２５は、図１４のステップＳ３０５でＮＯと判断した場合には、図１６のステップＳ４０１～Ｓ４０３の動作を実行する。図１６のステップＳ４０１～Ｓ４０３の動作は、図１５に示すステップＳ３０６～Ｓ３０８の動作と同一なので、説明は省略する。

また、選択データベース更新部２５は、図１４のステップＳ３０４でＮＯと判断した場合には、図１７のステップＳ５０１に進んで、他のクラウドＡＰＩ３１（Ｂ）～３１（Ｍ）の文字認識結果に正解があるかどうかを判断する。そして、選択データベース更新部２５は、図１７のステップＳ５０１でＹＥＳと判断した場合には、図１７のステップＳ５０２～Ｓ５０４の動作を実行する。図１７のステップＳ５０２～Ｓ５０４の動作は、図１５に示すステップＳ３０９～Ｓ３１１の動作と同一なので、説明は省略する。

選択データベース更新部２５は、図１７のステップＳ５０１でＮＯと判断した場合には、図１８のステップＳ５０５に進んで、図１９に示すように、代表画像特徴データセット７０と組として選択データベース２４に格納されているクラウドＡＰＩ３１以外の別のクラウドＡＰＩ３２に処理対象文書画像８０を送信する。そして、選択データベース更新部２５は、図１８のステップＳ５０６に示すように、別のクラウドＡＰＩ３２から文字認識結果を受信したら、ステップＳ５０７で受信した文字認識結果に正解があるかどうか確認する。そして、図１８のステップＳ５０７でＹＥＳと判断した場合には、選択データベース更新部２５は、ステップＳ５０８に進んで処理対象文書画像８０の画像特徴データセット８１と別のクラウドＡＰＩ３２との組を選択データベース２４に追加する。

以上説明した更新動作では、文字認識結果が正解となったクラウドＡＰＩ３１と組になっている代表画像特徴データセット７０を処理対象文書画像８０の画像特徴データセット８１に近づけていくので、処理対象文書画像８０の画像特徴データセット８１と選択データベース２４に格納されている代表画像特徴データセット７０との類似値が次第に高くなるように選択データベース２４を更新していくことができる。また、文字認識結果に正解がなかった場合には、文字認識結果が正解となった別のクラウドＡＰＩ３２と処理対象文書画像８０の画像特徴データセット８１とを組として選択データベース２４に格納するので、正確に文字認識可能な範囲を広げていくことができる。

これにより、実施形態の文書画像認識システム１００の文字認識精度を向上させていくことができる。

以上の説明では、正解とは受信した文字認識結果の文字列が全て正しい場合をいい、受信した文字認識結果の文字列に１つでも正しくない文字が含まれている場合には不正解として説明したが、これに限らない。例えば、受信した文字認識結果に含まれる全ての文字数の内の正解の文字数の割合が９０％等、所定の閾値以上の場合には、正解とみなし、所定の閾値未満の場合を不正解として上記の更新動作を実行してもよい。

１０ユーザ端末、１１文書画像取得部、１２文字列表示部、１３正解文字列入力部、２０センタサーバ、２１文字認識処理部、２２データ送受信部、２３クラウドＡＰＩ選択部、２４選択データベース、２５選択データベース更新部、３０クラウドＡＰＩ群、３１，３２クラウドＡＰＩ、５０設定用文書画像、５１，８１画像特徴データセット、５５画像特徴データセットグループ、６０設定用文書画像グループ、７０代表画像特徴データセット、８０処理対象文書画像、１００文書画像認識システム、１５０汎用コンピュータ、１５１ＣＰＵ、１５２ＲＯＭ、１５３ＲＡＭ、１５４ＨＤＤ、１５５マウス、１５６キーボード、１５７ディスプレイ、１５８入出力コントローラ、１５９ネットワークコントローラ、１６０データバス。

Claims

文書画像を取得するユーザ端末と、
前記ユーザ端末と通信回線で接続されたセンタサーバと、
前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、
前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、
前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、
前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、
前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、
前記センタサーバは、
前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、
各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、
受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、
処理対象文書画像の特徴に基づいて選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新すること、
を特徴とする文書画像認識システム。
請求項１に記載の文書画像認識システムであって、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、
処理対象文書画像の特徴と選択した一の文字認識クラウドＡＰＩとの組を選択データベースに追加すること、
を特徴とする文書画像認識システム。
文書画像を取得するユーザ端末と、
前記ユーザ端末と通信回線で接続されたセンタサーバと、
前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、
前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、
前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、
前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、
前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、
前記センタサーバは、
前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、
各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、
受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、
処理対象文書画像の特徴に基づいて他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新すること、
を特徴とする文書画像認識システム。
請求項３に記載の文書画像認識システムであって、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、
処理対象文書画像の特徴と他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩとの組を選択データベースに追加すること、
を特徴とする文書画像認識システム。
文書画像を取得するユーザ端末と、
前記ユーザ端末と通信回線で接続されたセンタサーバと、
前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、
前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、
前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、
前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、
前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、
前記センタサーバは、
前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、
各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、
受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に正解がない場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、
処理対象文書画像の特徴に基づいて選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新すること、
を特徴とする文書画像認識システム。
請求項５に記載の文書画像認識システムであって、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に正解がない場合で、且つ、処理対象文書画像の特徴と、選択した一の文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、
処理対象文書画像の特徴と選択した一の文字認識クラウドＡＰＩとの組を選択データベースに追加すること、
を特徴とする文書画像認識システム。
文書画像を取得するユーザ端末と、
前記ユーザ端末と通信回線で接続されたセンタサーバと、
前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、
前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、
前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、
前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、
前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、
前記センタサーバは、
前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、
各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、
受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値以上の場合には、
処理対象文書画像の特徴に基づいて他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴を更新すること、
を特徴とする文書画像認識システム。
請求項７に記載の文書画像認識システムであって、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果の少なくとも１つが正解の場合で、且つ、処理対象文書画像の特徴と、他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩと組になっている入力文書画像の特徴との類似値が所定の閾値未満の場合には、
処理対象文書画像の特徴と他の文字認識クラウドＡＰＩの内で文字認識結果が正解となった文字認識クラウドＡＰＩとの組を選択データベースに追加すること、
を特徴とする文書画像認識システム。
文書画像を取得するユーザ端末と、
前記ユーザ端末と通信回線で接続されたセンタサーバと、
前記センタサーバと通信回線で接続され、入力された文書画像の文字認識処理を行い、文字認識結果を出力する複数の文字認識クラウドＡＰＩと、を含む文書画像認識システムであって、
前記センタサーバは、入力文書画像の特徴と、前記入力文書画像の文字認識処理を行った際に文字認識の正解率が複数の文字認識クラウドＡＰＩの中で最大となる文字認識クラウドＡＰＩとの組を格納した選択データベースを備え、
前記ユーザ端末は、取得した文書画像を処理対象文書画像として前記センタサーバに送信し、
前記センタサーバは、前記ユーザ端末から受信した前記処理対象文書画像から前記処理対象文書画像の特徴を抽出し、前記選択データベースに格納されている前記入力文書画像の特徴の中から前記処理対象文書画像の特徴と最も類似している前記入力文書画像の特徴を選択し、選択した前記入力文書画像の特徴と組になっている一の文字認識クラウドＡＰＩを選択し、選択した一の文字認識クラウドＡＰＩに前記処理対象文書画像を送信し、一の文字認識クラウドＡＰＩから文字認識結果を受信し、受信した文字認識結果を前記ユーザ端末に送信し、
前記ユーザ端末は、前記センタサーバから文字認識結果を受信した際に、ユーザが入力した前記処理対象文書画像に含まれる正解文字列を前記センタサーバに出力し、
前記センタサーバは、
前記ユーザ端末から前記正解文字列が入力された場合に、前記処理対象文書画像を各文字認識クラウドＡＰＩに送信し、
各文字認識クラウドＡＰＩからそれぞれ文字認識結果を受信し、
受信した文字認識結果の正解度に応じて前記選択データベースの各文字認識クラウドＡＰＩと組となっている各入力文書画像の各特徴の更新、及び、入力文書画像の特徴と文字認識クラウドＡＰＩの組の前記選択データベースへの追加のいずれか一方又は両方を行い、
前記センタサーバは、選択した一の文字認識クラウドＡＰＩから受信した文字認識結果が不正解で、且つ、選択した一の文字認識クラウドＡＰＩ以外の他の文字認識クラウドＡＰＩから受信した文字認識結果に１つも正解がなかった場合には、
入力文書画像の特徴と組として選択データベースに格納されている文字認識クラウドＡＰＩ以外の別の文字認識クラウドＡＰＩに処理対象文書画像を送信し、別の文字認識クラウドＡＰＩから受信した文字認識結果が正解の場合には、
処理対象文書画像の特徴と別の文字認識クラウドＡＰＩとの組を選択データベースに追加すること、
を特徴とする文書画像認識システム。
請求項１から９のいずれか１項に記載の文書画像認識システムにおいて、
文書画像の特徴は、文書画像の画素情報から算出される画像特徴量と、前記ユーザ端末で文書画像を取得した際の状況を示す画像属性と、学習機を用いて算出される学習特徴値と、の少なくとも１つを含むこと、
を特徴とする文書画像認識システム。
請求項１０に記載の文書画像認識システムにおいて、
前記画像属性は、前記ユーザ端末で文書画像を取得する際に前記ユーザ端末で取得した情報で、文書画像の輝度、照度、取得場所、取得時間の少なくとも１つを含むこと、
を特徴とする文書画像認識システム。
請求項１から９のいずれか１項に記載の文書画像認識システムにおいて、
前記選択データベースに格納されている文字認識クラウドＡＰＩは、含有文字列が既知の複数の設定用文書画像の特徴を抽出し、特徴が相互に類似する設定用文書画像をグルーピングし、設定用文書画像の各グループに含まれる複数の設定用文書画像の文字認識を行った際に文字認識の正解率が最大となる文字認識クラウドＡＰＩであり、
文字認識クラウドＡＰＩと組になっている入力文書画像の特徴は、設定用文書画像の各グループの特徴を代表する代表特徴であること、
を特徴とする文書画像認識システム。