JP2019185137A

JP2019185137A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2019185137A
Application number: JP2018071140A
Authority: JP
Inventors: 克彦近藤; Katsuhiko Kondo; 哲 ▲瀬▼川; Satoru Segawa; 裕一中谷; Yuichi Nakatani; 杉本　充; Mitsuru Sugimoto; 充杉本; 康日高; Yasushi Hidaka; 隼哉秋山; Junya Akiyama
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2019-10-24
Anticipated expiration: 2038-04-02
Also published as: US20210012138A1; WO2019194051A1; EP3779783A4; SG11202008335QA; US11321936B2; EP3779783A1; JP6859977B2

Abstract

【課題】事前に得られたデータとＯＣＲ処理で得られたデータとが一致する場合だけでなく、他の場合にもＯＣＲ処理結果を確認する作業者の負担を軽減できるようにする。【解決手段】画像処理装置が、複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する第一特徴量選択部と、前記文字認識対象の文書画像の文字認識処理を行う文字認識処理部と、前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する文字列選択部と、前記文字列選択部が前記文字認識の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得するユーザ判定結果取得部と、を備える。【選択図】図３

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

文字認識に関連して、特許文献１に記載のＯＣＲ入力確認修正方法では、文字認識とは別の方法で計算ログを用意しておく。そして、この方法では、計算ログとＯＣＲ読み込みデータとを突き合わせ、不一致がない場合には画面表示せずに次のエラーのある受注票まで読み飛ばしていく。

特開平０９−２２３１８７号公報

計算ログなど事前に得られたデータとＯＣＲ処理で得られたデータとが一致する場合だけでなく、他の場合にもＯＣＲ処理結果を確認する作業者の負担を軽減することができればさらに好ましい。

本発明は、上述の課題を解決することのできる画像処理装置、画像処理方法およびプログラムを提供することを目的としている。

本発明の第１の態様によれば、画像処理装置は、複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する第一特徴量選択部と、前記文字認識対象の文書画像の文字認識処理を行う文字認識処理部と、前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する文字列選択部と、前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得するユーザ判定結果取得部と、を備える。

本発明の第２の態様によれば、画像処理方法は、複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する工程と、前記文字認識対象の文書画像の文字認識処理を行う工程と、前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する工程と、前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得する工程と、を含む。

本発明の第３の態様によれば、プログラムは、コンピュータに、複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する工程と、前記文字認識対象の文書画像の文字認識処理を行う工程と、前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する工程と、前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得する工程と、を実行させるためのプログラムである。

この発明によれば、事前に得られたデータとＯＣＲ処理で得られたデータとが一致する場合だけでなく、他の場合にもＯＣＲ処理結果を確認する作業者の負担を軽減できる。

実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。実施形態に係る画像処理装置のハードウェア構成例を示す図である。第一実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。文書帳票の一例を示す図である。第一実施形態に係るデータベースが記憶する記録テーブルの概要を示す図である。第一実施形態に係る画像処理装置の処理フローを示す第一の図である。第一実施形態で、記録文字列の候補それぞれの範囲を枠で示した画像の例を示す図である。第一実施形態に係る画像処理装置の処理フローを示す第二の図である。第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。第二実施形態に係る画像処理装置の処理フローを示す第一の図である。第二実施形態に係る画像処理装置の処理フローを示す第二の図である。実施形態に係る画像処理装置の構成の例を示す図である。

以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、実施形態に係る画像処理装置を含む画像処理システムの装置構成例を示す図である。
図１に示す構成で、画像処理システム１００は画像処理装置１、画像読取装置２、記録装置３およびデータベース４により構成される。
画像処理装置１は画像読取装置２と通信ケーブルにより接続されている。画像読取装置２は光学的に文書帳票などの画像データを取得して画像処理装置１へ出力する。画像処理装置１は文書帳票の画像データをＯＣＲ処理し文字認識する。画像処理装置１は文字認識結果を記録装置３に出力し、記録装置３がその文字認識結果をデータベースに記録する。なお、画像処理装置１が対象とする文書は、特定の種類のものに限定されない。ＯＣＲ処理可能ないろいろな文書を、画像処理装置１の処理対象とすることができる。

データベース４は画像処理装置１と記録装置３とに接続されている。データベース４は記録装置３から過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうち記録対象となる文字列を示す記録文字列の対応関係を記憶している。記録文字列が示す文字列は文書帳票に記述される文字列のうちデータベース４に記録、保存しておくべき重要な文字列である。画像処理システム１００を利用する作業者は予め、記録装置３を用いて過去に登録された複数の文書帳票の画像データとその画像データに含まれる文字列のうちの記録文字列をデータベース４に登録しておく。
作業者を、画像処理装置１のユーザ、または単にユーザとも称する。

そしてデータベース４には文書帳票の画像データとその画像データに含まれる文字列の情報のうち記録対象となる文字列を示す記録文字列の情報との対応関係が、多くの文書帳票について十分に記録されているものとする。このような状態において、画像処理装置１は処理を行う。

図２は画像処理装置のハードウェア構成例を示す図である。
図２に示す構成で、画像処理装置１は、画像処理装置本体１０と、表示装置１７と、入力デバイス１８とを備える。
画像処理装置本体１０は、ＣＰＵ（Central Processing Unit）１１、ＩＦ（Interface）１２、通信モジュール１３、ＲＯＭ（Read Only Memory）１４、ＲＡＭ（Random Access Memory）１５、ＨＤＤ（Hard Disk Drive）１６などの構成を備えたコンピュータである。通信モジュール１３は画像読取装置２、記録装置３、データベース４との間で無線通信を行うものであっても、有線通信を行うものであってもよく、それら２つの機能を有していてもよい。
表示装置１７は、例えば液晶パネルまたはＬＥＤ（Light Emitting Diode）パネル等の表示画面を備える。
入力デバイス１８は、例えばキーボードおよびマウス、あるいは、表示装置１７の表示画面に設けられてタッチパネルを構成するタッチセンサ、あるいはこれらの組み合わせなど、ユーザ操作を受ける装置である。

＜第一実施形態＞
図３は、第一実施形態に係る画像処理装置１の機能構成を示す概略ブロック図である。
通信部１１０は、図２の通信モジュールを用いて構成され、他の装置と通信を行う。特に、通信部１１０は、画像読取装置２、記録装置３、データベース４と通信を行う。
表示部１２０は、図２の表示装置１７を用いて構成され、各種画像を表示する。

操作入力部１３０は、図２の入力デバイスを用いて構成され、ユーザ操作を受け付ける。
記憶部１８０は、図２のＲＯＭ１４、ＲＡＭ１５およびＨＤＤ１６を用いて構成され、各種データを記憶する。
制御部１９０は、図２のＣＰＵ１１が、記憶部１８０（図２のＲＯＭ１４、ＲＡＭ１５およびＨＤＤ１６）からプログラムを読み出して実行することで構成される。制御部１９０は、画像処理装置１の各部を制御して各種処理を実行する。
取得部１９１は、文書帳票の画像データを取得する。

記録部１９３は、新たな文書帳票の画像データにおける文字列の特徴量を用いて、新たな文書帳票の画像データから読み取った文字列の情報のうちの記録文字列を抽出して記録する。上記のように記録文字列は、記録対象の文字列である。すなわち、記録文字列は画像処理装置１がＯＣＲ処理結果から取得して出力すべき特定項目の文字列である。
記録部１９３は第一特徴量選択部の例に該当し、文書画像の種別毎かつ特定項目毎の第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する。第一特徴量は記録文字列の特徴を示し、ここでは、第一特徴量には文書画像における文字列の位置を示す座標情報が含まれる。従って、記録部１９３は、文書画像中での特定項目の文字列の位置を示す第一特徴量を選択する。

また、記録部１９３は文字列選択部の例に該当し、文字認識処理の結果の文字列のうち第一特徴量に対応する特定項目の文字列を選択する。但し、記録部１９３が常に特定項目の文字列の選択に成功するとは限らない。例えばＯＣＲ処理の結果によっては、記録部１９３が、特定項目の文字列を選択できない場合もある。また、記録部１９３が、選択した文字列の値が、特定項目の文字列の本来の値と異なっている場合もある。
ＯＣＲ処理結果から特定項目の文字列を適切に取得できなかった場合、画像処理装置１は、作業者による特定項目の文字列の入力または修正を受ける。
また、画像処理装置１が、特定項目の文字列として事前入力された文字列（事前入力データ）を利用できる場合がある。事前入力データが得られるケースの例として、例えば経理部の担当者が伝票をＯＣＲ処理する際に、営業部の担当者が取引内容の入力として伝票の内容の一部を入力していた場合など、業務フロー等で手入力されている場合が挙げられる。

特徴量抽出部１９２は、複数の文書帳票の画像データの認識処理結果に基づいて、文書帳票の画像データに含まれる記録文字列の特徴を示す第一特徴量を文書帳票の画像データ毎に抽出する。また、特徴量抽出部は文字認識処理部の例に該当し、文字認識対象の文書画像の文字認識処理（ＯＣＲ処理）を行う。特徴量の抽出を特徴量の生成とも称する。
また、特徴量抽出部１９２は機械学習部の例に該当し、事前入力された文字列と特定項目の文字列とが一致すると判定された場合、事前入力された文字列を用いて処理を行う。具体的には、特徴量抽出部１９２は、事前入力された文字列を用いて第一特徴量を更新する。従って、特徴量抽出部１９２は、文字認識結果の文字列の中から特定項目の文字列を選択するための情報を取得する機械学習に、事前入力された文字列を用いる。ここで、特徴量抽出部１９２が、記録部１９３が文字認識結果の文字列の中から特定項目の文字列の選択に失敗した場合のみ第一特徴量を更新するようにしてもよいし、成功した場合も第一特徴量を更新するようにしてもよい。従って、特徴量抽出部１９２は、記録部１９３が文字認識結果の文字列の中から特定項目の文字列を選択した場合および選択しなかった場合の何れも機械学習を行うようにしてもよい。

ユーザ判定結果取得部１９６は、記録部１９３が文字認識の結果の文字列のうち何れも定項目の文字列として選択しなかった場合、事前入力された文字列と特定項目の文字列とが一致するか否かのユーザ判定結果を取得する。具体的には、ユーザ判定結果取得部１９６は、特定項目の文字列の位置を示した文書画像と、事前入力された文字列とをユーザに提示して、前記文書画像に示される前記特定項目の文字列と前記事前入力された文字列とが一致するか否かのユーザ判定結果を取得する。

このような処理により画像処理装置１は新たな文書帳票の画像データに含まれる記録するべき文字列情報の記録の労力を軽減する。

図４は文書帳票の一例を示す図である。
この図が示すように文書帳票には、その文書を作成した企業のマーク、作成日、作成担当者、文書内容が、その文書帳票に特有のフォーマットで記述されている。文書内容は、例えば文書帳票が発注票であれば発注した商品名やその発注個数などの情報の組が１つまたは複数示される。作業者はある１つの文書帳票に基づいて、その文書帳票に記述されている文字列のうち記録すべき特定項目の文字列（記録文字列）を、記録装置３を用いてデータベース４へ記録する。具体的には作業者は文書帳票を見ながら記録装置３がデータベース４に記録すべき記録文字列を入力する。また作業者は文書帳票の画像データを画像読取装置２に読み込ませる。文書帳票は作業者の操作に基づいて画像読取装置２が読み取り画像処理装置１へ出力する。そして記録装置３は作業者の操作と画像処理装置１の制御とに基づいて、１つの文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けてデータベース４に記録する。図４の例においては、日付５１、発注先５２、商品名５３、数量５４、金額５５が記録文字列である。文書帳票５には作業者によって記録されない非記録文字列等のその他の情報も印字されている。当該情報は例えば文書帳票を発行した発注者の名称５０１、発注者のエンブレム画像５０２、文書帳票のタイトル５０３、挨拶文５０４などである。

図５はデータベースが記憶する記録テーブルの概要を示す図である。
図５で示すようにデータベース４は文書帳票についての画像データと、その文書帳票に記述されている文字列のうち記録文字列を対応付けて記録テーブルに記憶する。

図６は第一実施形態に係る画像処理装置の処理フローを示す第一の図である。図６は、画像処理装置１が第一特徴量を抽出する処理手順の例を示す。
次に画像処理装置１の処理フローについて順を追って説明する。
まずデータベース４にはある文書帳票についての画像データと、その文書帳票に記述されている記録文字列との組み合わせが、同じ書式（Format）の文書帳票複数枚分記録されている。例えば図４で示す文書帳票５の書式の記録文字列情報（記録文字列を示す情報）が複数枚分記録されているとする。

これら画像データと記録文字列情報との組み合わせとして、例えば過去の業務で扱われた文書帳票の画像データおよび記録文字列情報を用いることができる。過去の業務から画像データおよび記録文字列情報を必要量確保できる場合、画像処理装置に第一特徴量を取得させるために画像データおよび記録文字列情報を別途用意する必要はない。
このような状態で作業者が画像処理装置１を起動し、当該画像処理装置１へ処理開始を指示する。

画像処理装置１の取得部１９１は、通信部１１０を制御してデータベース４から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る（ステップＳ６０１）。取得部１９１は画像データと記録文字列とを特徴量抽出部１９２へ出力する。特徴量抽出部１９２は画像データをＯＣＲ処理して画像データ中の全ての文字列と、当該文字列の範囲を示す画像データ内の座標とを検出する（ステップＳ６０２）。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部１９２は他の文字との間隔などによってその１つの纏まりの範囲を解析し、その範囲に含まれる１つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。

特徴量抽出部１９２はＯＣＲ処理により画像データから抽出した文字列と、画像データと共にデータベース４から読み取った記録文字列とを比較する。特徴量抽出部１９２はＯＣＲ処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する（ステップＳ６０３）。

ここでいう文字の属性（文字属性）は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。以下、文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。

また、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部１９２が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部１９２が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。

なお、特徴量抽出部１９２が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置１が、その文書画像を処理対象（第一特徴量の抽出対象）から除外するようにしてもよい。あるいは、画像処理装置１が、記録文字列の候補それぞれの範囲を枠で示した画像を表示部１２０に表示させ、作業者によって選択された文字列に記録文字列を特定するようにしてもよい。ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか１つを、１つの記録文字列に決定することである。
特徴量抽出部１９２が、１つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか１つを選択することで、記録文字列が一意に特定される。

次に、特徴量抽出部１９２は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する（ステップＳ６０４）。
具体的には、特徴量抽出部１９２は、記録文字列毎に、複数の文書帳票におけるその記録文字列の文字列属性を解析して、１つの記録文字列に１つの特徴量を抽出する。
特徴量抽出部１９２が、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を抽出する方法は、特定の方法に限定されない。例えば、特徴量抽出部１９２が、複数の文書帳票から得られた複数の文字列属性について、先頭の文字の座標、末尾の文字の座標、文字の種類、文字の高さ、フォントの種類などの項目毎に最頻値（Mode）を求めるようにしてもよい。また、特徴量抽出部１９２が、先頭の文字の座標、末尾の文字の座標、文字の高さ、文字間の距離など数値で示される属性について項目毎に平均値（Average）または中央値（Median）を求めるようにしてもよい。また、特徴量抽出部１９２が、数値で表される項目について、その最大値および最小値を特徴量とするなど、範囲を有する特徴量、あるいは、複数の数値で表される特徴量を用いるようにしてもよい。また、特徴量抽出部１９２が、文字の種類、フォントの種類など数値以外の属性を数値化して特徴量を求めるようにしてもよい。また、特徴量抽出部１９２が、公知の機械学習アルゴリズムを用いて特徴量を抽出するようにしてもよい。
特徴量抽出部１９２が、文書帳票の１つの書式かつ１つの記録文字列について複数の数値を取得した場合、これら複数の数値をベクトル化して１つのベクトルの特徴量を抽出するようにしてもよい。

特徴量抽出部１９２が抽出した、同じ書式の文書帳票に共通かつ記録文字列毎の特徴量を第一特徴量と称する。特徴量抽出部１９２は、同じ書式の複数枚の文書帳票を用いて、その書式における記録文字列それぞれの第一特徴量を抽出する。第一特徴量は記録文字列を抽出するための特徴量である。第一特徴量に、文字の属性を示す情報、文字列の範囲を示す座標の何れか、またはこれらの組み合わせが含まれていてもよい。
特徴量抽出部１９２は、記録文字列毎に得られた第一特徴量を、文書帳票の書式の識別子に紐づけてデータベース４に記録する（ステップＳ６０５）。

例えば特徴量抽出部１９２は、図４の文書帳票５の書式に含まれる記録文字列である日付５１、発注先５２、商品名５３、数量５４、金額５５それぞれの、文字属性、文字列の範囲を示す座標などを示す各第一特徴量を、文書帳票５の書式識別子に紐づけてデータベース４に記録する。
ステップＳ６０５の後、画像処理装置１は、図６の処理を終了する。

以上の処理により画像処理装置１は、作業者の記録文字列を記録する労力を軽減するために利用する情報（第一特徴量）を抽出してデータベース４に蓄積することができる。これにより画像処理装置１は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動で、または半自動でデータベース４に記録していくことができる。図７および図８を参照して、その処理について説明する。

図７は第一実施形態に係る画像処理装置の処理フローを示す第二の図である。図７は、画像処理装置１が、新たに入力された画像データから記録文字列を抽出する処理手順の例を示す。
作業者は新たな文書帳票を画像読取装置２に読み取らせる操作を行う。これにより画像読取装置２は文書帳票の画像データを生成して画像処理装置１へ出力（送信）する。画像処理装置１の取得部１９１は、通信部１１０の受信データから画像データを取得する（ステップＳ７０１）。取得部１９１は画像データを特徴量抽出部１９２へ出力する。特徴量抽出部１９２は、帳票に対応する学習結果をデータベース４から取得する（ステップＳ７０２）。例えば、特徴量抽出部１９２は記録文字列毎に、その記録文字列の読取位置（座標情報）および文字種情報を示す第一特徴量を学習結果として取得する。

また、特徴量抽出部１９２は、画像読取装置２から得られた画像データをＯＣＲ処理して、文字列と、その文字列に含まれる文字の特徴（文字属性）と、その文字列の範囲の画像データ中の座標とを文字列毎に検出する（ステップＳ７０３）。学習結果が示す位置情報と、ＯＣＲ処理で得られた位置情報とを比較することで、特徴量抽出部は、ＯＣＲ処理で得られた各文字列が、取得対象の文字列（記録文字列）か否かを判定できる。
次に、画像処理装置１は、学習結果が示す読取位置毎に処理を行うループＬ１を開始する（ステップＳ７０４）。ループＬ１で処理対象になっている読取位置をＭ番目の読取位置と称する。ループＬ１では、画像処理装置１は、ループ内処理を行う（ステップＳ７０５）。
記録文字列を読取位置の文字列、または、読取文字列とも称する。

図８は、第一実施形態に係る画像処理装置の処理フローを示す第三の図である。図８は、画像処理装置１がステップＳ７０５で行う処理の手順を示す。
図８の処理で、記録部１９３は、Ｍ番目の読取位置の文字列の事前入力データがあるかを判定する（ステップＳ８０１）。事前入力データ無しと判定した場合（ステップＳ８０１：ＮＯ）、記録部１９３は、Ｍ番目の読取位置の文字列をＯＣＲ処理で読み取れたか否かを判定する（ステップＳ８０２）。読み取れなかったと記録部１９３が判定した場合（ステップＳ８０２：ＮＯ）、画像処理装置１は、Ｍ番目の読取位置文字列について作業者によるキー入力を受ける（ステップＳ８０３）。例えば表示部１２０が、文書帳票の画像上で読取位置を矩形で示す入力依頼画面を表示し、操作入力部１３０が文字列の入力操作を受ける。
そして、記録部１９３は、キー入力内容（キー入力で得られた文字列）とＯＣＲ処理結果とを含む学習用データを生成する（ステップＳ８０４）。ここでの学習用データは、特徴量抽出部１９２が第一特徴量を更新する機械学習のための学習用データである。
ステップＳ８０４の後、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

一方、ステップＳ８０２でＭ番目の読取位置の文字列をＯＣＲ処理で読み取れたと記録部１９３が判定した場合（ステップＳ８０２：ＹＥＳ）、作業者がＯＣＲ処理で得られた文字列と文書帳票の画像とを比較する（ステップＳ８１１）。画像処理装置１は、ＯＣＲ処理で得られた文字列に誤りがあるかについての作業者の判定を受ける（ステップＳ８１２）。具体的には、表示部１２０がユーザ判定結果取得部１９６の制御に従って、ＯＣＲ処理で得られた文字列と文書帳票の画像とを表示する。表示部１２０は、文書帳票の画像上で読取位置を矩形で示す入力依頼画面を表示する。そして、操作入力部１３０が、作業者の判定結果の入力操作を受け付ける。ユーザ判定結果取得部１９６は、操作入力部１３０の出力信号に基づいて、ユーザの判定結果を検知する。

ＯＣＲ処理で得られた文字列が正しいと判定された場合（ステップＳ８１２：ＮＯ）、画像処理装置１は図８の処理を終了して図７の処理へ戻る。
一方、ＯＣＲ処理で得られた文字列に誤りがあると判定された場合（ステップＳ８１２：ＹＥＳ）、作業者がキー入力で文字列を修正する（ステップＳ８１３）。例えば、表示部１２０が、ＯＣＲ処理で読み取れた文字列と文書帳票の画像とを表示する。そして、操作入力部１３０が、文字列の修正のユーザ操作を受け付ける。
ステップＳ８１３の後、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

一方、ステップＳ８０１で、Ｍ番目の読取位置の文字列の事前入力データがあると判定した場合（ステップＳ８０１：ＹＥＳ）、記録部１９３は、Ｍ番目の読取位置の文字列をＯＣＲ処理で読み取れたか否かを判定する（ステップＳ８２１）。読み取れなかったと記録部１９３が判定した場合（ステップＳ８２１：ＮＯ）、作業者が事前入力データの文字列と文書帳票の画像とを比較する（ステップＳ８２２）。画像処理装置１は、事前入力データの文字列に誤りがあるかについての作業者の判定を受ける（ステップＳ８２３）。具体的には、表示部１２０がユーザ判定結果取得部１９６の制御に従って、事前入力データの文字列と文書帳票の画像とを表示する。そして、操作入力部１３０が、作業者の判定結果の入力操作を受け付ける。ユーザ判定結果取得部１９６は、操作入力部１３０の出力信号に基づいて、ユーザの判定結果を検知する。

事前入力データの文字列に誤りがあると判定された場合（ステップＳ８２３：ＹＥＳ）、作業者がキー入力で文字列を修正する（ステップＳ８２４）。例えば、表示部１２０が、事前入力データの文字列と文書帳票の画像とを表示する。そして、操作入力部１３０が、文字列の修正のユーザ操作を受け付ける。
ステップＳ８２４の後、処理がステップＳ８０４へ進む。
一方、ステップＳ８２３で、事前入力データの文字列が正しいと判定された場合（ステップＳ８２３：ＮＯ）、記録部１９３は、事前入力データとＯＣＲ処理結果とを含む学習用データを生成する（ステップＳ８２５）。
ステップＳ８２５の後、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

一方、ステップＳ８２１で、Ｍ番目の読取位置の文字列をＯＣＲ処理で読み取れたと判定した場合（ステップＳ８２１：ＹＥＳ）。記録部１９３は、事前入力データの文字列とＯＣＲ処理結果の文字列とが一致するかを判定する（ステップＳ８３１）。一致すると記録部１９３が判定した場合（ステップＳ８３１：ＹＥＳ）、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

一方、ステップＳ８３１で、事前入力データの文字列とＯＣＲ処理結果の文字列とが一致しないと判定した場合（ステップＳ８３１：ＮＯ）、作業者が事前入力データの文字列と文書帳票の画像とを比較する（ステップＳ８３２）。画像処理装置１は、事前入力データの文字列に誤りがあるかについての作業者の判定を受ける（ステップＳ８３３）。具体的には、表示部１２０がユーザ判定結果取得部１９６の制御に従って、事前入力データの文字列と文書帳票の画像とを表示する。そして、操作入力部１３０が、作業者の判定結果の入力操作を受け付ける。ユーザ判定結果取得部１９６は、操作入力部１３０の出力信号に基づいて、ユーザの判定結果を検知する。
事前入力データの文字列が正しいと判定された場合（ステップＳ８３３：ＮＯ）、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

一方、事前入力データの文字列に誤りがあると判定された場合（ステップＳ８３３：ＹＥＳ）、作業者がキー入力で文字列を修正する（ステップＳ８３４）。例えば、表示部１２０が、事前入力データの文字列と文書帳票の画像とを表示する。そして、操作入力部１３０が、文字列の修正のユーザ操作を受け付ける。
ステップＳ８３４の後、画像処理装置１は図８の処理を終了して図７の処理へ戻る。

図７のステップＳ７０５の後、制御部１９０は、ループＬ１の終端処理を行う（ステップＳ７０６）。具体的には、制御部１９０は、学習結果が示す全ての読取位置についてループＬ１の処理を完了したかを判定する。未処理の読取位置があると制御部１９０が判定した場合、処理がステップＳ７０４へ戻り、画像処理装置１は、未処理の読取位置について引き続きループＬ１の処理を行う。一方、全ての読取位置についてループＬ１の処理を完了したと制御部１９０が判定した場合、画像処理装置１はループＬ１の処理を終了する。

ループＬ１の後、画像処理装置１は、ＯＣＲ処理結果として記録文字列を出力し、データベース４に記録させる（ステップＳ７０７）。具体的には、記録部１９３は、通信部１１０を介してデータベース４に記録文字列を記録させる。また、特徴量抽出部１９２は、得られた学習用データを用いて機械学習を行って第一特徴量を更新する（ステップＳ７０８）。例えば画像処理装置１が、図６の処理フローを再度実施するようにしてもよい。あるいは画像処理装置１が追加学習を行うことで、図６で処理済みのデータについては再度処理を行うことなく第一特徴量を更新するようにしてもよい。
ステップＳ７０８の後、画像処理装置１は、図７の処理を終了する。

図８で示した学習用データ生成タイミング（ステップＳ８０４およびＳ８２５）は一例であり、これに限定されない。例えば、記録部１９３が、ステップＳ８０４およびＳ８２５に加えて、ステップＳ８１２でＮＯの場合、ステップＳ８１３の後、ステップＳ８３３でＮＯの場合およびステップＳ８３４の後にも学習用データを生成するようにしてもよい。
特に、画像処理装置１がＯＣＲ処理に失敗した場合（ＯＣＲ処理では記録文字列を適切に得られなかった場合）、成功した場合のいずれも、記録部１９３が学習用データを生成することで、文書帳票の書式の統計的な情報を機械学習に反映させることができる。
ここで、ＯＣＲ処理に失敗した場合のみ機械学習を行う場合、画像処理装置１がＯＣＲ処理に成功すると機械学習を行わない結果、文書帳票の書式の統計的な情報が機械学習に反映されない場合がある。

例えば、文書帳票１００枚中９９枚まで左下に記録文字列があり、１枚だけ右上に記録文字列がある場合を考える。この場合、画像処理装置１が、同じ位置に記録文字列がある文書帳票では画像処理装置１がＯＣＲ処理に成功する（ステップＳ８０２：ＹＥＳとなる、あるいは、ステップＳ８２１：ＹＥＳとなる）と、記録文字列が左下にある場合、右上にある場合とも１回ずつ学習を行う。実際には９９対１の割合であるのに、画像処理装置１の学習では１対１の割合で学習を行うことになり、記録文字列が右上にある場合について過学習してしまう可能性がある。

これに対し、画像処理装置１がＯＣＲ処理に成功した場合、失敗した場合のいずれも機械学習（第一特徴量の更新）を行うことで、文書帳票の書式の統計的な情報を機械学習に反映させることができる。例えば上記のように、記録部１９３が、ステップＳ８０４およびＳ８２５に加えて、ステップＳ８１２でＮＯの場合、ステップＳ８１３の後、ステップＳ８３３でＮＯの場合およびステップＳ８３４の後にも学習用データを生成する。これにより、画像処理装置１がＯＣＲ処理に失敗した場合、成功した場合のいずれも、特徴量抽出部１９２が第一特徴量を更新する。

ここでの画像処理装置１がＯＣＲ処理に成功した場合は、図７のステップＳ７０８で、画像処理装置１（特に記録部１９３）が、ＯＣＲ処理で読み取られた文字列を記録文字列としてデータベース４に記録させる場合である。一方、画像処理装置１がＯＣＲ処理に失敗した場合は、図７のステップＳ７０８で、画像処理装置１（特に記録部１９３）が、ＯＣＲ処理以外で得られた文字列を記録文字列としてデータベース４に記録させる場合である。ＯＣＲ処理以外で得られた文字列として、事前入力データの文字列、および、ユーザがキー入力した文字列が挙げられる。

画像処理装置１が、図７および図８の処理で第一特徴量を更新することで、サンプルデータ数が増加して第一特徴量の精度が向上し、画像処理装置１が記録文字列を抽出する精度が向上することが期待される。また、図８の処理で記録文字列が追加された場合、画像処理装置１が新たに追加された記録文字列についても画像データから抽出できるようになり、作業者が文字列を入力する手間を省けることが期待される。

図７および８に示す処理によれば、画像処理装置１は予め作業者が記録しておいた文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置１は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。

＜第二実施形態＞
第二実施形態では、画像処理装置１が、文書帳票の複数の書式に対応する場合について説明する。
図９は第二実施形態に係る画像処理装置の機能構成を示す概略ブロック図である。
図９に示すように第二実施形態に係る画像処理装置１は、図３で示した各機能部に加え、さらにグループ分類部１９４、グループ特定部１９５の機能を有する。

図１０は第二実施形態に係る画像処理装置の処理フローを示す第一の図である。
次に第二実施形態に係る画像処理装置１の処理フローについて順を追って説明する。
データベース４には書式が異なる複数の文書帳票についての画像データと、各文書帳票に記述されている記録文字列の組み合わせが、その文書帳票毎に多数記録されている。このような状態で作業者が画像処理装置１を起動し、当該画像処理装置１へ処理開始を指示する。

画像処理装置１の取得部１９１はデータベース４から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだかを判定する（ステップＳ９０１）。ＮＯの場合、取得部１９１はデータベース４から文書帳票の画像データとその画像データに対応する記録文字列の情報とを読み取る（ステップＳ９０２）。取得部１９１は画像データと記録文字列とを特徴量抽出部１９２へ出力する。特徴量抽出部１９２は画像データをＯＣＲ処理して画像データ中の全ての文字列とその画像データ内の座標とを検出する（ステップＳ９０３）。なお文字列は複数の文字によって構成される文字の纏まりである。特徴量抽出部１９２は他の文字との間隔などによってその１つの纏まりの範囲を解析し、その範囲に含まれる１つまたは複数の文字を文字列として抽出すると共に、その画像データ内の文字列の範囲を示す座標を検出する。文字列として含まれる文字は、表意文字、表音文字などの記号、マーク、アイコン画像などを含んでよい。

特徴量抽出部１９２はＯＣＲ処理により画像データから抽出した文字列と、画像データと共にデータベース４から読み取った記録文字列とを比較する。特徴量抽出部１９２はＯＣＲ処理により画像データから抽出した文字列のうち、記録文字列の文字情報と一致した画像データ中の文字列と、その文字列に含まれる文字の属性と、その範囲の座標とを特定する（ステップＳ９０４）。

第一実施形態で説明したように、文字の属性は、数字、アルファベット、ひらがな、漢字、文字数、文字高さ、フォントなどにより表される情報である。また文字列の範囲の座標は、文書帳票における文字列の位置を示す座標である。例えば、文字列の範囲の座標は、文字列に含まれる先頭文字の座標、終了文字の座標などを示す情報であってもよい。文字列に含まれる文字の属性と文字列の範囲の座標とを総称して、文字列の属性または文字列属性と表記する。

第一実施形態の場合と同様、ここでの文字情報は、文字列のみであってもよいし、文字列属性を含んでいてもよい。すなわち、特徴量抽出部１９２が、記録文字列と画像データ中の文字列とが文字列として同一か否かを判定するようにしてもよい。あるいは、特徴量抽出部１９２が、文字の同一性に加えて、文字列属性の同一性を判定するようにしてもよい。

なお、特徴量抽出部１９２が記録文字列と文字情報が一致する文字列を一意に特定できない場合、画像処理装置１が、その文書画像を処理対象（第一特徴量の抽出対象）から除外するようにしてもよい。あるいは、画像処理装置１が、記録文字列の候補それぞれの範囲を枠で示した画像を表示部１２０に表示させ、作業者によって選択された文字列に記録文字列を特定するようにしてもよい。第一実施形態で説明したように、ここでいう記録文字列の候補は、文字情報が記録文字列の文字情報と一致した文字列のうち、一意に特定されていないと判定された記録文字列に対応付けられている文字列である。また、ここでいう記録文字列の特定は、文書帳票における文字列のうち何れか１つを、１つの記録文字列に決定することである。
特徴量抽出部１９２が、１つの記録文字列の文字情報に対して、文書帳票における複数の文字列それぞれの文字情報が一致すると判定した場合、これら複数の文字列が、その記録情報の候補となる。作業者が、これら複数の文字列のうち何れか１つを選択することで、記録文字列が一意に特定される。

次に、特徴量抽出部１９２は、文書帳票毎かつ記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ記録文字列毎の特徴量を抽出する（ステップＳ９０５）。具体的には、特徴量抽出部１９２は、ステップＳ９０４で記録文字列に対応付けた文字列の文字列属性を特徴量化する。第二実施形態では複数種類の書式を対象とするため、文書帳票を書式毎にグループ分けしていないステップＳ９０５の時点では、図７のステップＳ６０４の場合と異なり直接第一特徴量を抽出することはできない。そこで、特徴量抽出部１９２は、グループ毎の第一特徴量を抽出する準備として、文書帳票毎かつ記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ記録文字列毎の特徴量を個別第一特徴量と称する。
特徴量抽出部１９２は、得られた個別第一特徴量を、文書帳票の識別子および記録文字列の識別子に紐づけてデータベース４に記録する（ステップＳ９０６）。記録文字列の識別子として、例えばその記録文字列の位置を示す座標値を用いることができる。

例えば特徴量抽出部１９２は、図４の文書帳票５の書式に含まれる記録文字列である日付５１、発注先５２、商品名５３、数量５４、金額５５それぞれの、文字属性、文字列の範囲を示す座標などを示す個別第一特徴量を、文書帳票毎かつ記録文字列毎に、文書帳票５の識別子および記録文字列の識別子に紐づけてデータベース４に記録する。

特徴量抽出部１９２はまた、記録文字列に含まれる文字情報と一致しない画像データ中の非記録文字列と、その非記録文字列の文字列属性とを抽出する（ステップＳ９０７）。上述したように、非記録文字列は、作業者によって記録されない文字列、すなわち、記録文字列以外の文字列である。文字列属性には、その文字列に含まれる文字の属性を示す情報、その文字列の範囲の座標を示す情報の何れか一方あるは両方が含まれていてもよい。

特徴量抽出部１９２は、文書帳票毎かつ非記録文字列毎に抽出した文字列属性を用いて、文書帳票毎かつ非記録文字列毎の特徴量を抽出する（ステップＳ９０８）。
具体的には、特徴量抽出部１９２は、ステップＳ９０４で何れの記録文字列にも対応付けられなかった文字列の各々について、その文字列の属性（文字列属性）を特徴量化する。第一特徴量の場合と同様、文書帳票を書式毎にグループ分けしていないステップＳ９０８の時点では、同じ書式の文書帳票に共通の特徴量を生成（抽出）することはできない。そこで、特徴量抽出部１９２は、グループ毎の第二特徴量を抽出する準備として、文書帳票毎かつ非記録文字列毎の特徴量を抽出しておく。この文書帳票毎かつ非記録文字列毎の特徴量を個別第二特徴量と称する。

特徴量抽出部１９２が、文書帳票毎、かつ、複数の非記録文字列を纏めた個別第二特徴量を生成するようにしてもよい。例えば、特徴量抽出部１９２が、１つの文書帳票につき１つの個別第二特徴量を生成するようにしてもよい。
特徴量抽出部１９２は、得られた個別第二特徴量を、文書帳票の識別子および非記録文字列の識別子に紐づけてデータベース４に記録する（ステップＳ９０９）。非記録文字列の識別子として、例えばその非記録文字列の位置を示す座標値を用いることができる。

例えば特徴量抽出部１９２は、図４の文書帳票５の書式に含まれる非記録文字列である発注者の名称５０１、発注者のエンブレム画像、文書帳票のタイトル５０３、挨拶文５０４などを示す個別第二特徴量を、文書帳票５の識別子および非記録文字列の識別子に紐づけてデータベース４に記録する。

データベース４には、文書帳票の複数の書式それぞれについて、その書式の文書帳票の画像データとその画像データに対応する記録文字列の情報が記録されている。画像処理装置１の取得部１９１は全ての文書帳票についての画像データと記録文字列の情報を読み込むまでステップＳ９０１〜ステップＳ９０９の処理を繰り返す。

ステップＳ９０１で、取得部１９１がデータベース４から文書帳票の画像データとその画像データに対応する記録文字列の情報とを全て読み込んだと判定した場合（ステップＳ９０１：ＹＥＳ）、グループ分類部１９４が文書帳票をグループ分けする（ステップＳ９２１）。グループ分類部１９４は、文書帳票の画像データに含まれる個別第二特徴量に基づいて、文書帳票をグループ分けする。例えばグループ分類部１９４は、各文書帳票を、個別第二特徴量が示す非記録文字列の一致度や、エンブレム画像の一致度、非記録文字列の座標範囲の一致度などに基づいてグループ分けする。グループ分類部１９４はこのグループ分けの処理において文書帳票のグループ識別子を決定する。グループ分類部１９４は全ての文書帳票についてグループ分けが終了したかを判定する（ステップＳ９２２）。

グループ分類部１９４は全ての文書帳票のグループ分けが完了していない場合にはステップＳ９２１の処理を繰り返す。具体的には、ステップＳ９２２で、グループ分けを終了していない文書帳票があるとグループ分類部１９４が判定した場合（ステップＳ９２２：ＮＯ）、処理がステップＳ９２１へ戻る。
グループ分類部１９４は、全ての文書帳票のグループ分けが完了した場合（ステップＳ９２２：ＹＥＳ）、文書帳票の識別子とその文書帳票に付与されたグループ識別子とを対応付けてデータベース４のグループテーブル（記録テーブル）に記録する（ステップＳ９２３）。

そして特徴量抽出部１９２は、あるグループに属する１つまたは複数の文書帳票の各個別第一特徴量および各個別第二特徴量をデータベース４から読み取り、グループに属する文書帳票の各個別第一特徴量および各個別第二特徴量に対応する各グループ第一特徴量、各グループ第二特徴量を抽出する（ステップＳ９２４）。各グループ第一特徴量はグループに属する文書帳票の各個別第一特徴量の平均等の値であってもよい。同様に各グループ第二特徴量はグループに属する文書帳票の各個別第二特徴量の平均等の値であってもよい。各グループ第一特徴量、各グループ第二特徴量は、各個別第一特徴量の平均、各個別第二特徴量の平均でなくとも、所定の統計処理や機械学習等の手法を用いて、グループに属する１つ又は複数の文書帳票の記録文字列や非記録文字列を特定できるよう算出された特徴量であれば、どのような手法を用いて、各グループ第一特徴量、各グループ第二特徴量を抽出してもよい。
例えば、特徴量抽出部１９２がステップＳ９２４で、同一グループに属する複数の文書帳票から記録文字列毎に文字列属性を抽出して（直接的に）グループ第一特徴量を生成するようにしてもよい。この場合、特徴量抽出部１９２が、ステップＳ９０５およびステップＳ９０６での個別第一特徴量の抽出および記録をパスする（特に何も処理を行わない）。

一方、個別第二特徴量については、ステップＳ９２１でのグループ分けで使用できるように、特徴量抽出部１９２がステップＳ９０８で抽出しておく。但し、ステップ９２１で、グループ分類部１９４が、個別第二特徴量を用いず非記録文字列を用いて文書帳票のグループ分けを行うようにしてもよい。この場合、特徴量抽出部１９２がステップＳ９２４で、同一グループに属する複数の文書帳票の非記録文字列の文字列属性から（直接的に）グループ第二特徴量を抽出するようにしてもよい。この場合、特徴量抽出部１９２は、ステップＳ９０７〜ステップＳ９０９では特に何も処理を行わない。
特徴量抽出部１９２は、グループそれぞれについて各グループ第一特徴量、各グループ第二特徴量を算出し、グループの識別子に対応付けてデータベース４に記録する（ステップＳ９２５）。
ステップＳ９２５の後、画像処理装置１は、図１０の処理を終了する。

以上の処理により画像処理装置１は、作業者の記録文字列を記録する労力を軽減するために必要な情報（グループ第一特徴量およびグループ第二特徴量）を文書帳票のグループ毎に抽出してデータベース４に蓄積することができる。これにより画像処理装置１は新たな文書帳票の画像データの入力を受けて、その文書帳票に含まれる記録文字列を自動でデータベース４に記録していくことができる。その処理として、図７および図８の処理を用いることができる。その場合、図７のステップＳ７０２で特徴量抽出部１９２が学習結果を取得する際に、グループを特定し、特定したグループに応じた学習結果（第一特徴量）を取得する。グループを特定する処理手順の例について、図１１を参照して説明する。

図１１は第二実施形態に係る画像処理装置の処理フローを示す第二の図である。
ステップＳ１００１は、図７のステップＳ７０１と共通である。ステップＳ１００２は、図７のステップＳ７０３と共通である。そこで、画像処理装置１は、図１１の処理を行う場合、図７の処理としてはステップＳ７０２の前にステップＳ７０３を実行する。
ステップＳ１００２の後、特徴量抽出部１９２はそれら検出した情報を特徴量化した第三特徴量を、画像データ中の文字列毎に抽出する（ステップＳ１００３）。第三特徴量は新たに読み込んだ画像データの文書帳票に含まれる文字列の特徴を示す情報である。

次にグループ特定部１９５が、データベース４が記憶しているグループ第二特徴量のうち新たな文書帳票のグループ特定に利用するグループ第二特徴量を読み取る。当該グループ第二特徴量は例えば文書帳票の画像データに表示される発注者のエンブレム画像５０２に対応する特徴量であってよい。グループ特定部１９５はあるグループ第二特徴量に示す情報が、ステップＳ１００１で取得した文書帳票の画像データから特定できるかどうかを判定する。グループ特定部１９５は全てのグループについてのグループ第二特徴量を用いて同様の処理を行う。グループ特定部１９５はデータベース４から読み取ったグループ第二特徴量に一致する情報が新たに読み込んだ文書帳票の画像データから特定できた場合、そのグループ第二特徴量を有するグループを、新たに読み込んだ文書帳票の画像データのグループと特定する（ステップＳ１００４）。その後、グループ特定部１９５はデータベース４からそのグループについての１つまたは複数のグループ第一特徴量を読み出す（ステップＳ１００５）。グループ第一特徴量はそのグループに属する文書帳票内の１つまたは複数の記録文字列を特定するための特徴量である。
ステップＳ１００５は図７のステップＳ７０２に相当し、グループ第一特徴量はステップＳ７０２での学習結果の例に該当する。以下、画像処理装置１はグループ第一特徴量を用いて図７のステップＳ７０４以降の処理を行う。

これにより、画像処理装置１は予め作業者が記録しておいた複数の書式それぞれの文書帳票の画像データと記録文字列とによって、新たに入力させた文書帳票の種別によらずにその文書帳票の画像データにおける記録文字列を自動的に記録することができる。したがって画像処理装置１は文書帳票における記録文字列の記録の作業者の労力を軽減することができる。

＜第三実施形態＞
なお、画像処理装置１の処理の他の例としては、作業者が予め文書帳票のグループを画像処理装置１に登録しておいてもよい。例えば作業者は、過去において文書帳票の画像データを登録する際、文書帳票の種類に合わせてグループ識別子を入力しておき文書帳票の画像データと紐づけてデータベース４に登録しておく。これにより、同一グループ内に画像処理装置１の処理誤り等により異種の帳票が混じることがなくなり、精度のよい第一特徴量を抽出することができる。なおこの場合、登録時は作業者が文書帳票のグループを入力するが、新たな帳票に対しては、ステップＳ１００４と同じく、第二特徴量を用いてグループ特定する。

＜第四実施形態＞
また、画像処理装置１の処理の他の例としては、画像処理装置１は第二特徴量を用いて文書帳票をグループ分けするだけでなく、第一特徴量を用いて、また第二特徴量と共に第一特徴量を用いて、文書帳票をグループ分けするようにしてもよい。第一特徴量は記録文字列の特徴量であるが、同じ種類の文書帳票であれば、記録文字列の座標やその文字属性は同じであると考えられ、第一特徴量を用いて帳票をグループ分けすることが可能となる。最初のグループ分けを第四実施形態で示すように作業者が行い、新たな文書帳票に対してはステップＳ１００４の処理により第一特徴量を用いてグループ分けすることにより、ＯＣＲ処理において精度よく記録文字列を読み取ることが可能となる。
この場合、取得部１９１が、複数の帳票画像データとその帳票画像データに含まれる文字列のうち記録対象となった記録文字列とを取得する。そしてグループ分類部１９４が第一特徴量に基づいて帳票画像データをグループ分けする。そして、特徴量抽出部１９２は、グループに含まれる帳票画像データに対応する第一特徴量を用いて記録文字列を抽出する。

以上のように、記録部１９３は、第一特徴量のうち文字認識対象の文書画像についての第一特徴量を選択する。特徴量抽出部１９２は、文字認識対象の文書画像の文字認識処理を行う。記録部１９３は、文字認識処理の結果の文字列のうち第一特徴量に対応する特定項目の文字列を選択する。ユーザ判定結果取得部１９６は、記録部１９３が文字認識の結果の文字列のうちの何れも特定項目の文字列として選択しなかった場合、事前入力された文字列と特定項目の文字列とが一致するか否かのユーザ判定結果を取得する。
これにより、画像処理装置１は、事前入力された文字列を特定項目の文字列として用いることができる。作業者（ユーザ）は、事前入力された文字列と特定項目の文字列と入力された文字列とが一致するか否かを判定すればよく、文字列をキー入力する必要がない。この点で画像処理装置１によれば、事前に得られたデータとＯＣＲ処理で得られたデータとが一致する場合だけでなく、他の場合にもＯＣＲ処理結果を確認する作業者の負担を軽減できる。

また、記録部１９３は、文書画像中での特定項目の文字列の位置を示す第一特徴量を選択する。ユーザ判定結果取得部１９６は、特定項目の文字列の位置を示した文書画像と、事前入力された文字列とをユーザに提示して、文書画像に示される特定項目の文字列と事前入力された文字列とが一致するか否かのユーザ判定結果を取得する。
これにより、作業者（ユーザ）は、文書帳票の画像に示される特定項目の文字列と入力された文字列とを見比べて一致するか否かを判定すればよく、比較的簡単で判定を行うことができる。画像処理装置１によれば、この点で作業者の負担が軽くて済む。

また、特徴量抽出部１９２は、記録部１９３が文字認識の結果の文字列のうちの何れも特定項目の文字列として選択せず、かつ、事前入力された文字列と特定項目の文字列とが一致するとユーザ判定結果で示された場合、文字認識結果の文字列の中から特定項目の文字列を選択するための情報を取得する機械学習に、事前入力された文字列を用いる。
画像処理装置１によれば、作業者によって確認された文字列を用いて機械学習を行う点で、精度よく機械学習を行うことができる。また、作業者は確認の際文字列をキー入力する必要がなく、この点で作業者の負担が小さくて済む。

また、特徴量抽出部１９２は、記録部１９３が文字認識処理の結果の文字列のうちの何れかを特定項目の文字列として選択した場合、および、文字認識処理の結果の文字列のうちの何れも特定項目の文字列として選択しなかった場合の何れも機械学習を行う。
これにより、画像処理装置１では、上述したように、文書帳票の書式の統計的な情報を機械学習に反映させることができる。

あるいは、特徴量抽出部１９２は、記録部１９３が文字認識処理の結果の文字列のうちの何れも特定項目の文字列として選択しなかった場合に機械学習を行い、記録部１９３が文字認識処理の結果の文字列のうちの何れかを特定文字の文字列として選択した場合は機械学習の実行を抑制する。
この場合、画像処理装置１では、記録部１９３が文字認識処理の結果の文字列のうちの何れかを特定項目の文字列として選択したときも特徴量抽出部１９２が機械学習を行う場合と比較して、機械学習用に保存するデータ数、および、機械学習に要する時間が少なくて済む。

次に、図１２を参照して、本発明の実施形態の構成について説明する。
図１２は、実施形態に係る画像処理装置の構成の例を示す図である。図１２に示す画像処理装置６００は、第一特徴量選択部６０１と、文字認識処理部６０２と、文字列選択部６０３と、ユーザ判定結果取得部６０４と、を備える。
かかる構成にて、第一特徴量選択部６０１は、複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する。文字認識処理部６０２は、文字認識対象の文書画像の文字認識処理を行う。文字列選択部６０３は、文字認識処理の結果の文字列のうち第一特徴量に対応する特定項目の文字列を選択する。ユーザ判定結果取得部６０４は、文字列選択部６０３が文字認識処理の結果の文字列のうちの何れも特定項目の文字列として選択しなかった場合、事前入力された文字列と特定項目の文字列とが一致するか否かのユーザ判定結果を取得する。
これにより、画像処理装置６００は、事前入力された文字列を特定項目の文字列として用いることができる。作業者（ユーザ）は、事前入力された文字列と特定項目の文字列と入力された文字列とが一致するか否かを判定すればよく、文字列をキー入力する必要がない。この点で画像処理装置６００によれば、事前に得られたデータとＯＣＲ処理で得られたデータとが一致する場合だけでなく、他の場合にもＯＣＲ処理結果を確認する作業者の負担を軽減できる。

上述の各装置は内部に、コンピュータシステムを有している。そして、各装置に上述した各処理を行わせるためのプログラムは、それら装置のコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを各装置のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、上記プログラムは、前述した各処理部の機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１画像処理装置
２画像読取装置
３記録装置
４データベース
１１０通信部
１２０表示部
１３０操作入力部
１８０記憶部
１９０制御部
１９１取得部
１９２特徴量抽出部
１９３記録部
１９４グループ分類部
１９５グループ特定部
１９６ユーザ判定結果取得部

Claims

複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する第一特徴量選択部と、
前記文字認識対象の文書画像の文字認識処理を行う文字認識処理部と、
前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する文字列選択部と、
前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得するユーザ判定結果取得部と、
を備える画像処理装置。
前記第一特徴量選択部は、前記文書画像中での前記特定項目の文字列の位置を示す前記第一特徴量を選択し、
前記ユーザ判定結果取得部は、前記特定項目の文字列の位置を示した前記文書画像と、前記事前入力された文字列とをユーザに提示して、前記文書画像に示される前記特定項目の文字列と前記事前入力された文字列とが一致するか否かのユーザ判定結果を取得する
請求項１に記載の画像処理装置。
前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択せず、かつ、事前入力された文字列と前記特定項目の文字列とが一致すると前記ユーザ判定結果で示された場合、文字認識結果の文字列の中から前記特定項目の文字列を選択するための情報を取得する機械学習に、前記事前入力された文字列を用いる機械学習部をさらに備える、
請求項１または請求項２に記載の画像処理装置。
前記機械学習部は、前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れかを前記特定項目の文字列として選択した場合、および、前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合の何れも前記機械学習を行う、
請求項３に記載の画像処理装置。
前記機械学習部は、前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合に前記機械学習を行い、前記文字列選択部が前記文字認識処理の結果の文字列のうちの何れかを前記特定項目の文字列として選択した場合は前記機械学習の実行を抑制する、
請求項３に記載の画像処理装置。
複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する工程と、
前記文字認識対象の文書画像の文字認識処理を行う工程と、
前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する工程と、
前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得する工程と、
を含む画像処理方法。
コンピュータに、
複数の文書画像を文字認識処理した結果に基づいて予め記録され、文書画像の種別毎かつ特定項目毎にその項目の文字列の特徴を示す第一特徴量のうち、文字認識対象の文書画像についての第一特徴量を選択する工程と、
前記文字認識対象の文書画像の文字認識処理を行う工程と、
前記文字認識処理の結果の文字列のうち前記第一特徴量に対応する特定項目の文字列を選択する工程と、
前記文字認識処理の結果の文字列のうちの何れも前記特定項目の文字列として選択しなかった場合、事前入力された文字列と前記特定項目の文字列とが一致するか否かのユーザ判定結果を取得する工程と、
を実行させるためのプログラム。