JP2024033328A

JP2024033328A - 画像処理装置、画像処理装置の制御方法、及びプログラム

Info

Publication number: JP2024033328A
Application number: JP2022136851A
Authority: JP
Inventors: 啓太小笠原
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-13

Abstract

【課題】活字と手書き文字とが混在している混合文字列に対して、文字認識結果の精度を向上させる。
【解決手段】画像処理装置は、活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、を備える。
【選択図】図５

Description

本発明は、活字と手書き文字とを含む混合文字列の文字認識技術に関する。

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）エンジンの性能がディープラーニングによって向上していることに起因して、スキャンした画像において手書き文字の認識精度が向上している。具体的には、ＡＩ－ＯＣＲエンジンを用いることにより、画像内から文字のつながった行を切り出した上で、行内の前後の文字のつながり及び自然言語処理技術を用いた補正を行い、手書き文字の認識精度を高めている。

さらに文字の認識精度を高めるために、特許文献１には、文字列領域を活字領域と手書き文字領域とに分離し、それぞれに最適なＯＣＲ処理を行う技術が開示されている。

特開平１１－２０３４１２号公報

特許文献１に記載されている技法では、活字及び手書き文字が混在する日付形式のような混合文字列の場合、活字と手書き文字とを分離すると１文字又は非常に短い文字列になり、文字の認識精度が低下するという問題が生じる。これは、上記混合文字列はコンテキスト情報が少なく、前後の文字つながり及び自然言語補正を用いた精度を高める処理が混合文字列にはあまり作用しないからである。

本開示は、上記事情に鑑みてなされたものであり、活字と手書き文字が混在する混合文字列に対して、文字認識結果の精度を向上させることを目的とする。

本開示に係る画像処理装置は、活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、を備える、ことを特徴とする。

本開示によれば、活字と手書き文字とが混在している混合文字列に対する文字認識結果の精度が向上する。

画像処理システムの構成例を示す図。本システムを構成する処理端末のハードウェア構成例を示す図。本システムを構成する処理端末のソフトウェア構成例を示す図。本システムにおける処理全体を説明するフローチャート。文字抽出手段が行う文字抽出処理の詳細を示すフローチャート。文字抽出手段が行う画像分離の一例を示す図。文字抽出手段が行う優先度判定処理の詳細を示すフローチャート。画像処理装置又は情報処理端末が表示する画面の一例を示す図。文字抽出手段が行う文字抽出処理の詳細を示すフローチャート。

以下、本開示の実施形態について、添付図面を参照して説明する。なお、以下の実施形態は本開示を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。また、シーケンスチャート及びフローチャートにおける各工程（ステップ）については「Ｓ」で始まる符号を用いて示す。

［実施形態１］
＜画像処理システムの全体構成＞
図１は、実施形態１における画像処理システムの構成の一例を表す図である。画像処理システムは、画像形成装置１１０、画像処理サーバ１２０、情報処理端末１３０、及びストレージサーバ１４０を含む。これらの各装置及び各サーバは、ネットワーク１５０を介して通信可能に接続されている。

本実施形態の画像形成装置１１０は、画像処理サーバ１２０を介してスキャンした文書の画像データをストレージサーバ１４０への画像送信の依頼をすること等が可能である。

また、本実施形態では、画像形成装置１１０をスキャン機能、印刷機能、複写機能などを備える複合機を例にして説明するが、画像形成装置１１０は複合機に限られない。例えば、スキャン機能を備える装置であれば、後述する本開示の処理を実行することが可能である。ここで、スキャン機能とは、画像形成装置１１０に設けられたスキャナを用いて文書を読み取ることにより生成した画像データを外部に送信する機能のことを指す。印刷機能とは、情報処理端末１３０等から受信した印刷データを印刷する機能のことを指すである。複写機能とは、スキャナによって読み取った文書の画像データを印刷することにより、文書の複写物を得る機能のことを指す。

なお、本実施形態の画像処理システムは、画像形成装置１１０、画像処理サーバ１２０、情報処理端末１３０、及びストレージサーバ１４０を含む構成としているがこれに限定されない。例えば、画像形成装置１１０が情報処理端末１３０又は画像処理サーバ１２０の機能を兼ね備えてもよい。また、画像処理サーバ１２０はインターネット上ではなくＬＡＮ上に配置されたサーバであってもよい。また、ストレージサーバ１４０はメールサーバなどに置き換えてもよく、所望の装置にスキャンした画像をメールに添付し送信してもよい。また、本実施形態の画像処理システムは、複数の画像処理サーバ１２０、複数の情報処理端末１３０、及び複数のストレージサーバ１４０を含む構成でも構わない。

＜ＭＦＰのハードウェア構成＞
図２は、本実施形態における画像処理システムのハードウェア構成の一例を表す図である。

画像形成装置１１０は、プリンタ２０１、スキャナ２０２、操作部２０３、ＣＰＵ２１１、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、及び拡張Ｉ／Ｆ２１８を含む。

ＣＰＵ２１１は、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、及び拡張Ｉ／Ｆ２１８とデータを授受することが可能である。また、ＣＰＵ２１１は、ＨＤＤ２１３から読み出した命令（コンピュータプログラム）をＲＡＭ２１２に展開し、ＲＡＭ２１２に展開した命令を実行することにより、後述する各処理の実行を制御する。

なお、本実施形態では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２１２又はＨＤＤ２１３）を用いて後述のフローチャートに示す各処理を実行しているが、これに限定されない。例えば、複数のＣＰＵ及び複数のＲＡＭ又は複数のＨＤＤを協働させて各処理を実行してもよい。

ＨＤＤ２１３は、ＣＰＵ２１１において実行可能な命令、画像形成装置１１０において使用する設定値、及びユーザから指示された処理に関するデータ等を記憶する。

ＲＡＭ２１２は、ＣＰＵ２１１がＨＤＤ２１３から読み出した命令を一時的に格納するための領域である。またＲＡＭ２１２は、命令の実行に必要な各種のデータを記憶しておくことも可能である。例えば画像処理では、スキャナ２０２によって読み取られたデータをＲＡＭ２１２に展開することにより、所期の処理を行う。

ネットワークＩ／Ｆ２１４は、画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。ネットワークＩ／Ｆ２１４は、データ受信を行ったことをＣＰＵ２１１に伝達すること、及びＣＰＵ２１１からの指示にしたがって、ＲＡＭ２１２上のデータをネットワーク１５０に送信する。

プリンタＩ／Ｆ２１５は、ＣＰＵ２１１からの指示にしたがって印刷対象の印刷データをプリンタ２０１に送信し、プリンタ２０１から受信したプリンタの状態をＣＰＵ２１１に伝達する。

スキャナＩ／Ｆ２１６は、ＣＰＵ２１１から指示された画像読み取り指示をスキャナ２０２に送信し、スキャナ２０２から受信した画像データをＣＰＵ２１１に伝達する。また、スキャナ２０２から受信した当該スキャナの状態の情報をＣＰＵ２１１に伝達する。

操作部Ｉ／Ｆ２１７は、操作部２０３を介してユーザからの指示をＣＰＵ２１１に伝達し、ユーザが操作するための画面情報を操作部２０３に表示させる。

拡張Ｉ／Ｆ２１８は、画像形成装置１１０に外部機器を接続することを可能とするインターフェースである。拡張Ｉ／Ｆ２１８は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）形式のインターフェースを含む。ＵＳＢメモリ等の外部記憶装置が拡張Ｉ／Ｆ２１８に接続されることにより、画像形成装置１１０は、当該外部記憶装置に記憶されているデータの読み取り及び当該外部記憶装置に対するデータの書き込みを行う。

プリンタ２０１は、プリンタＩ／Ｆ２１５を介して受信した画像データを用紙に印刷し、プリンタ２０１の状態をプリンタＩ／Ｆ２１５に伝達する。

スキャナ２０２は、スキャナＩ／Ｆ２１６を介して受信した画像読み取り指示に従って、スキャナに置かれた文書（用紙）を読み取ることによって取得した画像データをスキャナＩ／Ｆ２１６に伝達する。また、スキャナ２０２は、スキャナの状態をスキャナＩ／Ｆ２１６に伝達する。

操作部２０３は、ユーザの操作に基づいて、画像形成装置１１０に対して各種の指示を行うためのインターフェースである。例えば、操作部２０３は、タッチパネル液晶画面を含み、操作画面を表示すると共に、ユーザからの操作を受け付ける。

画像処理サーバ１２０は、ＣＰＵ２２１、ＲＡＭ２２２、ＨＤＤ２２３、及びネットワークＩ／Ｆ２２４を含む。

ＣＰＵ２２１は、装置全体を制御し、ＲＡＭ２２２、ＨＤＤ２２３、及びネットワークＩ／Ｆ２２４の間でのデータの送受信を制御する。また、ＣＰＵ２２１はＨＤＤ２２３から読み出した制御プログラム（命令）をＲＡＭ２２２に展開し、命令を実行する。

ＨＤＤ２２３は、画像データや各種プログラムを記憶する大容量記憶デバイスである。なお、本実施形態では１つのＣＰＵ２２１が１つのメモリ（ＲＡＭ２２２又はＨＤＤ２２３）を用いて後述のフローチャートに示す各処理を実行するものとするが、本実施形態の実施はこれに限定されない。

ネットワークＩ／Ｆ２２４は、画像処理サーバ１２０が画像形成システム内の装置とネットワーク通信を行うためのインターフェースである。

情報処理端末１３０は、ＣＰＵ２３１、ＲＡＭ２３２、ＨＤＤ２３３、ネットワークＩ／Ｆ２３４、操作部Ｉ／Ｆ２３５、及び操作部２３６を含む。

ＣＰＵ２３１は、装置全体を制御し、ＲＡＭ２３２、ＨＤＤ２３３、ネットワークＩ／Ｆ２３４、操作部Ｉ／Ｆ２３５、及び操作部２３６の間でのデータの送受信を制御する。また、ＣＰＵ２３１はＨＤＤ２３３から読み出した制御プログラム（命令）をＲＡＭ２３２に展開し、命令を実行する。

ネットワークＩ／Ｆ２３４は、情報処理端末１３０が画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。

操作部Ｉ／Ｆ２３５は、操作部２３６から入力されたユーザからの指示をＣＰＵ２３１に伝達し、ＣＰＵ２３１による表示制御に基づき、表示すべき操作画面に関する情報を操作部２３６に伝達するインターフェースである。情報処理端末１３０には、画像データを確認するためのアプリケーションがインストールされている。情報処理端末１３０は、当該アプリケーションを実行することにより、画像処理サーバの画像データの表示及び画像データの保存を要求する機能を実現する。画像データを確認するためのアプリケーションはＷｅｂアプリケーションとして提供される場合、情報処理端末１３０は、Ｗｅｂブラウザを介して当該Ｗｅｂアプリケーションを実行することにより、画像データの表示及び画像データの保存を要求してもよい。

なお、本実施形態では１つのＣＰＵ２３１が１つのメモリ（ＲＡＭ２３２又はＨＤＤ２３３）を用いて後述のフローチャートに示す各処理を実行するものとするが、本開示の実施はこれに限定されない。

ストレージサーバ１４０は、ＣＰＵ２４１、ＲＡＭ２４２、ＨＤＤ２４３、及びネットワークＩ／Ｆ２４４を含む。

ＣＰＵ２４１は、装置全体を制御し、ＲＡＭ２４２、ＨＤＤ２４３、及びネットワークＩ／Ｆ２４４の間でのデータの送受信を制御することが可能である。また、ＣＰＵ２４１はＨＤＤ２４３から読み出した制御プログラム（命令）をＲＡＭ２４２に展開し、命令を実行する。

ＨＤＤ２４３は、画像処理サーバ１２０から受信した画像データを保存する。なお、本実施形態では１つのＣＰＵ２４１が１つのメモリ（ＲＡＭ２４２又はＨＤＤ２４３）を用いて後述のフローチャートに示す各処理を実行するが、この態様だけには限定されない。

ネットワークＩ／Ｆ２４４は、ストレージサーバ１４０が画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。

＜画像処理システムのソフトウェア構成＞
図３（ａ）は画像形成装置１１０のソフトウェア構成を示した図である。画像形成装置１１０のソフトウェアを構成する各手段はＨＤＤ２１３に格納されており、ＲＡＭ２１２へ転送され、ＣＰＵ２１１によって実行される。

画像読取手段３１１はスキャナ２０２上に載置された原稿をスキャナ２０２によって読み取って画像データに変換し、ＨＤＤ２１３へ格納する。

画像印刷手段３１２はＨＤＤ２１３へ格納された画像データ、又はネットワーク１５０上の他の機器からネットワークＩ／Ｆ２１４を介して受信した画像データをＲＡＭ２１２上へ展開する。そして、画像印刷手段３１２は展開した画像データをプリンタ２０１へ送信し、プリンタ２０１は画像データの印刷を実行する。

ＵＩ表示手段３１３はユーザが操作するボタン等の操作部品、及び処理進捗状況等の情報表示を行うＵＩ部品の表示を行う。

入力受付手段３１４はＵＩ表示手段３１３が表示したＵＩ部品への入力を受け付け、入力に対応した処理を実行する。

画像送信手段３１５はＨＤＤ２１３に格納される画像データとスキャン設定とをネットワークＩ／Ｆ２１４を介してネットワーク１５０上の他の機器、例えば画像処理サーバ１２０へ送信する。

図３（ｂ）は画像処理サーバ１２０のソフトウェア構成を示した図である。

画像処理サーバ１２０のソフトウェアを構成する各手段はＨＤＤ２２３に格納されており、ＲＡＭ２２２へ転送され、ＣＰＵ２２１によって実行される。

画像受信手段３２１は、画像形成装置１１０の画像読取手段３１１から画像データを受信する。

文字抽出手段３３０は、受信した画像データに複数の文字抽出を行い、最適な文字抽出結果を選択する。文字抽出手段３３０は、第１の文字抽出手段３３１、第２の文字抽出手段３３２、第３の文字抽出手段３３３、画像分離手段３３４、候補文字列検索手段３３５、優先度判定手段３３６、及び抽出結果選択手段３３７を含む。

第１の文字抽出手段３３１は、画像データから文字情報を抽出する第１の手段である。

第２の文字抽出手段３３２は、画像データから文字情報を抽出する第２の手段である。

第３の文字抽出手段３３３は、画像データから文字情報を抽出する第３の手段である。

本実施形態では、第１の文字抽出手段３３１は活字を抽出する活字ＯＣＲエンジン、第２の文字抽出手段３３２は手書き文字を抽出する手書きＯＣＲエンジン、第３の文字抽出手段３３３は活字及び手書き文字を抽出可能な手書き活字ＯＣＲエンジンとする。

画像分離手段３３４は画像上の手書きされた画素を判定し、手書き画素のみの画像、活字、及び背景の画像に分離する。本実施形態では、ＤｅｅｐＬｅａｒｎｉｎｇを使用したセマンティックセグメンテーションの適用により、画素毎に手書き画素か否かのラベル付けを行う。なお、画像分離手段３３４のアルゴリズムはセマンティックセグメンテーションに限定されない。例えば、手書きされる前の活字のみの画像と、手書きされた後の画像との差分を算出し、差分の存在する画素を手書き画素と判定する方法でもよい。

候補文字列検索手段３３５は、第３の文字抽出手段３３３によって抽出された文字抽出結果から候補となる文字列を検索する。本実施形態では、パターンマッチングを用いた文字列検索を行うが、文字列の検索方法はこれに限定されない。例えば、キーとなる文字列から対象となる文字列を探索する方法や機械学習を利用したエンティティ抽出等の方法でもよい。

優先度判定手段３３６は、候補文字列検索手段３３５で検索された候補文字列の優先度を判定する。

抽出結果選択手段３３７は、優先度判定手段３３６の判定結果に基づいて第１の文字抽出手段３３１と第２の文字抽出手段３３２との文字抽出結果を合わせた抽出文字列か候補文字列のどちらかを選択する。

アプリケーションデータ生成手段３２２は、情報処理端末１３０の抽出情報表示アプリケーション３５０上で動作するデータを生成する。本実施形態では、抽出情報表示アプリケーション３５０はＷｅｂアプリケーションとして動作している。Ｗｅｂアプリケーションは、ＨＴＭＬ等のＷｅｂページ記述言語により記述されたページ記述データと、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語とによって記述されたスクリプトデータで構成されている。

抽出情報表示アプリケーション３５０のページ記述データには、画像読取手段３１１によって読み取った画像データと、当該画像データを文字抽出手段３３０によって抽出した情報が含まれる。ここで抽出情報の中には、抽出文字列又は出力文字列、抽出文字列又は出力文字列の位置情報、文字の属性、ＯＣＲエンジンの種別、言語情報、及び文字の確信度等が含まれる。

なお、ページ記述データは、ＨＴＭＬに限られず、その他のクライアント側が解釈してアプリケーションを動作させることができるＸＭＬ又はＪＳＯＮ等の構造化されたデータでも良い。

アプリケーションデータ送信手段３２３は、アプリケーションデータ生成手段３２２において生成した抽出情報を情報処理端末１３０に送信する。

修正情報受信手段３２４は、情報処理端末１３０の受付指示送信手段３４２から送信された抽出情報の修正指示を受信して、抽出情報の修正を行う。

ファイル生成手段３２５は、情報処理端末１３０の受付指示送信手段３４２から送信されたファイル生成の指示を受信して、ファイルを生成する。ここで、画像送信手段３１５から送信されるスキャン設定からファイルフォーマットの情報を取得し、その設定に基づいてスキャン画像からファイルを生成する。

ファイル送信手段３２６は、ファイル生成手段３２５で生成されたファイルをストレージサーバ１４０に送信する。

図３（ｃ）は情報処理端末１３０のソフトウェア構成を示した図である。

情報処理端末１３０のソフトウェアを構成する各手段はＨＤＤ２３３に格納されており、ＲＡＭ２３２へ転送され、ＣＰＵ２３１によって実行される。

アプリケーションデータ受信手段３４１は、画像処理サーバ１２０上で動作するアプリケーションデータ生成手段３２２によって生成されたデータを受信し、生成されたデータをＨＤＤ３０３へ保存する。

受付指示送信手段３４２は、入力受付手段３５７において受け付けた指示の一部を画像処理サーバ１２０へ送信する。

アプリケーション実行手段３４３は、抽出情報表示アプリケーション３５０を起動し、抽出情報表示アプリケーション３５０を操作可能な状態にする。

抽出情報表示アプリケーション３５０は、画像処理サーバ１２０上で動作するアプリケーションデータ生成手段３２２によって生成されたデータを読み込み、抽出情報の確認及び抽出情報の修正を行うアプリケーションである。

抽出情報表示アプリケーション３５０は、ページ記述データとスクリプトデータとによって実装される以下に説明する各手段を含む。

ＵＩ表示手段３５１はユーザが操作するボタン等の操作部品及び処理進捗状況等の情報表示を行うＵＩ部品の表示を行う。

画像表示手段３５２は画像データの表示を行う。

文字情報領域表示手段３５３は画像表示手段３５２が表示している画像データ中の文字情報が含まれる文字情報領域を表示する。

文字情報領域選択手段３５４は、文字情報領域表示手段３５３によって表示する文字情報領域を選択する。

部分画像表示手段３５５は文字情報領域内の画像データを切り出した部分画像を表示する。また、部分画像表示手段３５５は複数の部分画像を連結して表示することが可能である。

文字情報表示手段３５６は文字情報領域から抽出された文字情報を表示する。

入力受付手段３５７はＵＩ表示手段３５１、画像表示手段３５２、文字情報領域表示手段３５３、及び文字情報表示手段３５６が表示したＵＩ部品への入力を受け付け、入力に対応した処理を実行する。文字情報表示手段３５６が表示した文字情報は、入力受付手段３５７を介して、修正することが可能である。

＜全体の処理の流れ＞
図４は、画像形成装置１１０においてスキャンした画像からファイルを生成して、ストレージサーバ１４０へ送信する処理の流れを示すシーケンスチャートである。以下では、各装置間のやり取りを中心に説明する。

Ｓ４０１では、画像形成装置１１０の画像読取手段３１１は、スキャナ２０２に載置された原稿を読み取ってスキャン画像を生成する。

Ｓ４０２では、画像形成装置１１０の画像送信手段３１５は、Ｓ４０１において生成されたスキャン画像を画像処理サーバ１２０へ送信する。

Ｓ４０３では、画像処理サーバ１２０の画像受信手段３２１は、Ｓ４０２において画像形成装置１１０の画像送信手段３１５から送信されたスキャン画像を受信する。

Ｓ４０４では、画像処理サーバ１２０の文字抽出手段３３０は、Ｓ４０３において画像受信手段３２１が受信したスキャン画像に対して文字抽出を行い、受信したスキャン画像の抽出結果を取得する。

Ｓ４０５では、画像処理サーバ１２０のアプリケーションデータ生成手段３２２は、Ｓ４０４において文字抽出手段３３０から出力される抽出結果に基づいて情報処理端末１３０の抽出情報表示アプリケーション３５０において動作するデータを生成する。

Ｓ４０６では、画像処理サーバ１２０のアプリケーションデータ送信手段３２３は、Ｓ４０５においてアプリケーションデータ生成手段３２２が生成するデータを情報処理端末１３０に送信する。

Ｓ４０７では、情報処理端末１３０のアプリケーションデータ受信手段３４１は、Ｓ４０６において画像処理サーバ１２０のアプリケーションデータ送信手段３２３が送信するデータを受信する。

Ｓ４０８では、情報処理端末１３０のアプリケーション実行手段３４３は、抽出情報表示アプリケーション３５０を実行する。抽出情報表示アプリケーション３５０が実行する処理については後述する。

Ｓ４０９では、情報処理端末１３０の受付指示送信手段３４２は、入力受付手段３５７を介してファイル生成の指示を受けて、画像処理サーバ１２０にファイル生成指示を送信する。

Ｓ４１０では、画像処理サーバ１２０のファイル生成手段３２５は、Ｓ４０９において情報処理端末１３０の受付指示送信手段３４２から送信されたファイル生成指示を受信するとファイルを生成する。

Ｓ４１１では、画像処理サーバ１２０のファイル送信手段３２６は、Ｓ４１０においてファイル生成手段３２５が生成するファイルをストレージサーバ１４０に送信する。

Ｓ４１２では、ストレージサーバ１４０のＣＰＵ２４１は、Ｓ４１１において画像処理サーバ１２０のファイル送信手段３２６が送信するファイルをＨＤＤ２４３に保存する。

以上が、画像形成装置１１０においてスキャンした画像をファイル化して、ストレージサーバ１４０へ送信する処理の概略である。上記の処理ステップにおいて重要な処理について以下に説明する。

図５は、Ｓ４０４において文字抽出手段３３０が行う文字抽出処理を示すフローチャートである。

当該文字抽出処理においては、第１の文字抽出手段３３１は活字を抽出する活字ＯＣＲエンジン、第２の文字抽出手段３３２は手書き文字を抽出する手書きＯＣＲエンジンとして機能する。第３の文字抽出手段３３３は活字及び手書き文字の双方を抽出することに対応可能である手書き活字ＯＣＲエンジンとして機能する。

Ｓ５０１では、画像処理サーバ１２０の文字抽出手段３３０は、Ｓ４０３において受信したスキャン画像に対して画像分離を行い、処理はＳ５０２に進む。

図６はスキャン画像に画像分離を行った一例である。

図６（ａ）はＳ４０３において画像受信手段３２１が受信するスキャン画像６１０の例である。

図６（ｂ）及び図６（ｃ）はスキャン画像６１０に画像分離を行った結果を示している。図６（ｂ）は、図６（ａ）から手書き文字画素が取り除かれた活字のみの活字画像６２０を示している。図６（ｃ）は手書き文字画素のみの手書き文字画像６３０及び手書き文字画素を一定の範囲で囲った手書き文字情報領域６３１～６３３を示している。

Ｓ５０２では、文字抽出手段３３０は、Ｓ４０３において受信したスキャン画像及びＳ５０１において分離した活字画像と手書き文字画像それぞれに以下のＯＣＲ処理を実行し、処理はＳ５０３に進む。本実施形態では、手書き活字ＯＣＲエンジンはスキャン画像に対して、活字ＯＣＲエンジンは活字画像に対して、及び手書きＯＣＲエンジンは手書き文字画像に対して処理を行う。

文字抽出手段３３０は手書き活字ＯＣＲ処理をスキャン画像に対して行う前に、スキャン画像に対してブロックセレクションを実行し、各文字ブロックを取得する。そして文字抽出手段３３０は取得した各文字ブロックに対して手書き活字ＯＣＲ処理を行うことにより、各文字ブロックに対応する各文字認識結果を取得する。文字抽出手段３３０は各文字ブロックの位置情報、各文字ブロックに対応する各文字認識結果、及び各文字認識結果の確信度等を含むテキスト情報を生成する。つまり、テキスト情報において各文字ブロックと各文字ブロックに対応する各文字認識結果とは紐づけられている。

Ｓ５０３では、文字抽出手段３３０は、活字ＯＣＲエンジンの文字抽出結果及び手書きＯＣＲエンジンの文字抽出結果を合成することにより、抽出文字列を生成する。

一般的に活字及び手書き文字に対してそれぞれ専用のＯＣＲエンジンが文字認識精度のよい抽出結果を出力する。そのため、それぞれ専用のＯＣＲエンジンが出力した抽出結果を合成することにより、抽出文字列は生成される。例えば、各ＯＣＲエンジンの抽出結果である文字群をその中心座標を比較し、中心座標の順番に並べることにより各専用ＯＣＲエンジンの抽出結果は合成される。抽出文字列は合成された抽出結果に基づいて生成される。

しかし、日付文字列６１１のような手書き文字と活字が混在する混合文字列の場合、画像分離によってお互いの文字種が途中で繋がらなくなる。この場合、活字日付文字列６２１及び手書き日付文字列を示す手書き文字情報領域６３３のように文字の間隔が広くなり、前後の文字つながり又は自然言語補正によって精度を高める処理がうまく作用しなくなる。これにより、日付のような混合文字列において画像分離を行うと文字認識結果の精度が低下する現象が発生する。そこで、このような混合文字列においては、文字を分離せずに混在文字列として手書き活字ＯＣＲエンジンにも同時に文字認識を実行させる。これにより、前後の文字つながり又は自然言語補正によって精度を高める処理が作用しやすくなり、文字認識結果の精度が向上する。

Ｓ５０４では、文字抽出手段３３０は、Ｓ５０３において抽出した手書き活字ＯＣＲエンジンの文字抽出結果から、活字と手書き文字が混在する混合文字列の候補として、候補文字列を検索し、処理はＳ５０５に進む。

ここで、本実施形態では、パターンマッチングを用いて候補文字列を検索する。

まず、文字抽出手段３３０は帳票全体からどの文字同士が繋がっているかを判定する。例えば、手書き活字ＯＣＲエンジンの文字抽出結果に含まれる各文字の座標情報を用いて、文字列が一行に収まるブロックを抽出する。このとき、文字の高さが一定の範囲内に収まっていて、横方向の中線が他の文字と縦方向に交差するといった条件という所定の条件が満足される場合にブロックを抽出してもよい。このように抽出したブロック群においてそれぞれのブロック内の文字を端から順番に結合して結合文字列を作成し、この結合文字列の中から候補文字列を検索する。

申込書のような帳票の場合を考えると候補文字列は、日付、電話番号、住所といった特定項目の文字列になる。例えば、この中から日付を検索する場合、日付のパターンは数字と「年」「月」「日」の文字とが混在した文字列であると定義することができる。さらに、数字の桁数などを「年」「月」「日」の文字の位置に応じて、限定して検索を行うことができる。このように、検索したい項目において、文字種（数字、又は漢字等）、含まれる可能性のある文字群（「年」、「月」、及び「日」）、桁数（文字数）等を含む情報からパターンマッチングを用いて候補文字列を検索することが可能である。

パターンマッチングの具体的な例を図６（ａ）に示される例を参照して説明する。この場合、文字認識された各文字ブロックが西暦で示された生年月日のパターンと合致するかの判定が行われる。パターンの具体例は、４文字の手書き文字、「年」という活字、１文字又は２文字の手書き文字、「月」という活字、１文字又は２文字の手書き文字、「日」という活字によって形成される混合文字列である。この混合文字列と文字認識された各文字ブロックとのパターンマッチングを行うと、「１９８０年４月１０日」に対応するブロックが抽出され、当該ブロックにおいて文字認識された文字認識結果が候補文字列となる。

ただし、候補文字列の検索方法は上記の方法に限られず、他の方法も存在する。例えば、日付を検索する場合、「記入日」、「日付」、又は「生年月日」等のキーとなる文字列を辞書として持っておき、そのキー文字を検索することにより周囲に対象となる日付の文字列を探索する方法がある。または、候補文字列となり得る日付、電話番号、又は住所等の文字列に正解ラベルを付けて機械学習を行い、その学習済みモデルを用いて直接対象となる文字列を抽出する方法でもよい。

Ｓ５０５では、手書き活字ＯＣＲエンジンは、Ｓ５０４において検索した候補文字列に対して、優先度の判定を行い、処理はＳ５０６に進む。尚、優先度判定の処理フローについては後述する。

上記、Ｓ５０５における優先度判定によって、Ｓ５０４において検索された候補文字列から尤度の高い候補文字列のみを優先させることが可能となる。

Ｓ５０６では、文字抽出手段３３０は、Ｓ５０５において判定した優先度の結果に従って、重複した領域を有するＳ５０３において合成した抽出文字列とＳ５０４において検索された候補文字列とから出力文字列を判定し、処理はＳ５０７に進む。

Ｓ５０２において同じスキャン画像に各種ＯＣＲエンジンを適用しているので、各文字抽出結果の領域は重複する。つまり、抽出文字列及び候補文字列も領域は重複する。そこで、どちらかの文字列をその領域の出力文字列として判定する必要がある。Ｓ５０５の優先度判定で候補文字列の優先度が「高」の場合、候補文字列を出力文字列と判定する。一方、Ｓ５０５の優先度判定で候補文字列の優先度が「低」の場合、抽出文字列を出力文字列と判定する。ただし、抽出文字列が存在しない場合、候補文字列を出力文字列と判定する。

Ｓ５０７では、文字抽出手段３３０は、Ｓ５０６の判定結果を受けて、重複した領域を有さない抽出文字列とＳ５０６の出力文字列とを１つの抽出結果として統合する。

抽出文字列及び候補文字列が重複する領域に属する抽出文字列は、Ｓ５０６において抽出文字列が出力文字列として判定されるか、又は候補文字列が優先された結果、出力文字列として判定されないかの何れかに選別される。ただし、重複する領域に属する抽出文字列が出力文字列として判定されない場合でも、当該抽出文字列を第２の候補の出力文字列として、統合した抽出結果に含めてもよい。

上述したように、文字抽出手段３３０の一連の処理によって、混合文字列が存在し、かつ、当該混合文字列の文字認識結果の精度が高いと判定された場合は、手書き活字ＯＣＲエンジンが認識した混合文字列の抽出結果が混合文字列の存在する領域で優先される。その結果、手書き活字ＯＣＲエンジンが認識した混合文字列の抽出結果が出力文字列となる。ここで、文字認識結果の精度とは、文字認識に使用するＯＣＲエンジン（文字認識エンジン）が出力する結果に対する正確さの度合い、即ち確信度を指す。

混合文字列が存在しないそれ以外の領域においては、従来通りの活字ＯＣＲエンジンの抽出結果と手書きＯＣＲエンジンの抽出結果とを合成した抽出文字列が出力される。これにより、混合文字列以外の文字列の文字認識結果の精度は維持され、分離処理の影響により文字認識結果の精度が低下しやすい混合文字列においては文字認識結果の精度が向上する。

また、この処理のメリットとして、本来の文字種とは異なった文字認識が行われた箇所が混合文字列と判定された場合には、手書き活字ＯＣＲエンジンが文字認識した混合文字列の抽出結果が出力文字列となり、文字認識結果に悪影響が生じないことである。ただし、文字列全体がどちらかの文字種に認識されると混合文字列として認識されないため、上記メリットが活かせなくなる。その場合は、混合文字列でなくても手書き活字ＯＣＲエンジンの確信度を利用して、候補文字列を優先させる判断を行ってもよい。

次に、優先度判定の処理フローについて説明する。

図７は、優先度判定のフローチャートを示している。

Ｓ７０１では、画像処理サーバ１２０の優先度判定手段３３６は、Ｓ５０４において文字抽出手段３３０が検索した候補文字列を取得し、処理はＳ７０２に進む。

Ｓ７０２では、優先度判定手段３３６は、Ｓ５０１において認識した手書き文字情報領域を取得し、処理はＳ７０３に進む。

Ｓ７０３では、優先度判定手段３３６は、Ｓ７０１において取得した候補文字列が手書き文字と活字の両方を含む混合文字列か否かをＳ７０２で取得した手書き文字情報領域から判定する。

候補文字列及び手書き文字情報領域はそれぞれ画像データに対する座標情報を有しているので候補文字列の外接矩形内に手書き文字情報領域の座標が含まれ、かつ、すべての領域が手書き文字情報領域でなければ、混合文字列であると判断することが可能である。候補文字列が混合文字列であると判定される場合は、処理はＳ７０４に進む。候補文字列が混合文字列ではないと判定される場合は、処理はＳ７０７に進む。

Ｓ７０４では、優先度判定手段３３６は、その候補文字列の文字認識結果の精度を、手書き活字ＯＣＲエンジンによる文字認識結果の確信度を用いて算出し、処理はＳ７０５に進む。

ＯＣＲエンジンによる文字認識結果の確信度は、文字認識結果であるテキストデータがどのくらい正しいかを示す統計的な尺度であり、ＯＣＲエンジンの文字抽出結果（テキスト情報）に含まれる。ＯＣＲエンジンによる文字認識結果の確信度の値は、任意の範囲を取り得るが、本実施形態においては、０から１までの値とする。

Ｓ７０５では、優先度判定手段３３６は、Ｓ７０４において算出した文字認識結果の精度が閾値以上であるか否かを判定する。閾値は、混合文字列を活字領域及び手書き文字領域に分離して、活字領域には活字ＯＣＲエンジンを用い、手書き文字領域には手書きＯＣＲエンジンを用いた文字認識結果に基づいて決定される。

例えば、ある候補文字列が存在した場合、その候補文字列の確信度が閾値以上であり、かつ、その候補文字列を構成する各文字の確信度は閾値未満ではない等の条件を用いて判定する。ここで候補文字列の確信度は各文字の確信度の平均値でも、単語としての確信度でもよい。

確信度が閾値以上、即ち候補文字列の文字認識結果の精度が閾値以上であると判定される場合、処理はＳ７０６に進む。確信度が閾値未満、即ち候補文字列の文字認識結果の精度が閾値未満であると判定される場合、処理はＳ７０７に進む。

Ｓ７０６では、優先度判定手段３３６は、当該候補文字列の優先度を「高」と判定し、優先度判定の処理フローは終了する。

Ｓ７０７では、優先度判定手段３３６は、当該候補文字列の優先度を「低」と判定し、優先度判定の処理フローは終了する。

次に、図８を用いてＳ４０８において情報処理端末１３０の抽出情報表示アプリケーション３５０が実行する処理について説明する。

図８（ａ）は、抽出情報表示アプリケーション３５０が表示する画面の一例である。

抽出情報表示アプリケーション３５０は、Ｓ４０８においてアプリケーション実行処理を開始すると、ＵＩ表示手段３５１を実行して、画面８０１を表示する。

画面８０１において、処理ページ番号８０２は画像形成装置１１０の画像読取手段３１１が読み取った画像のページ番号を表示し、ユーザに現在処理している画像データが読み取り原稿の何ページ目であるかを通知する。

ページ送りボタン８０３は、ページを遷移させるボタンである。入力受付手段３５７が受け付けたユーザ入力により、ページ送りボタン８０３が押下されるとページに修正が発生している場合は、一時的に修正情報をＨＤＤ２３３に保存しページを遷移させ、ページに修正が発生していない場合は、そのままページを遷移させる。

画像表示部８０４には画像表示手段３５２が処理中のページの画像データを表示される。

部分画像表示手段３５５が、画像領域の部分画像を部分画像表示部８０５に表示する。ここで、表示される部分画像は、画像処理サーバ１２０のアプリケーションデータ生成手段３２２において生成されたデータに記述されている座標情報に基づいて表示される。ただし、画像領域の部分画像の表示方法は、上記の方法に限られない。例えば、過去に入力受付手段３５７が受け付けたユーザ入力により、文字情報領域選択手段３５４において選択された文字情報領域を記憶し、その選択された文字情報領域の座標情報に基づいて表示してもよい。

また、画像処理サーバ１２０のアプリケーションデータ生成手段３２２において生成されたデータに記述されているすべての抽出結果を表示させる必要はない。画像処理サーバ１２０のアプリケーションデータ生成手段３２２が表示させる抽出結果を設定し、その設定に基づいて、部分画像表示手段３５５は画像領域の部分画像を部分画像表示部８０５に表示してもよい。

文字情報表示部８０６には、文字情報表示手段３５６が、部分画像表示部８０５に表示している画像領域に対応した文字情報を表示する。文字情報表示部８０６上では、入力受付手段３５７が受け付けたユーザ入力により、表示した値を修正することが可能である。

確定ボタン８０７は処理中のページの確認作業及び修正作業を完了し、ファイル生成の指示をするボタンである。入力受付手段３５７がユーザ入力を受け付け、確定ボタン８０７が押下されると処理は図４のＳ４０９に進む。

修正プルダウンボタン８０８は、Ｓ５０４において検索された候補文字列の座標情報を含む部分画像が部分画像表示部８０５に表示されている場合に文字情報表示部８０６に表示される。入力受付手段３５７がユーザ入力を受け付け、修正プルダウンボタン８０８が押下されると、図８（ｂ）に示される修正候補リスト８０９が表示され、修正候補文字列が表示される。

ここで、表示される修正候補文字列は、Ｓ５０６において選択されなかった文字列である。あるいは、Ｓ５０６において選択されなかった文字列、及びＳ５０３の抽出文字列とＳ５０４の候補文字列の一部の文字とを組み合わせた文字列を修正候補文字列としてもよい。このとき、修正候補リスト８０９に表示する順番は、手書き活字ＯＣＲエンジンの確信度の高い順番で表示される。

続いて、ユーザが図８（ａ）に示される画面上で、日付項目の文字列を修正する動作について説明する。図８（ａ）において、文字情報表示部８０６に表示されている日付項目に修正を行う必要があるとする。ユーザが修正プルダウンボタン８０８を押下すると、画面８０１は図８（ｂ）に示す表示を行い、修正候補リスト８０９が表示される。

ユーザが修正候補リスト内の所望の項目を指定すると、指定された指定文字列が文字情報表示部８０６に表示されている日付項目の文字列の文字認識結果として決定される。部分画像表示部８０５に表示されている日付項目の文字列と文字情報表示部８０６に表示されている日付項目の文字列が同じである場合は、ユーザは修正候補文字列を選択せずに、次の作業を行う。

上述したように、抽出情報表示アプリケーション３５０の一連の処理を実行するによって、抽出文字列を修正及び確認することが可能となる。

文字情報表示部８０６に表示された文字列が入力受付手段３５７を介して上述した方法によって修正された場合には、情報処理端末１３０の受付指示送信手段３４２は、その修正情報を画像処理サーバ１２０の修正情報受信手段３２４に送信する。画像処理サーバ１２０において、修正情報受信手段３２４は修正指示を受信し、抽出情報の修正行う。

上記の処理手順を実行することで、活字と手書き文字とが混在した混合文字列に対して、画像分離を行わない画像に手書き活字ＯＣＲ処理を実行した抽出結果を優先させることにより文字認識結果の精度を向上させることが可能となる。

［実施形態２］
実施形態１では、活字ＯＣＲエンジン、手書きＯＣＲエンジン、及び手書き活字ＯＣＲエンジンの３つのＯＣＲエンジンを用いて文字抽出を行った。実施形態２では、手書き活字ＯＣＲエンジンの抽出結果を手書きＯＣＲエンジンの抽出結果として併用可能であることを説明する。ただし、手書き活字ＯＣＲエンジンの抽出結果は必ずしも手書きＯＣＲエンジンの抽出結果として併用するのではなく、活字ＯＣＲエンジンの抽出結果として併用してもよい。

なお、実施形態２の説明に際して、実施形態１と構成及び処理手順が同一である箇所の説明は省略し、実施形態１と差異のある箇所のみを説明する。

図５のフローチャートの処理フローと違いを説明するために、図９に画像処理サーバ１２０の文字抽出手段３３０が行う文字抽出処理の詳細を示すフローチャートを示す。

ここで、図９では、第１の文字抽出手段３３１と第３の文字抽出手段３３３という表記を用いている。これは、実施形態１と実施形態２との差分を明確に示すためである。第１の文字抽出手段３３１は活字領域を抽出する活字ＯＣＲエンジン、並びに第３の文字抽出手段３３３は手書き文字領域及び混合文字列を抽出可能な手書き活字ＯＣＲエンジンとして機能する。

また、第１の文字抽出手段３３１の代わりに、第２の文字抽出手段３３２を用いても構わない。即ち、第２の文字抽出手段３３２と第３の文字抽出手段３３３とを組み合わせても実施形態２を実行することは可能である。この場合には、第２の文字抽出手段３３２は手書き文字領域を抽出する手書きＯＣＲエンジン、並びに第３の文字抽出手段３３３は活字領域及び混合文字列を抽出可能な手書き活字ＯＣＲエンジンとして機能する。

以下、図９に示されるフローチャートの処理フローを説明する。

Ｓ９０１では、画像処理サーバ１２０の文字抽出手段３３０は、Ｓ４０３において受信したスキャン画像に対して画像分離を行い、処理はＳ９０２に進む。

Ｓ９０２では、文字抽出手段３３０は、Ｓ４０３において受信したスキャン画像及びＳ５０１において分離した活字画像にＯＣＲ処理を実行し、処理はＳ９０３に進む。

実施形態２では、手書き活字ＯＣＲエンジン及び活字ＯＣＲエンジンを使用するので、スキャン画像は手書き活字ＯＣＲエンジン、活字画像は活字ＯＣＲエンジンによるＯＣＲ処理を行う。一方で、手書き活字ＯＣＲエンジンと手書きＯＣＲエンジンとを組み合わせた場合には、スキャン画像は手書き活字ＯＣＲエンジン、手書き文字画像は手書きＯＣＲエンジンによるＯＣＲ処理を行う。

Ｓ９０３では、文字抽出手段３３０は、活字ＯＣＲエンジンの文字抽出結果と、手書き活字ＯＣＲエンジンの文字抽出結果のうちＳ５０１の画像分離において手書き文字領域であると認識される領域の抽出結果とを合成して、抽出文字列を生成する。手書き活字ＯＣＲエンジンと手書きＯＣＲエンジンとを組み合わせた場合には、以下に記す処理を行う。手書きＯＣＲエンジンの文字抽出結果と、手書き活字ＯＣＲエンジンの文字抽出結果のうちＳ５０１の画像分離において活字領域であると認識される領域の抽出結果とを合成して、抽出文字列を生成する。抽出文字列が生成されると、処理はＳ９０４に進む。

Ｓ９０４では、優先度判定手段３３６は、その候補文字列の文字認識結果の精度を、手書き活字ＯＣＲエンジンの確信度を用いて算出し、処理はＳ９０５に進む。

Ｓ９０５では、手書き活字ＯＣＲエンジンは、Ｓ９０４において検索した候補文字列に対して、優先度の判定を行い、処理はＳ９０６に進む。

優先度判定では、優先度判定手段３３６は、Ｓ９０４において算出した文字認識結果の精度が閾値以上であるか否かを判定する。

実施形態２における閾値の決定方法は、実施形態１と異なるので、以下に説明する。

実施形態２において、閾値は、混合文字列を活字領域及び手書き文字領域に分離して、活字領域には活字ＯＣＲエンジンを用い、手書き文字領域には手書き活字ＯＣＲエンジンを用いた文字認識結果に基づいて決定される。一般に活字ＯＣＲエンジンの文字認識精度は高い。しかし、日付を数字と「／」（スラッシュ）を用いて表した場合、活字ＯＣＲエンジンは上記日付をすべて数字であると誤認識することがある。すなわち、日付の区切りによく使用される「／」（スラッシュ）を数字の「１」と誤認識することがあり得る。したがって、当該閾値は、手書き活字ＯＣＲエンジンのみを用いた文字認識結果より低い値を取ることが想定される。

また、第２の文字抽出手段３３２と第３の文字抽出手段３３３を用いる場合には、閾値は活字領域に手書き活字ＯＣＲエンジンを用い、手書き文字領域には手書きＯＣＲエンジンを用いた文字認識結果に基づいて決定される。手書きＯＣＲでは、日付の場合に良く使用される数字の「９」をアルファベットの「ｑ」と誤認識する場合があるので、この閾値も手書き活字ＯＣＲエンジンのみを用いた文字認識結果より低い値を取ることが想定される。

Ｓ９０６では、文字抽出手段３３０は、Ｓ９０５において判定した優先度の結果に従って、重複した領域を有するＳ９０３において合成した抽出文字列とＳ９０４において検索された候補文字列とから出力文字列を判定し、処理はＳ９０７に進む。

Ｓ９０７では、文字抽出手段３３０は、Ｓ９０６の判定結果を受けて、重複した領域を有さない抽出文字列とＳ９０６の出力文字列とを１つの抽出結果として統合する。

上記の処理手順を実施することにより、実施形態１と比べて、ＯＣＲエンジンが１つ少ない態様で本開示を実施できるので、処理コストが削減されるメリットがある。

（その他の実施形態）
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述した実施形態の開示は、以下の構成及び方法を含む。

（構成１）活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、を備える、ことを特徴とする画像処理装置。

（構成２）前記抽出手段は、前記混合文字列は特定項目を表す文字列である、ことを特徴とする構成１に記載の画像処理装置。

（構成３）前記特定項目を表す文字列は、日付、電話番号、又は住所である、ことを特徴とする構成２に記載の画像処理装置。

（構成４）前記抽出手段は、前記各文字認識結果に対して、パターンマッチングを行うことにより前記混合文字列に対応する文字認識結果を抽出する、ことを特徴とする構成１に記載の画像処理装置。

（構成５）文字種、文字群、及び文字数を含む情報が前記パターンマッチングには用いられる、ことを特徴とする構成４に記載の画像処理装置。

（構成６）前記精度は、前記文字認識に使用する文字認識エンジンが出力する結果に対する正確さの度合いである、ことを特徴とする構成１に記載の画像処理装置。

（構成７）前記閾値は前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域及び前記手書き領域に異なった文字認識を行った結果に基づいて決定される値である、ことを特徴とする構成１に記載の画像処理装置。

（構成８）前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする構成７に記載の画像処理装置。

（構成９）前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には前記文字認識手段を用いて文字認識を行う、ことを特徴とする構成７に記載の画像処理装置。

（構成１０）前記活字領域には前記文字認識手段を用いて文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする構成７に記載の画像処理装置。

（構成１１）前記抽出手段が抽出した前記混合文字列に対応する文字認識結果、及び前記混合文字列に対応する文字認識結果の修正候補の文字列を表示し、ユーザ入力を受け付ける表示制御手段と、をさらに備え、前記表示制御手段に表示された前記混合文字列に対応する文字認識結果及び前記修正候補の文字列の中からユーザ入力により指定された指定文字列を前記混合文字列に対応する前記文字認識結果として選択する、ことを特徴とする構成１乃至構成１０のいずれか一項に記載の画像処理装置。

（構成１２）前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列である、ことを特徴とする構成１１に記載の画像処理装置。

（構成１３）前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列、並びに前記統合した文字列に前記混合文字列に対応する文字認識結果の文字列の一部の文字を組み合わせた文字列を含む、ことを特徴とする構成１１に記載の画像処理装置。

（構成１４）活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得するステップと、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得するステップと、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出するステップと、を備える、ことを特徴とする画像処理装置の制御方法。

Claims

活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、
前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、
前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、
を備える、
ことを特徴とする画像処理装置。
前記抽出手段は、前記混合文字列は特定項目を表す文字列である、ことを特徴とする請求項１に記載の画像処理装置。
前記特定項目を表す文字列は、日付、電話番号、又は住所である、ことを特徴とする請求項２に記載の画像処理装置。
前記抽出手段は、前記各文字認識結果に対して、パターンマッチングを行うことにより前記混合文字列に対応する文字認識結果を抽出する、ことを特徴とする請求項１に記載の画像処理装置。
文字種、文字群、及び文字数を含む情報が前記パターンマッチングには用いられる、ことを特徴とする請求項４に記載の画像処理装置。
前記精度は、前記文字認識に使用する文字認識エンジンが出力する結果に対する正確さの度合いである、ことを特徴とする請求項１に記載の画像処理装置。
前記閾値は前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域及び前記手書き領域に異なった文字認識を行った結果に基づいて決定される値である、ことを特徴とする請求項１に記載の画像処理装置。
前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする請求項７に記載の画像処理装置。
前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には前記文字認識手段を用いて文字認識を行う、ことを特徴とする請求項７に記載の画像処理装置。
前記活字領域には前記文字認識手段を用いて文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする請求項７に記載の画像処理装置。
前記抽出手段が抽出した前記混合文字列に対応する文字認識結果、及び前記混合文字列に対応する文字認識結果の修正候補の文字列を表示し、ユーザ入力を受け付ける表示制御手段と、をさらに備え、
前記表示制御手段に表示された前記混合文字列に対応する文字認識結果及び前記修正候補の文字列の中からユーザ入力により指定された指定文字列を前記混合文字列に対応する前記文字認識結果として選択する、ことを特徴とする請求項１に記載の画像処理装置。
前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列である、ことを特徴とする請求項１１に記載の画像処理装置。
前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列、並びに前記統合した文字列に前記混合文字列に対応する文字認識結果の文字列の一部の文字を組み合わせた文字列を含む、ことを特徴とする請求項１１に記載の画像処理装置。
活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得するステップと、
前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得するステップと、
前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出するステップと、
を備える、
ことを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１乃至請求項１３のいずれか一項に記載の画像処理装置として機能させるためのプログラム。