JP2024033328A - 画像処理装置、画像処理装置の制御方法、及びプログラム - Google Patents
画像処理装置、画像処理装置の制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2024033328A JP2024033328A JP2022136851A JP2022136851A JP2024033328A JP 2024033328 A JP2024033328 A JP 2024033328A JP 2022136851 A JP2022136851 A JP 2022136851A JP 2022136851 A JP2022136851 A JP 2022136851A JP 2024033328 A JP2024033328 A JP 2024033328A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character recognition
- character string
- handwritten
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims description 61
- 238000000605 extraction Methods 0.000 claims description 100
- 238000012937 correction Methods 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 14
- 238000010586 diagram Methods 0.000 abstract description 8
- 238000012015 optical character recognition Methods 0.000 description 87
- 230000008569 process Effects 0.000 description 39
- 230000010365 information processing Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 21
- 238000000926 separation method Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 8
- 238000007639 printing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Abstract
Description
本発明は、活字と手書き文字とを含む混合文字列の文字認識技術に関する。
OCR(Optical Character Recognition)エンジンの性能がディープラーニングによって向上していることに起因して、スキャンした画像において手書き文字の認識精度が向上している。具体的には、AI-OCRエンジンを用いることにより、画像内から文字のつながった行を切り出した上で、行内の前後の文字のつながり及び自然言語処理技術を用いた補正を行い、手書き文字の認識精度を高めている。
さらに文字の認識精度を高めるために、特許文献1には、文字列領域を活字領域と手書き文字領域とに分離し、それぞれに最適なOCR処理を行う技術が開示されている。
特許文献1に記載されている技法では、活字及び手書き文字が混在する日付形式のような混合文字列の場合、活字と手書き文字とを分離すると1文字又は非常に短い文字列になり、文字の認識精度が低下するという問題が生じる。これは、上記混合文字列はコンテキスト情報が少なく、前後の文字つながり及び自然言語補正を用いた精度を高める処理が混合文字列にはあまり作用しないからである。
本開示は、上記事情に鑑みてなされたものであり、活字と手書き文字が混在する混合文字列に対して、文字認識結果の精度を向上させることを目的とする。
本開示に係る画像処理装置は、活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、を備える、ことを特徴とする。
本開示によれば、活字と手書き文字とが混在している混合文字列に対する文字認識結果の精度が向上する。
以下、本開示の実施形態について、添付図面を参照して説明する。なお、以下の実施形態は本開示を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが本開示の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。また、シーケンスチャート及びフローチャートにおける各工程(ステップ)については「S」で始まる符号を用いて示す。
[実施形態1]
<画像処理システムの全体構成>
図1は、実施形態1における画像処理システムの構成の一例を表す図である。画像処理システムは、画像形成装置110、画像処理サーバ120、情報処理端末130、及びストレージサーバ140を含む。これらの各装置及び各サーバは、ネットワーク150を介して通信可能に接続されている。
<画像処理システムの全体構成>
図1は、実施形態1における画像処理システムの構成の一例を表す図である。画像処理システムは、画像形成装置110、画像処理サーバ120、情報処理端末130、及びストレージサーバ140を含む。これらの各装置及び各サーバは、ネットワーク150を介して通信可能に接続されている。
本実施形態の画像形成装置110は、画像処理サーバ120を介してスキャンした文書の画像データをストレージサーバ140への画像送信の依頼をすること等が可能である。
また、本実施形態では、画像形成装置110をスキャン機能、印刷機能、複写機能などを備える複合機を例にして説明するが、画像形成装置110は複合機に限られない。例えば、スキャン機能を備える装置であれば、後述する本開示の処理を実行することが可能である。ここで、スキャン機能とは、画像形成装置110に設けられたスキャナを用いて文書を読み取ることにより生成した画像データを外部に送信する機能のことを指す。印刷機能とは、情報処理端末130等から受信した印刷データを印刷する機能のことを指すである。複写機能とは、スキャナによって読み取った文書の画像データを印刷することにより、文書の複写物を得る機能のことを指す。
なお、本実施形態の画像処理システムは、画像形成装置110、画像処理サーバ120、情報処理端末130、及びストレージサーバ140を含む構成としているがこれに限定されない。例えば、画像形成装置110が情報処理端末130又は画像処理サーバ120の機能を兼ね備えてもよい。また、画像処理サーバ120はインターネット上ではなくLAN上に配置されたサーバであってもよい。また、ストレージサーバ140はメールサーバなどに置き換えてもよく、所望の装置にスキャンした画像をメールに添付し送信してもよい。また、本実施形態の画像処理システムは、複数の画像処理サーバ120、複数の情報処理端末130、及び複数のストレージサーバ140を含む構成でも構わない。
<MFPのハードウェア構成>
図2は、本実施形態における画像処理システムのハードウェア構成の一例を表す図である。
図2は、本実施形態における画像処理システムのハードウェア構成の一例を表す図である。
画像形成装置110は、プリンタ201、スキャナ202、操作部203、CPU211、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、及び拡張I/F218を含む。
CPU211は、RAM212、HDD213、ネットワークI/F214、プリンタI/F215、スキャナI/F216、操作部I/F217、及び拡張I/F218とデータを授受することが可能である。また、CPU211は、HDD213から読み出した命令(コンピュータプログラム)をRAM212に展開し、RAM212に展開した命令を実行することにより、後述する各処理の実行を制御する。
なお、本実施形態では1つのCPU211が1つのメモリ(RAM212又はHDD213)を用いて後述のフローチャートに示す各処理を実行しているが、これに限定されない。例えば、複数のCPU及び複数のRAM又は複数のHDDを協働させて各処理を実行してもよい。
HDD213は、CPU211において実行可能な命令、画像形成装置110において使用する設定値、及びユーザから指示された処理に関するデータ等を記憶する。
RAM212は、CPU211がHDD213から読み出した命令を一時的に格納するための領域である。またRAM212は、命令の実行に必要な各種のデータを記憶しておくことも可能である。例えば画像処理では、スキャナ202によって読み取られたデータをRAM212に展開することにより、所期の処理を行う。
ネットワークI/F214は、画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。ネットワークI/F214は、データ受信を行ったことをCPU211に伝達すること、及びCPU211からの指示にしたがって、RAM212上のデータをネットワーク150に送信する。
プリンタI/F215は、CPU211からの指示にしたがって印刷対象の印刷データをプリンタ201に送信し、プリンタ201から受信したプリンタの状態をCPU211に伝達する。
スキャナI/F216は、CPU211から指示された画像読み取り指示をスキャナ202に送信し、スキャナ202から受信した画像データをCPU211に伝達する。また、スキャナ202から受信した当該スキャナの状態の情報をCPU211に伝達する。
操作部I/F217は、操作部203を介してユーザからの指示をCPU211に伝達し、ユーザが操作するための画面情報を操作部203に表示させる。
拡張I/F218は、画像形成装置110に外部機器を接続することを可能とするインターフェースである。拡張I/F218は、例えば、USB(Universal Serial Bus)形式のインターフェースを含む。USBメモリ等の外部記憶装置が拡張I/F218に接続されることにより、画像形成装置110は、当該外部記憶装置に記憶されているデータの読み取り及び当該外部記憶装置に対するデータの書き込みを行う。
プリンタ201は、プリンタI/F215を介して受信した画像データを用紙に印刷し、プリンタ201の状態をプリンタI/F215に伝達する。
スキャナ202は、スキャナI/F216を介して受信した画像読み取り指示に従って、スキャナに置かれた文書(用紙)を読み取ることによって取得した画像データをスキャナI/F216に伝達する。また、スキャナ202は、スキャナの状態をスキャナI/F216に伝達する。
操作部203は、ユーザの操作に基づいて、画像形成装置110に対して各種の指示を行うためのインターフェースである。例えば、操作部203は、タッチパネル液晶画面を含み、操作画面を表示すると共に、ユーザからの操作を受け付ける。
画像処理サーバ120は、CPU221、RAM222、HDD223、及びネットワークI/F224を含む。
CPU221は、装置全体を制御し、RAM222、HDD223、及びネットワークI/F224の間でのデータの送受信を制御する。また、CPU221はHDD223から読み出した制御プログラム(命令)をRAM222に展開し、命令を実行する。
HDD223は、画像データや各種プログラムを記憶する大容量記憶デバイスである。なお、本実施形態では1つのCPU221が1つのメモリ(RAM222又はHDD223)を用いて後述のフローチャートに示す各処理を実行するものとするが、本実施形態の実施はこれに限定されない。
ネットワークI/F224は、画像処理サーバ120が画像形成システム内の装置とネットワーク通信を行うためのインターフェースである。
情報処理端末130は、CPU231、RAM232、HDD233、ネットワークI/F234、操作部I/F235、及び操作部236を含む。
CPU231は、装置全体を制御し、RAM232、HDD233、ネットワークI/F234、操作部I/F235、及び操作部236の間でのデータの送受信を制御する。また、CPU231はHDD233から読み出した制御プログラム(命令)をRAM232に展開し、命令を実行する。
ネットワークI/F234は、情報処理端末130が画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。
操作部I/F235は、操作部236から入力されたユーザからの指示をCPU231に伝達し、CPU231による表示制御に基づき、表示すべき操作画面に関する情報を操作部236に伝達するインターフェースである。情報処理端末130には、画像データを確認するためのアプリケーションがインストールされている。情報処理端末130は、当該アプリケーションを実行することにより、画像処理サーバの画像データの表示及び画像データの保存を要求する機能を実現する。画像データを確認するためのアプリケーションはWebアプリケーションとして提供される場合、情報処理端末130は、Webブラウザを介して当該Webアプリケーションを実行することにより、画像データの表示及び画像データの保存を要求してもよい。
なお、本実施形態では1つのCPU231が1つのメモリ(RAM232又はHDD233)を用いて後述のフローチャートに示す各処理を実行するものとするが、本開示の実施はこれに限定されない。
ストレージサーバ140は、CPU241、RAM242、HDD243、及びネットワークI/F244を含む。
CPU241は、装置全体を制御し、RAM242、HDD243、及びネットワークI/F244の間でのデータの送受信を制御することが可能である。また、CPU241はHDD243から読み出した制御プログラム(命令)をRAM242に展開し、命令を実行する。
HDD243は、画像処理サーバ120から受信した画像データを保存する。なお、本実施形態では1つのCPU241が1つのメモリ(RAM242又はHDD243)を用いて後述のフローチャートに示す各処理を実行するが、この態様だけには限定されない。
ネットワークI/F244は、ストレージサーバ140が画像形成システム内の他の装置とネットワーク通信を行うためのインターフェースである。
<画像処理システムのソフトウェア構成>
図3(a)は画像形成装置110のソフトウェア構成を示した図である。画像形成装置110のソフトウェアを構成する各手段はHDD213に格納されており、RAM212へ転送され、CPU211によって実行される。
図3(a)は画像形成装置110のソフトウェア構成を示した図である。画像形成装置110のソフトウェアを構成する各手段はHDD213に格納されており、RAM212へ転送され、CPU211によって実行される。
画像読取手段311はスキャナ202上に載置された原稿をスキャナ202によって読み取って画像データに変換し、HDD213へ格納する。
画像印刷手段312はHDD213へ格納された画像データ、又はネットワーク150上の他の機器からネットワークI/F214を介して受信した画像データをRAM212上へ展開する。そして、画像印刷手段312は展開した画像データをプリンタ201へ送信し、プリンタ201は画像データの印刷を実行する。
UI表示手段313はユーザが操作するボタン等の操作部品、及び処理進捗状況等の情報表示を行うUI部品の表示を行う。
入力受付手段314はUI表示手段313が表示したUI部品への入力を受け付け、入力に対応した処理を実行する。
画像送信手段315はHDD213に格納される画像データとスキャン設定とをネットワークI/F214を介してネットワーク150上の他の機器、例えば画像処理サーバ120へ送信する。
図3(b)は画像処理サーバ120のソフトウェア構成を示した図である。
画像処理サーバ120のソフトウェアを構成する各手段はHDD223に格納されており、RAM222へ転送され、CPU221によって実行される。
画像受信手段321は、画像形成装置110の画像読取手段311から画像データを受信する。
文字抽出手段330は、受信した画像データに複数の文字抽出を行い、最適な文字抽出結果を選択する。文字抽出手段330は、第1の文字抽出手段331、第2の文字抽出手段332、第3の文字抽出手段333、画像分離手段334、候補文字列検索手段335、優先度判定手段336、及び抽出結果選択手段337を含む。
第1の文字抽出手段331は、画像データから文字情報を抽出する第1の手段である。
第2の文字抽出手段332は、画像データから文字情報を抽出する第2の手段である。
第3の文字抽出手段333は、画像データから文字情報を抽出する第3の手段である。
本実施形態では、第1の文字抽出手段331は活字を抽出する活字OCRエンジン、第2の文字抽出手段332は手書き文字を抽出する手書きOCRエンジン、第3の文字抽出手段333は活字及び手書き文字を抽出可能な手書き活字OCRエンジンとする。
画像分離手段334は画像上の手書きされた画素を判定し、手書き画素のみの画像、活字、及び背景の画像に分離する。本実施形態では、Deep Learningを使用したセマンティックセグメンテーションの適用により、画素毎に手書き画素か否かのラベル付けを行う。なお、画像分離手段334のアルゴリズムはセマンティックセグメンテーションに限定されない。例えば、手書きされる前の活字のみの画像と、手書きされた後の画像との差分を算出し、差分の存在する画素を手書き画素と判定する方法でもよい。
候補文字列検索手段335は、第3の文字抽出手段333によって抽出された文字抽出結果から候補となる文字列を検索する。本実施形態では、パターンマッチングを用いた文字列検索を行うが、文字列の検索方法はこれに限定されない。例えば、キーとなる文字列から対象となる文字列を探索する方法や機械学習を利用したエンティティ抽出等の方法でもよい。
優先度判定手段336は、候補文字列検索手段335で検索された候補文字列の優先度を判定する。
抽出結果選択手段337は、優先度判定手段336の判定結果に基づいて第1の文字抽出手段331と第2の文字抽出手段332との文字抽出結果を合わせた抽出文字列か候補文字列のどちらかを選択する。
アプリケーションデータ生成手段322は、情報処理端末130の抽出情報表示アプリケーション350上で動作するデータを生成する。本実施形態では、抽出情報表示アプリケーション350はWebアプリケーションとして動作している。Webアプリケーションは、HTML等のWebページ記述言語により記述されたページ記述データと、JavaScript(登録商標)等のスクリプト言語とによって記述されたスクリプトデータで構成されている。
抽出情報表示アプリケーション350のページ記述データには、画像読取手段311によって読み取った画像データと、当該画像データを文字抽出手段330によって抽出した情報が含まれる。ここで抽出情報の中には、抽出文字列又は出力文字列、抽出文字列又は出力文字列の位置情報、文字の属性、OCRエンジンの種別、言語情報、及び文字の確信度等が含まれる。
なお、ページ記述データは、HTMLに限られず、その他のクライアント側が解釈してアプリケーションを動作させることができるXML又はJSON等の構造化されたデータでも良い。
アプリケーションデータ送信手段323は、アプリケーションデータ生成手段322において生成した抽出情報を情報処理端末130に送信する。
修正情報受信手段324は、情報処理端末130の受付指示送信手段342から送信された抽出情報の修正指示を受信して、抽出情報の修正を行う。
ファイル生成手段325は、情報処理端末130の受付指示送信手段342から送信されたファイル生成の指示を受信して、ファイルを生成する。ここで、画像送信手段315から送信されるスキャン設定からファイルフォーマットの情報を取得し、その設定に基づいてスキャン画像からファイルを生成する。
ファイル送信手段326は、ファイル生成手段325で生成されたファイルをストレージサーバ140に送信する。
図3(c)は情報処理端末130のソフトウェア構成を示した図である。
情報処理端末130のソフトウェアを構成する各手段はHDD233に格納されており、RAM232へ転送され、CPU231によって実行される。
アプリケーションデータ受信手段341は、画像処理サーバ120上で動作するアプリケーションデータ生成手段322によって生成されたデータを受信し、生成されたデータをHDD303へ保存する。
受付指示送信手段342は、入力受付手段357において受け付けた指示の一部を画像処理サーバ120へ送信する。
アプリケーション実行手段343は、抽出情報表示アプリケーション350を起動し、抽出情報表示アプリケーション350を操作可能な状態にする。
抽出情報表示アプリケーション350は、画像処理サーバ120上で動作するアプリケーションデータ生成手段322によって生成されたデータを読み込み、抽出情報の確認及び抽出情報の修正を行うアプリケーションである。
抽出情報表示アプリケーション350は、ページ記述データとスクリプトデータとによって実装される以下に説明する各手段を含む。
UI表示手段351はユーザが操作するボタン等の操作部品及び処理進捗状況等の情報表示を行うUI部品の表示を行う。
画像表示手段352は画像データの表示を行う。
文字情報領域表示手段353は画像表示手段352が表示している画像データ中の文字情報が含まれる文字情報領域を表示する。
文字情報領域選択手段354は、文字情報領域表示手段353によって表示する文字情報領域を選択する。
部分画像表示手段355は文字情報領域内の画像データを切り出した部分画像を表示する。また、部分画像表示手段355は複数の部分画像を連結して表示することが可能である。
文字情報表示手段356は文字情報領域から抽出された文字情報を表示する。
入力受付手段357はUI表示手段351、画像表示手段352、文字情報領域表示手段353、及び文字情報表示手段356が表示したUI部品への入力を受け付け、入力に対応した処理を実行する。文字情報表示手段356が表示した文字情報は、入力受付手段357を介して、修正することが可能である。
<全体の処理の流れ>
図4は、画像形成装置110においてスキャンした画像からファイルを生成して、ストレージサーバ140へ送信する処理の流れを示すシーケンスチャートである。以下では、各装置間のやり取りを中心に説明する。
図4は、画像形成装置110においてスキャンした画像からファイルを生成して、ストレージサーバ140へ送信する処理の流れを示すシーケンスチャートである。以下では、各装置間のやり取りを中心に説明する。
S401では、画像形成装置110の画像読取手段311は、スキャナ202に載置された原稿を読み取ってスキャン画像を生成する。
S402では、画像形成装置110の画像送信手段315は、S401において生成されたスキャン画像を画像処理サーバ120へ送信する。
S403では、画像処理サーバ120の画像受信手段321は、S402において画像形成装置110の画像送信手段315から送信されたスキャン画像を受信する。
S404では、画像処理サーバ120の文字抽出手段330は、S403において画像受信手段321が受信したスキャン画像に対して文字抽出を行い、受信したスキャン画像の抽出結果を取得する。
S405では、画像処理サーバ120のアプリケーションデータ生成手段322は、S404において文字抽出手段330から出力される抽出結果に基づいて情報処理端末130の抽出情報表示アプリケーション350において動作するデータを生成する。
S406では、画像処理サーバ120のアプリケーションデータ送信手段323は、S405においてアプリケーションデータ生成手段322が生成するデータを情報処理端末130に送信する。
S407では、情報処理端末130のアプリケーションデータ受信手段341は、S406において画像処理サーバ120のアプリケーションデータ送信手段323が送信するデータを受信する。
S408では、情報処理端末130のアプリケーション実行手段343は、抽出情報表示アプリケーション350を実行する。抽出情報表示アプリケーション350が実行する処理については後述する。
S409では、情報処理端末130の受付指示送信手段342は、入力受付手段357を介してファイル生成の指示を受けて、画像処理サーバ120にファイル生成指示を送信する。
S410では、画像処理サーバ120のファイル生成手段325は、S409において情報処理端末130の受付指示送信手段342から送信されたファイル生成指示を受信するとファイルを生成する。
S411では、画像処理サーバ120のファイル送信手段326は、S410においてファイル生成手段325が生成するファイルをストレージサーバ140に送信する。
S412では、ストレージサーバ140のCPU241は、S411において画像処理サーバ120のファイル送信手段326が送信するファイルをHDD243に保存する。
以上が、画像形成装置110においてスキャンした画像をファイル化して、ストレージサーバ140へ送信する処理の概略である。上記の処理ステップにおいて重要な処理について以下に説明する。
図5は、S404において文字抽出手段330が行う文字抽出処理を示すフローチャートである。
当該文字抽出処理においては、第1の文字抽出手段331は活字を抽出する活字OCRエンジン、第2の文字抽出手段332は手書き文字を抽出する手書きOCRエンジンとして機能する。第3の文字抽出手段333は活字及び手書き文字の双方を抽出することに対応可能である手書き活字OCRエンジンとして機能する。
S501では、画像処理サーバ120の文字抽出手段330は、S403において受信したスキャン画像に対して画像分離を行い、処理はS502に進む。
図6はスキャン画像に画像分離を行った一例である。
図6(a)はS403において画像受信手段321が受信するスキャン画像610の例である。
図6(b)及び図6(c)はスキャン画像610に画像分離を行った結果を示している。図6(b)は、図6(a)から手書き文字画素が取り除かれた活字のみの活字画像620を示している。図6(c)は手書き文字画素のみの手書き文字画像630及び手書き文字画素を一定の範囲で囲った手書き文字情報領域631~633を示している。
S502では、文字抽出手段330は、S403において受信したスキャン画像及びS501において分離した活字画像と手書き文字画像それぞれに以下のOCR処理を実行し、処理はS503に進む。本実施形態では、手書き活字OCRエンジンはスキャン画像に対して、活字OCRエンジンは活字画像に対して、及び手書きOCRエンジンは手書き文字画像に対して処理を行う。
文字抽出手段330は手書き活字OCR処理をスキャン画像に対して行う前に、スキャン画像に対してブロックセレクションを実行し、各文字ブロックを取得する。そして文字抽出手段330は取得した各文字ブロックに対して手書き活字OCR処理を行うことにより、各文字ブロックに対応する各文字認識結果を取得する。文字抽出手段330は各文字ブロックの位置情報、各文字ブロックに対応する各文字認識結果、及び各文字認識結果の確信度等を含むテキスト情報を生成する。つまり、テキスト情報において各文字ブロックと各文字ブロックに対応する各文字認識結果とは紐づけられている。
S503では、文字抽出手段330は、活字OCRエンジンの文字抽出結果及び手書きOCRエンジンの文字抽出結果を合成することにより、抽出文字列を生成する。
一般的に活字及び手書き文字に対してそれぞれ専用のOCRエンジンが文字認識精度のよい抽出結果を出力する。そのため、それぞれ専用のOCRエンジンが出力した抽出結果を合成することにより、抽出文字列は生成される。例えば、各OCRエンジンの抽出結果である文字群をその中心座標を比較し、中心座標の順番に並べることにより各専用OCRエンジンの抽出結果は合成される。抽出文字列は合成された抽出結果に基づいて生成される。
しかし、日付文字列611のような手書き文字と活字が混在する混合文字列の場合、画像分離によってお互いの文字種が途中で繋がらなくなる。この場合、活字日付文字列621及び手書き日付文字列を示す手書き文字情報領域633のように文字の間隔が広くなり、前後の文字つながり又は自然言語補正によって精度を高める処理がうまく作用しなくなる。これにより、日付のような混合文字列において画像分離を行うと文字認識結果の精度が低下する現象が発生する。そこで、このような混合文字列においては、文字を分離せずに混在文字列として手書き活字OCRエンジンにも同時に文字認識を実行させる。これにより、前後の文字つながり又は自然言語補正によって精度を高める処理が作用しやすくなり、文字認識結果の精度が向上する。
S504では、文字抽出手段330は、S503において抽出した手書き活字OCRエンジンの文字抽出結果から、活字と手書き文字が混在する混合文字列の候補として、候補文字列を検索し、処理はS505に進む。
ここで、本実施形態では、パターンマッチングを用いて候補文字列を検索する。
まず、文字抽出手段330は帳票全体からどの文字同士が繋がっているかを判定する。例えば、手書き活字OCRエンジンの文字抽出結果に含まれる各文字の座標情報を用いて、文字列が一行に収まるブロックを抽出する。このとき、文字の高さが一定の範囲内に収まっていて、横方向の中線が他の文字と縦方向に交差するといった条件という所定の条件が満足される場合にブロックを抽出してもよい。このように抽出したブロック群においてそれぞれのブロック内の文字を端から順番に結合して結合文字列を作成し、この結合文字列の中から候補文字列を検索する。
申込書のような帳票の場合を考えると候補文字列は、日付、電話番号、住所といった特定項目の文字列になる。例えば、この中から日付を検索する場合、日付のパターンは数字と「年」「月」「日」の文字とが混在した文字列であると定義することができる。さらに、数字の桁数などを「年」「月」「日」の文字の位置に応じて、限定して検索を行うことができる。このように、検索したい項目において、文字種(数字、又は漢字等)、含まれる可能性のある文字群(「年」、「月」、及び「日」)、桁数(文字数)等を含む情報からパターンマッチングを用いて候補文字列を検索することが可能である。
パターンマッチングの具体的な例を図6(a)に示される例を参照して説明する。この場合、文字認識された各文字ブロックが西暦で示された生年月日のパターンと合致するかの判定が行われる。パターンの具体例は、4文字の手書き文字、「年」という活字、1文字又は2文字の手書き文字、「月」という活字、1文字又は2文字の手書き文字、「日」という活字によって形成される混合文字列である。この混合文字列と文字認識された各文字ブロックとのパターンマッチングを行うと、「1980年4月10日」に対応するブロックが抽出され、当該ブロックにおいて文字認識された文字認識結果が候補文字列となる。
ただし、候補文字列の検索方法は上記の方法に限られず、他の方法も存在する。例えば、日付を検索する場合、「記入日」、「日付」、又は「生年月日」等のキーとなる文字列を辞書として持っておき、そのキー文字を検索することにより周囲に対象となる日付の文字列を探索する方法がある。または、候補文字列となり得る日付、電話番号、又は住所等の文字列に正解ラベルを付けて機械学習を行い、その学習済みモデルを用いて直接対象となる文字列を抽出する方法でもよい。
S505では、手書き活字OCRエンジンは、S504において検索した候補文字列に対して、優先度の判定を行い、処理はS506に進む。尚、優先度判定の処理フローについては後述する。
上記、S505における優先度判定によって、S504において検索された候補文字列から尤度の高い候補文字列のみを優先させることが可能となる。
S506では、文字抽出手段330は、S505において判定した優先度の結果に従って、重複した領域を有するS503において合成した抽出文字列とS504において検索された候補文字列とから出力文字列を判定し、処理はS507に進む。
S502において同じスキャン画像に各種OCRエンジンを適用しているので、各文字抽出結果の領域は重複する。つまり、抽出文字列及び候補文字列も領域は重複する。そこで、どちらかの文字列をその領域の出力文字列として判定する必要がある。S505の優先度判定で候補文字列の優先度が「高」の場合、候補文字列を出力文字列と判定する。一方、S505の優先度判定で候補文字列の優先度が「低」の場合、抽出文字列を出力文字列と判定する。ただし、抽出文字列が存在しない場合、候補文字列を出力文字列と判定する。
S507では、文字抽出手段330は、S506の判定結果を受けて、重複した領域を有さない抽出文字列とS506の出力文字列とを1つの抽出結果として統合する。
抽出文字列及び候補文字列が重複する領域に属する抽出文字列は、S506において抽出文字列が出力文字列として判定されるか、又は候補文字列が優先された結果、出力文字列として判定されないかの何れかに選別される。ただし、重複する領域に属する抽出文字列が出力文字列として判定されない場合でも、当該抽出文字列を第2の候補の出力文字列として、統合した抽出結果に含めてもよい。
上述したように、文字抽出手段330の一連の処理によって、混合文字列が存在し、かつ、当該混合文字列の文字認識結果の精度が高いと判定された場合は、手書き活字OCRエンジンが認識した混合文字列の抽出結果が混合文字列の存在する領域で優先される。その結果、手書き活字OCRエンジンが認識した混合文字列の抽出結果が出力文字列となる。ここで、文字認識結果の精度とは、文字認識に使用するOCRエンジン(文字認識エンジン)が出力する結果に対する正確さの度合い、即ち確信度を指す。
混合文字列が存在しないそれ以外の領域においては、従来通りの活字OCRエンジンの抽出結果と手書きOCRエンジンの抽出結果とを合成した抽出文字列が出力される。これにより、混合文字列以外の文字列の文字認識結果の精度は維持され、分離処理の影響により文字認識結果の精度が低下しやすい混合文字列においては文字認識結果の精度が向上する。
また、この処理のメリットとして、本来の文字種とは異なった文字認識が行われた箇所が混合文字列と判定された場合には、手書き活字OCRエンジンが文字認識した混合文字列の抽出結果が出力文字列となり、文字認識結果に悪影響が生じないことである。ただし、文字列全体がどちらかの文字種に認識されると混合文字列として認識されないため、上記メリットが活かせなくなる。その場合は、混合文字列でなくても手書き活字OCRエンジンの確信度を利用して、候補文字列を優先させる判断を行ってもよい。
次に、優先度判定の処理フローについて説明する。
図7は、優先度判定のフローチャートを示している。
S701では、画像処理サーバ120の優先度判定手段336は、S504において文字抽出手段330が検索した候補文字列を取得し、処理はS702に進む。
S702では、優先度判定手段336は、S501において認識した手書き文字情報領域を取得し、処理はS703に進む。
S703では、優先度判定手段336は、S701において取得した候補文字列が手書き文字と活字の両方を含む混合文字列か否かをS702で取得した手書き文字情報領域から判定する。
候補文字列及び手書き文字情報領域はそれぞれ画像データに対する座標情報を有しているので候補文字列の外接矩形内に手書き文字情報領域の座標が含まれ、かつ、すべての領域が手書き文字情報領域でなければ、混合文字列であると判断することが可能である。候補文字列が混合文字列であると判定される場合は、処理はS704に進む。候補文字列が混合文字列ではないと判定される場合は、処理はS707に進む。
S704では、優先度判定手段336は、その候補文字列の文字認識結果の精度を、手書き活字OCRエンジンによる文字認識結果の確信度を用いて算出し、処理はS705に進む。
OCRエンジンによる文字認識結果の確信度は、文字認識結果であるテキストデータがどのくらい正しいかを示す統計的な尺度であり、OCRエンジンの文字抽出結果(テキスト情報)に含まれる。OCRエンジンによる文字認識結果の確信度の値は、任意の範囲を取り得るが、本実施形態においては、0から1までの値とする。
S705では、優先度判定手段336は、S704において算出した文字認識結果の精度が閾値以上であるか否かを判定する。閾値は、混合文字列を活字領域及び手書き文字領域に分離して、活字領域には活字OCRエンジンを用い、手書き文字領域には手書きOCRエンジンを用いた文字認識結果に基づいて決定される。
例えば、ある候補文字列が存在した場合、その候補文字列の確信度が閾値以上であり、かつ、その候補文字列を構成する各文字の確信度は閾値未満ではない等の条件を用いて判定する。ここで候補文字列の確信度は各文字の確信度の平均値でも、単語としての確信度でもよい。
確信度が閾値以上、即ち候補文字列の文字認識結果の精度が閾値以上であると判定される場合、処理はS706に進む。確信度が閾値未満、即ち候補文字列の文字認識結果の精度が閾値未満であると判定される場合、処理はS707に進む。
S706では、優先度判定手段336は、当該候補文字列の優先度を「高」と判定し、優先度判定の処理フローは終了する。
S707では、優先度判定手段336は、当該候補文字列の優先度を「低」と判定し、優先度判定の処理フローは終了する。
次に、図8を用いてS408において情報処理端末130の抽出情報表示アプリケーション350が実行する処理について説明する。
図8(a)は、抽出情報表示アプリケーション350が表示する画面の一例である。
抽出情報表示アプリケーション350は、S408においてアプリケーション実行処理を開始すると、UI表示手段351を実行して、画面801を表示する。
画面801において、処理ページ番号802は画像形成装置110の画像読取手段311が読み取った画像のページ番号を表示し、ユーザに現在処理している画像データが読み取り原稿の何ページ目であるかを通知する。
ページ送りボタン803は、ページを遷移させるボタンである。入力受付手段357が受け付けたユーザ入力により、ページ送りボタン803が押下されるとページに修正が発生している場合は、一時的に修正情報をHDD233に保存しページを遷移させ、ページに修正が発生していない場合は、そのままページを遷移させる。
画像表示部804には画像表示手段352が処理中のページの画像データを表示される。
部分画像表示手段355が、画像領域の部分画像を部分画像表示部805に表示する。ここで、表示される部分画像は、画像処理サーバ120のアプリケーションデータ生成手段322において生成されたデータに記述されている座標情報に基づいて表示される。ただし、画像領域の部分画像の表示方法は、上記の方法に限られない。例えば、過去に入力受付手段357が受け付けたユーザ入力により、文字情報領域選択手段354において選択された文字情報領域を記憶し、その選択された文字情報領域の座標情報に基づいて表示してもよい。
また、画像処理サーバ120のアプリケーションデータ生成手段322において生成されたデータに記述されているすべての抽出結果を表示させる必要はない。画像処理サーバ120のアプリケーションデータ生成手段322が表示させる抽出結果を設定し、その設定に基づいて、部分画像表示手段355は画像領域の部分画像を部分画像表示部805に表示してもよい。
文字情報表示部806には、文字情報表示手段356が、部分画像表示部805に表示している画像領域に対応した文字情報を表示する。文字情報表示部806上では、入力受付手段357が受け付けたユーザ入力により、表示した値を修正することが可能である。
確定ボタン807は処理中のページの確認作業及び修正作業を完了し、ファイル生成の指示をするボタンである。入力受付手段357がユーザ入力を受け付け、確定ボタン807が押下されると処理は図4のS409に進む。
修正プルダウンボタン808は、S504において検索された候補文字列の座標情報を含む部分画像が部分画像表示部805に表示されている場合に文字情報表示部806に表示される。入力受付手段357がユーザ入力を受け付け、修正プルダウンボタン808が押下されると、図8(b)に示される修正候補リスト809が表示され、修正候補文字列が表示される。
ここで、表示される修正候補文字列は、S506において選択されなかった文字列である。あるいは、S506において選択されなかった文字列、及びS503の抽出文字列とS504の候補文字列の一部の文字とを組み合わせた文字列を修正候補文字列としてもよい。このとき、修正候補リスト809に表示する順番は、手書き活字OCRエンジンの確信度の高い順番で表示される。
続いて、ユーザが図8(a)に示される画面上で、日付項目の文字列を修正する動作について説明する。図8(a)において、文字情報表示部806に表示されている日付項目に修正を行う必要があるとする。ユーザが修正プルダウンボタン808を押下すると、画面801は図8(b)に示す表示を行い、修正候補リスト809が表示される。
ユーザが修正候補リスト内の所望の項目を指定すると、指定された指定文字列が文字情報表示部806に表示されている日付項目の文字列の文字認識結果として決定される。部分画像表示部805に表示されている日付項目の文字列と文字情報表示部806に表示されている日付項目の文字列が同じである場合は、ユーザは修正候補文字列を選択せずに、次の作業を行う。
上述したように、抽出情報表示アプリケーション350の一連の処理を実行するによって、抽出文字列を修正及び確認することが可能となる。
文字情報表示部806に表示された文字列が入力受付手段357を介して上述した方法によって修正された場合には、情報処理端末130の受付指示送信手段342は、その修正情報を画像処理サーバ120の修正情報受信手段324に送信する。画像処理サーバ120において、修正情報受信手段324は修正指示を受信し、抽出情報の修正行う。
上記の処理手順を実行することで、活字と手書き文字とが混在した混合文字列に対して、画像分離を行わない画像に手書き活字OCR処理を実行した抽出結果を優先させることにより文字認識結果の精度を向上させることが可能となる。
[実施形態2]
実施形態1では、活字OCRエンジン、手書きOCRエンジン、及び手書き活字OCRエンジンの3つのOCRエンジンを用いて文字抽出を行った。実施形態2では、手書き活字OCRエンジンの抽出結果を手書きOCRエンジンの抽出結果として併用可能であることを説明する。ただし、手書き活字OCRエンジンの抽出結果は必ずしも手書きOCRエンジンの抽出結果として併用するのではなく、活字OCRエンジンの抽出結果として併用してもよい。
実施形態1では、活字OCRエンジン、手書きOCRエンジン、及び手書き活字OCRエンジンの3つのOCRエンジンを用いて文字抽出を行った。実施形態2では、手書き活字OCRエンジンの抽出結果を手書きOCRエンジンの抽出結果として併用可能であることを説明する。ただし、手書き活字OCRエンジンの抽出結果は必ずしも手書きOCRエンジンの抽出結果として併用するのではなく、活字OCRエンジンの抽出結果として併用してもよい。
なお、実施形態2の説明に際して、実施形態1と構成及び処理手順が同一である箇所の説明は省略し、実施形態1と差異のある箇所のみを説明する。
図5のフローチャートの処理フローと違いを説明するために、図9に画像処理サーバ120の文字抽出手段330が行う文字抽出処理の詳細を示すフローチャートを示す。
ここで、図9では、第1の文字抽出手段331と第3の文字抽出手段333という表記を用いている。これは、実施形態1と実施形態2との差分を明確に示すためである。第1の文字抽出手段331は活字領域を抽出する活字OCRエンジン、並びに第3の文字抽出手段333は手書き文字領域及び混合文字列を抽出可能な手書き活字OCRエンジンとして機能する。
また、第1の文字抽出手段331の代わりに、第2の文字抽出手段332を用いても構わない。即ち、第2の文字抽出手段332と第3の文字抽出手段333とを組み合わせても実施形態2を実行することは可能である。この場合には、第2の文字抽出手段332は手書き文字領域を抽出する手書きOCRエンジン、並びに第3の文字抽出手段333は活字領域及び混合文字列を抽出可能な手書き活字OCRエンジンとして機能する。
以下、図9に示されるフローチャートの処理フローを説明する。
S901では、画像処理サーバ120の文字抽出手段330は、S403において受信したスキャン画像に対して画像分離を行い、処理はS902に進む。
S902では、文字抽出手段330は、S403において受信したスキャン画像及びS501において分離した活字画像にOCR処理を実行し、処理はS903に進む。
実施形態2では、手書き活字OCRエンジン及び活字OCRエンジンを使用するので、スキャン画像は手書き活字OCRエンジン、活字画像は活字OCRエンジンによるOCR処理を行う。一方で、手書き活字OCRエンジンと手書きOCRエンジンとを組み合わせた場合には、スキャン画像は手書き活字OCRエンジン、手書き文字画像は手書きOCRエンジンによるOCR処理を行う。
S903では、文字抽出手段330は、活字OCRエンジンの文字抽出結果と、手書き活字OCRエンジンの文字抽出結果のうちS501の画像分離において手書き文字領域であると認識される領域の抽出結果とを合成して、抽出文字列を生成する。手書き活字OCRエンジンと手書きOCRエンジンとを組み合わせた場合には、以下に記す処理を行う。手書きOCRエンジンの文字抽出結果と、手書き活字OCRエンジンの文字抽出結果のうちS501の画像分離において活字領域であると認識される領域の抽出結果とを合成して、抽出文字列を生成する。抽出文字列が生成されると、処理はS904に進む。
S904では、優先度判定手段336は、その候補文字列の文字認識結果の精度を、手書き活字OCRエンジンの確信度を用いて算出し、処理はS905に進む。
S905では、手書き活字OCRエンジンは、S904において検索した候補文字列に対して、優先度の判定を行い、処理はS906に進む。
優先度判定では、優先度判定手段336は、S904において算出した文字認識結果の精度が閾値以上であるか否かを判定する。
実施形態2における閾値の決定方法は、実施形態1と異なるので、以下に説明する。
実施形態2において、閾値は、混合文字列を活字領域及び手書き文字領域に分離して、活字領域には活字OCRエンジンを用い、手書き文字領域には手書き活字OCRエンジンを用いた文字認識結果に基づいて決定される。一般に活字OCRエンジンの文字認識精度は高い。しかし、日付を数字と「/」(スラッシュ)を用いて表した場合、活字OCRエンジンは上記日付をすべて数字であると誤認識することがある。すなわち、日付の区切りによく使用される「/」(スラッシュ)を数字の「1」と誤認識することがあり得る。したがって、当該閾値は、手書き活字OCRエンジンのみを用いた文字認識結果より低い値を取ることが想定される。
また、第2の文字抽出手段332と第3の文字抽出手段333を用いる場合には、閾値は活字領域に手書き活字OCRエンジンを用い、手書き文字領域には手書きOCRエンジンを用いた文字認識結果に基づいて決定される。手書きOCRでは、日付の場合に良く使用される数字の「9」をアルファベットの「q」と誤認識する場合があるので、この閾値も手書き活字OCRエンジンのみを用いた文字認識結果より低い値を取ることが想定される。
S906では、文字抽出手段330は、S905において判定した優先度の結果に従って、重複した領域を有するS903において合成した抽出文字列とS904において検索された候補文字列とから出力文字列を判定し、処理はS907に進む。
S907では、文字抽出手段330は、S906の判定結果を受けて、重複した領域を有さない抽出文字列とS906の出力文字列とを1つの抽出結果として統合する。
上記の処理手順を実施することにより、実施形態1と比べて、OCRエンジンが1つ少ない態様で本開示を実施できるので、処理コストが削減されるメリットがある。
(その他の実施形態)
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本開示は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述した実施形態の開示は、以下の構成及び方法を含む。
(構成1)活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、を備える、ことを特徴とする画像処理装置。
(構成2)前記抽出手段は、前記混合文字列は特定項目を表す文字列である、ことを特徴とする構成1に記載の画像処理装置。
(構成3)前記特定項目を表す文字列は、日付、電話番号、又は住所である、ことを特徴とする構成2に記載の画像処理装置。
(構成4)前記抽出手段は、前記各文字認識結果に対して、パターンマッチングを行うことにより前記混合文字列に対応する文字認識結果を抽出する、ことを特徴とする構成1に記載の画像処理装置。
(構成5)文字種、文字群、及び文字数を含む情報が前記パターンマッチングには用いられる、ことを特徴とする構成4に記載の画像処理装置。
(構成6)前記精度は、前記文字認識に使用する文字認識エンジンが出力する結果に対する正確さの度合いである、ことを特徴とする構成1に記載の画像処理装置。
(構成7)前記閾値は前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域及び前記手書き領域に異なった文字認識を行った結果に基づいて決定される値である、ことを特徴とする構成1に記載の画像処理装置。
(構成8)前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする構成7に記載の画像処理装置。
(構成9)前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には前記文字認識手段を用いて文字認識を行う、ことを特徴とする構成7に記載の画像処理装置。
(構成10)前記活字領域には前記文字認識手段を用いて文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする構成7に記載の画像処理装置。
(構成11)前記抽出手段が抽出した前記混合文字列に対応する文字認識結果、及び前記混合文字列に対応する文字認識結果の修正候補の文字列を表示し、ユーザ入力を受け付ける表示制御手段と、をさらに備え、前記表示制御手段に表示された前記混合文字列に対応する文字認識結果及び前記修正候補の文字列の中からユーザ入力により指定された指定文字列を前記混合文字列に対応する前記文字認識結果として選択する、ことを特徴とする構成1乃至構成10のいずれか一項に記載の画像処理装置。
(構成12)前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列である、ことを特徴とする構成11に記載の画像処理装置。
(構成13)前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列、並びに前記統合した文字列に前記混合文字列に対応する文字認識結果の文字列の一部の文字を組み合わせた文字列を含む、ことを特徴とする構成11に記載の画像処理装置。
(構成14)活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得するステップと、前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得するステップと、前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出するステップと、を備える、ことを特徴とする画像処理装置の制御方法。
Claims (15)
- 活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得する取得手段と、
前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得する文字認識手段と、
前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出する抽出手段と、
を備える、
ことを特徴とする画像処理装置。 - 前記抽出手段は、前記混合文字列は特定項目を表す文字列である、ことを特徴とする請求項1に記載の画像処理装置。
- 前記特定項目を表す文字列は、日付、電話番号、又は住所である、ことを特徴とする請求項2に記載の画像処理装置。
- 前記抽出手段は、前記各文字認識結果に対して、パターンマッチングを行うことにより前記混合文字列に対応する文字認識結果を抽出する、ことを特徴とする請求項1に記載の画像処理装置。
- 文字種、文字群、及び文字数を含む情報が前記パターンマッチングには用いられる、ことを特徴とする請求項4に記載の画像処理装置。
- 前記精度は、前記文字認識に使用する文字認識エンジンが出力する結果に対する正確さの度合いである、ことを特徴とする請求項1に記載の画像処理装置。
- 前記閾値は前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域及び前記手書き領域に異なった文字認識を行った結果に基づいて決定される値である、ことを特徴とする請求項1に記載の画像処理装置。
- 前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする請求項7に記載の画像処理装置。
- 前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には前記文字認識手段を用いて文字認識を行う、ことを特徴とする請求項7に記載の画像処理装置。
- 前記活字領域には前記文字認識手段を用いて文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行う、ことを特徴とする請求項7に記載の画像処理装置。
- 前記抽出手段が抽出した前記混合文字列に対応する文字認識結果、及び前記混合文字列に対応する文字認識結果の修正候補の文字列を表示し、ユーザ入力を受け付ける表示制御手段と、をさらに備え、
前記表示制御手段に表示された前記混合文字列に対応する文字認識結果及び前記修正候補の文字列の中からユーザ入力により指定された指定文字列を前記混合文字列に対応する前記文字認識結果として選択する、ことを特徴とする請求項1に記載の画像処理装置。 - 前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列である、ことを特徴とする請求項11に記載の画像処理装置。
- 前記修正候補の文字列は、前記抽出手段が抽出した前記混合文字列に対応する文字認識結果を活字領域及び手書き文字領域に分離し、前記活字領域には活字に対応する文字認識を行い、前記手書き文字領域には手書きに対応する文字認識を行った結果を統合した文字列、並びに前記統合した文字列に前記混合文字列に対応する文字認識結果の文字列の一部の文字を組み合わせた文字列を含む、ことを特徴とする請求項11に記載の画像処理装置。
- 活字と手書き文字とが混在する混合文字列を含む文書をスキャンして得られたスキャン画像を取得するステップと、
前記スキャン画像にブロックセレクションを実行することにより得られる各文字ブロックに対して前記活字及び前記手書き文字の双方に対応可能な文字認識を行い、前記各文字ブロックに対応する各文字認識結果を取得するステップと、
前記各文字認識結果の中から、文字認識結果の精度が閾値以上である前記混合文字列に対応する文字認識結果を抽出するステップと、
を備える、
ことを特徴とする画像処理装置の制御方法。 - コンピュータを、請求項1乃至請求項13のいずれか一項に記載の画像処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022136851A JP2024033328A (ja) | 2022-08-30 | 2022-08-30 | 画像処理装置、画像処理装置の制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022136851A JP2024033328A (ja) | 2022-08-30 | 2022-08-30 | 画像処理装置、画像処理装置の制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024033328A true JP2024033328A (ja) | 2024-03-13 |
Family
ID=90193337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022136851A Pending JP2024033328A (ja) | 2022-08-30 | 2022-08-30 | 画像処理装置、画像処理装置の制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024033328A (ja) |
-
2022
- 2022-08-30 JP JP2022136851A patent/JP2024033328A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8429154B2 (en) | Document search device, imaging forming apparatus, and document search system | |
US8131081B2 (en) | Image processing apparatus, and computer program product | |
CN108132762B (zh) | 图像处理装置以及图像形成装置 | |
JP2010020468A (ja) | 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体 | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP2009193356A (ja) | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 | |
JP6762722B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP4956319B2 (ja) | 画像処理装置、その制御方法、ならびにそのプログラムおよび記憶媒体 | |
JP6066108B2 (ja) | 電子文書生成システムおよびプログラム | |
JP2019159633A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP7467928B2 (ja) | 情報処理装置及びプログラム | |
JP2007233671A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
US11907651B2 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2024033328A (ja) | 画像処理装置、画像処理装置の制御方法、及びプログラム | |
JP2022090947A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2012190357A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP4305385B2 (ja) | 画像処理装置、プログラム、及び、画像データの出力方法 | |
JP7379063B2 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
JP2001028032A (ja) | 画像情報処理装置及びマークシート | |
JP7302175B2 (ja) | 情報処理装置、及び情報処理プログラム | |
US20210289098A1 (en) | Facsimile, control method, and non-transitory recording medium | |
JP2023054708A (ja) | 情報処理装置、文書分割方法、及びプログラム | |
JP2023031908A (ja) | 画像処理装置、プログラム、画像処理方法 | |
JP2023087357A (ja) | 情報処理装置、情報処理方法、およびプログラム |