JP2019086860A

JP2019086860A - 文書処理装置及びプログラム

Info

Publication number: JP2019086860A
Application number: JP2017212349A
Authority: JP
Inventors: 大橋　淳; Atsushi Ohashi; 淳大橋
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2019-06-06
Anticipated expiration: 2037-11-02
Also published as: JP7095259B2

Abstract

【課題】文字認識の処理において、文書中のイメージデータ形式でないページについて何の処理も行わない場合と比べて、イメージデータ形式でないページについてより多くの情報を提供する。【解決手段】処理制御部２２は、文字認識の対象の文書の各ページがイメージデータ形式か否か調べ、イメージデータ形式のページについては文字認識エンジン２４に文字認識を実行させる。その文書にイメージデータ形式でないページ（例えばページ記述言語のページ）が含まれている場合、処理制御部２２は、文字認識ができないページがある旨のメッセージを画面表示する。また、処理制御部２２は、イメージデータ形式でないページに含まれるテキストデータをテキスト抽出部２６により抽出したり、そのページをラスタライザ２８によりイメージデータに変換した後文字認識エンジン２４により文字認識を施したりすることもできる。【選択図】図１

Description

本発明は、文書処理装置及びプログラムに関する。

スキャナで読み込まれた画像データやパーソナルコンピュータ（ＰＣ）上のアプリケーションで作成された文書データを管理する文書管理装置・ソフトウエアが存在している。例えば、出願人が提供するＤｏｃｕＷｏｒｋｓ（商標）や、ＡｄｏｂｅＳｙｓｔｅｍｓ社のＡｄｏｂｅＡｃｒｏｂａｔ（商標）等のドキュメントハンドリングソフトウェアが、その一例である。この種の文書管理装置は、紙文書をスキャンすることで得られたイメージデータのファイル（例えばビットマップ形式、ＴＩＦＦ形式、ＪＰＥＧ形式）や、ワードプロセッサやスプレッドシート等の各種アプリケーションで作成されたアプリケーションファイルを取り込んで、管理することができる。

この種の文書管理装置は、様々なアプリケーションで作成されたデータ形式の異なるファイルを、ページ記述言語等のページの見た目を規定する言語で記述したデータとして取り扱う。また、この種の文書管理装置は、スキャナやデジタルカメラ等が生成したイメージデータ形式のファイルを取り扱うこともできる。

またこの種の文書管理装置の中には、特許文献１に例示されるように、複数の文書ファイルを束ねて１つの文書ファイルを構成したり、１つの文書ファイルをページ単位で複数の文書ファイルに分解（「ばらし」）したりする機能を持つものがある。アプリケーション文書とイメージ文書を１つに束ねた文書ファイルは、ページ記述言語等の言語で記述されたページとイメージデータ形式のページとが混在したファイルとなる。

特許文献２に開示された装置は、文書データの要素をサムネイル化したサムネイル画像を表示する機能を備えた画像処理装置であって、文書データを格納する記憶装置と、この記憶装置に格納された文書データのサムネイル画像を制御するためのサムネイル制御オブジェクトをこの文書データに追加し、追加されたサムネイル制御オブジェクトを記憶装置に保存するサムネイル制御オブジェクト付加操作機能とを備える。

特開平１０−１２４４８９号公報特開２００８−４２３５９号公報

文字認識はイメージデータを対象とする処理であり、イメージデータ形式でないデータについては文字認識は実行できない。イメージデータ形式のページとイメージデータ形式でないページとが混在した文書に対する文字認識の処理において、イメージデータ形式のページに対してのみ文字認識が行われ、イメージデータ形式でないページについては文字認識も他の処理も行われないとすると、ユーザはその文書に文字認識が実行できなかったページが含まれていたことすら分からない。

本発明は、文字認識の処理において、文書中のイメージデータ形式でないページについて何の処理も行わない場合と比べて、イメージデータ形式でないページについてより多くの情報を提供することを目的とする。

請求項１に係る発明は、イメージデータ形式の第１種ページと、イメージデータ形式でない第２種ページと、の混在が可能なデータ形式の文書に対して文字認識の実行が指示された場合に、前記文書に含まれる前記第１種ページについては前記文字認識を実行し、前記文書に含まれる前記第２種ページについては前記文字認識とは異なる処理である第２種ページ処理を実行する、文書処理装置である。

請求項２に係る発明は、前記第２種ページ処理は、前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理である、請求項１に記載の文書処理装置である。

請求項３に係る発明は、前記通知処理では、更に、前記第２種ページから文字情報を取得するか否かの問合せを前記ユーザに対して行い、前記文書処理装置は、前記問合せに対するユーザの回答に応じて、前記第２種ページから文字情報を取得する処理を実行するか否かを制御する、請求項２に記載の文書処理装置である。

請求項４に係る発明は、前記第２種ページ処理は、前記第２種ページから文字情報を取得する処理である、請求項１に記載の文書処理装置である。

請求項５に係る発明は、前記第２種ページ処理は、前記第２種ページに含まれるテキストデータを抽出する処理である、請求項４に記載の文書処理装置である。

請求項６に係る発明は、前記第２種ページ処理は、前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理である、請求項４に記載の文書処理装置である。

請求項７に係る発明は、前記文書処理装置は、前記第２種ページに含まれるテキストデータを抽出する処理、及び、前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理、のうちユーザから選択された処理を、前記第２種ページ処理として実行する、請求項４に記載の文書処理装置である。

請求項８に係る発明は、前記第２種ページ処理は、前記第２種ページから抽出したテキストデータと、前記第２種ページを変換したイメージデータに対する前記文字認識の結果と、に基づいて、前記第２種ページについての処理結果となる文字情報を求める処理である、請求項４に記載の文書処理装置である。

請求項９に係る発明は、前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中のその場所に対応する第１の文字と、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する第２の文字との両方が存在する場合に、前記第１の文字をその場所についての文字情報として採用する、請求項８に記載の文書処理装置である。

請求項１０に係る発明は、前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中にはその場所に対応する文字がなく、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する文字がある場合に、前記文字認識の結果中の前記文字をその場所についての文字情報として採用する、請求項８又は９に記載の文書処理装置である。

請求項１１に係る発明は、前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中にはその場所に対応する文字があり、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する文字がない場合に、前記テキストデータ中の前記文字をその場所についての文字情報として採用するか否かを、ユーザの指示に従って制御する、請求項８〜１０のいずれか１項に記載の文書処理装置である。

請求項１２に係る発明は、前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理と、前記第２種ページから文字情報を取得する処理と、のうちのいずれを前記第２種ページ処理として実行するかの設定をユーザから受け付ける設定画面を提示する手段、を有する請求項１に記載の文書処理装置である。

請求項１３に係る発明は、前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理と、前記第２種ページに含まれるテキストデータを抽出する処理と、前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理と、のうちの２以上を前記第２種処理の選択肢としてユーザに選択させるための設定画面、を提示する手段、を有する請求項１に記載の文書処理装置である。

請求項１４に係る発明は、イメージデータ形式の第１種ページと、イメージデータ形式でない第２種ページと、の混在が可能なデータ形式の文書に対して文字認識の実行が指示された場合に、前記文書に含まれる前記第１種ページについては前記文字認識を実行し、前記文書に含まれる前記第２種ページについては前記文字認識とは異なる処理である第２種ページ処理を実行する手段、としてコンピュータを機能させるためのプログラムである。

請求項１５に係る発明は、イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記イメージデータ形式でないページをイメージデータ形式に変換し、前記束ね処理の結果の文書が前記イメージデータ形式でないページを含まないようにする束ね手段、を有する、文書処理装置である。

請求項１６に係る発明は、イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記束ね処理の結果の文書に前記イメージデータ形式でないページを残す第２束ね手段と、前記束ね処理が指示された場合に、前記束ね手段と前記第２束ね手段のいずれをもちいるかの指定をユーザから受け付ける手段と、を更に有する請求項１５に記載の文書処理装置である。

請求項１７に係る発明は、イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記イメージデータ形式でないページをイメージデータ形式に変換し、前記束ね処理の結果の文書が前記イメージデータ形式でないページを含まないようにする束ね手段、としてコンピュータを機能させるためのプログラムである。

請求項１又は１４に係る発明によれば、文書中のイメージデータ形式でない第２種ページに対して単に文字認識を実行しないだけでとどめる場合と比べて、第２種ページ処理により得られる情報をユーザに提供することができる。

請求項２に係る発明によれば、ユーザは文字認識の対象とした文書に文字認識が適用できないページが含まれていることを知ることができる。

請求項３に係る発明によれば、ユーザは文字認識が適用できないページから別の方法で文字情報を取得することを指示することができる。

請求項４に係る発明によれば、第２種ページから文字認識とは別の方法で取得した文字情報をユーザに提供することができる。

請求項５に係る発明によれば、第２種ページが含むテキストデータという、文字認識により得られる文字情報よりも正確さが高い文字情報を、第２種ページの文字情報としてユーザに提供することができる。

請求項６に係る発明によれば、第２種ページを表示した際に人の目で文字に見える画像が、第２種ページのデータ内でテキストデータ形式以外の形式で表現されている場合でも、その文字の情報を得ることができる。

請求項７に係る発明によれば、第２種ページからテキストデータを抽出するか、第２種ページをイメージデータに変換して文字認識を行うか、ユーザの希望する方式を用いることができる。

請求項８に係る発明によれば、第２種ページから抽出したテキストデータ、又は、第２種ページを変換したイメージデータに対する文字認識の結果、のうちの一方を採用する場合よりも、より正確な情報を提供することができる。

請求項９に係る発明によれば、第２種ページ内の同じ場所についてのテキストデータと文字認識結果とが異なっている場合に、正確なテキストデータの文字情報を採用することができる。

請求項１０に係る発明によれば、第２種ページ内のテキストデータの文字はないが文字認識により文字が認識される場所について、文字情報を得ることができる。

請求項１１に係る発明によれば、第２種ページ内のテキストデータの文字はあるが文字認識により文字が認識されない場所について、テキストデータの文字情報を採用するかどうかの決定にユーザの意向を反映することができる。

請求項１２又は１３に係る発明によれば、第２種ページ処理としてどの処理を行うか、ユーザが指定することができる。

請求項１５又は１７に係る発明によれば、束ね処理の結果の文書として全ページに文字認識が適用可能な文書を得ることができる。

請求項１６に係る発明によれば、束ね処理の結果の文書として、全ページに文字認識が適用可能な文書を得るか、束ねる前の文書に含まれていたイメージデータ形式でないページを残した文書を得るかを、ユーザの希望に応じて決定することができる。

実施形態の文字認識処理制御が適用される文書ハンドリングシステムの概略構成を例示する図である。文書ハンドリングシステムが提供する文書一覧画面の例を示す図である。文書ハンドリングシステムのある設定項目についての設定画面の例を示す図である。ユーザから文字認識（ＯＣＲ）の実行を指示された際に処理制御部が実行する制御手順の例を示す図である。アプリページが含まれる文書に文字認識を実行した後に処理制御部が表示する画面の例を示す図である。ユーザから文字認識（ＯＣＲ）の実行を指示された際に処理制御部が実行する制御手順の別の例を示す図である。アプリページが含まれる文書に文字認識を実行する際に処理制御部が表示する確認画面の例を示す図である。アプリページが含まれる文書に文字認識を実行する際に処理制御部が表示する確認画面の別の例を示す図である。処理制御部によるアプリページからのテキスト取得方法の自動選択処理の一例を示す図である。処理制御部によるアプリページからのテキスト取得方法の自動選択処理の別の例を示す図である。処理制御部によるアプリページからのテキスト取得方法の自動選択処理の更に別の例を示す図である。処理制御部によるアプリページからのテキスト取得方法の自動選択処理の更に別の例を示す図である。文書ハンドリングシステムのある設定項目についての設定画面の別の例を示す図である。

図１に、本発明に係る文字認識処理制御が適用される文書ハンドリングシステム１０の概略構成を例示する。文書ハンドリングシステム１０は、例えば出願人の提供するＤｏｃｕＷｏｒｋｓ（商標）や、ＡｄｏｂｅＳｙｓｔｅｍｓ社のＡｄｏｂｅＡｃｒｏｂａｔ（商標）のように、登録された文書ファイルに対する閲覧、編集、注釈付け（色付きマーカー、付箋、スタンプ等の付加）等の処理機能を提供するソフトウエアである。このソフトウエアは、ＰＣ（パーソナルコンピュータ）又はサーバ等のコンピュータで実行されることにより、文書ハンドリングシステム１０の機能を実現する。文書ハンドリングシステム１０は、ＰＣにインストールされた個人用のシステムであってもよいし、リモートのユーザに対して文書ハンドリングサービスを提供するサーバとして構築されていてもよい。

文書ハンドリングシステム１０は、機能モジュールとして、ファイル取り込み部１２、文書処理部１４、ＵＩ処理部１６、設定管理部１８、及び文字認識処理部２０を含んでいる。

ファイル取り込み部１２は、文書ハンドリングシステム１０の外部で生成されたファイルを文書ハンドリングシステム１０内に取り込む（すなわち登録する）ための処理を担う。取り込まれるファイルには、ワードプロセッサや表計算等のアプリケーションソフトウエアで生成された当該アプリケーション固有のデータ形式のファイル（アプリケーションファイルと呼ぶ）、スキャナやデジタルカメラ等により生成されたビットマップ、ＴＩＦＦ、ＪＰＥＧ等のイメージデータ形式のイメージファイル等がある。

ファイル取り込み部１２は、取り込み対象としてアプリケーションファイルが入力された場合、これを文書ハンドリングシステム１０が用いる特定のデータ記述言語で記述された文書ファイルへと変換する。用いられるデータ記述言語は、ＰＤＬ（ページ記述言語）、又は、ページ記述言語のように文書（画像）の見た目を記述可能な他の種類の言語（ＰＤＦのデータ形式もその一例）である。このデータ記述言語で記述される文書ファイルには、テキスト、ベクターグラフィックス（ベクター表現で記述された図形）、連続階調イメージ（ビットマップ、ＴＩＦＦ、ＪＰＥＧ等のデータ形式のも）等の複数種類のオブジェクトが含まれ得る。このデータ記述言語で記述された文書ファイルを、以下では「アプリ文書」と呼ぶ。またアプリ文書を構成する個々のページのことを「アプリページ」と呼ぶ。アプリページには、テキスト、ベクターグラフィックス、連続階調イメージ等のいくつかのオブジェクトが含まれ得る。アプリページは、イメージデータ形式のオブジェクトを含み得るが、アプリページ自体のデータ形式は、そのデータ記述言語により規定されるものであり、イメージデータ形式ではない。

またファイル取り込み部１２は、取り込み対象としてイメージファイルが入力された場合、そのファイルを「イメージ文書」として取り込む。イメージ文書は、その文書が含む個々のページがビットマップ、ＴＩＦＦ、ＪＰＥＧ等のイメージデータ形式のデータである文書ファイルである。イメージ文書を構成する各ページのことを「イメージページ」と呼ぶ。

このように、ファイル取り込み部１２は、プリンタドライバや仮想プリンタに類似した役割を果たす。

ファイル取り込み部１２により取り込まれた文書ファイルは、文書ハンドリングシステム１０の管理下にあるフォルダのうちのいずれか（例えばユーザが指定又は事前設定したもの）に格納される。

文書処理部１４は、文書ハンドリングシステム１０の管理下にあるフォルダに格納された文書ファイルに対して、ユーザの指示する処理を実行する。例えば、ユーザから文書ファイルの閲覧が指示された場合には、文書処理部１４はその文書ファイルを開き、文書ファイルのページの画像を画面表示する。また、文書処理部１４は、ユーザからの指示に応じて、開いた文書ファイルに対する注釈の追加や削除等を行う。また、文書処理部１４は、文書の「ばらし」及び「束ね」の機能を有する。ばらし処理とは、１つの文書ファイルを、指定されたページ以前のページからなる第１の文書ファイルと、その指定ページの次のページ以降のページからなる第２の文書ファイルとに分割する処理である。また、束ね処理とは、ユーザが指定した複数の文書ファイルを束ねて１つの文書ファイルにする処理である。束ね後の文書ファイルは、束ねる前の第１の文書ファイルのページ群と第２の文書ファイルのページ群とを併せ持ったファイルとなる。アプリ文書とイメージ文書とを束ねた場合、一つの例では、アプリページとイメージページとが混在した文書ファイルが生成される。文書ファイルは、内包するページごとに、そのページの属性情報の１つとして、そのページがアプリページ又はイメージページのいずれであるかを示す種類情報を有する。

ＵＩ処理部１６は、文書ファイルの操作のためのＵＩ（ユーザインタフェース）画面を提供し、その画面に対するユーザの操作を受け付ける。ＵＩ処理部１６は、例えば、図２に例示する文書管理画面１００を生成し、文書ハンドリングシステム１０がインストールされたコンピュータの表示装置に表示する。例示した文書管理画面１００には、開いているフォルダ内にある各文書ファイルのアイコン１０２、１０４、１０６が列挙表示されている。この例では、各文書ファイルのアイコン１０２、１０４、１０６は、それぞれ当該文書ファイルの最初のページのサムネイル画像である。例えば、ユーザは、ある文書ファイルのアイコンをドラッグ＆ドロップ操作により別の文書ファイルのアイコンに重ねることで、それら２つの文書ファイルの束ね処理を指示することができる。また、図示省略した文書管理画面１００上のメニューや、アイコンに対するマウスの右クリック等の操作で呼び出されるコンテキストメニューから、文書ファイルに行う処理を選択することもできる。

設定管理部１８は、文書ハンドリングシステム１０の各種設定項目の入力を受け付け、入力された設定項目の値を保持する。設定管理部１８が管理する設定項目の例として、文書を束ねる際のアプリページの処理、ＯＣＲ（光学文字認識、以下単に文字認識とも呼ぶ）処理時のアプリページに対する処理、等がある。

図３に、これらの項目の設定を受け付けるためにＵＩ処理部１６が表示する設定画面２００を例示する。この設定画面２００には、文書を束ねる際のアプリページの処理についての選択肢欄２０２に、第１選択肢「そのまま束ねる」と、第２選択肢「アプリページをイメージページに変換して束ねる」の２つを示している。第１選択肢は、束ね対象の文書ファイルに含まれるアプリページをアプリページのままで束ねる処理である。この処理の結果得られる束ね後の文書ファイルには、アプリページが残る。一方、第２選択肢は、束ね対象の文書ファイルに含まれるアプリページをイメージページに変換してから束ねる処理である。この処理の結果得られる束ね後の文書ファイルは、イメージページからなり、アプリページは含まない。

選択肢欄２０２の第２選択肢が選択されている場合、ユーザが文書ファイル同士を束ねる操作を行った場合、文書処理部１４は、それら文書ファイルに含まれるすべてのアプリページをラスタライザ２８等によりイメージページに変換する。この場合に得られる束ね結果の文書ファイルは、イメージページからなり、アプリページを含まないので、すべてのページに対して文字認識処理を適用できる。

なお、選択肢欄２０２の各選択肢の先頭（左端）にある円形の図形は、ラジオボタンである。ユーザは、希望する選択肢のラジオボタンをマウスのクリックやタッチ操作で選択する。

また、設定画面２００には、ＯＣＲ時のアプリページに対する処理の選択肢欄２０４に、第１選択肢「ＯＣＲができなかった旨のメッセージを表示する」、第２選択肢「イメージページに変換してＯＣＲを実行する」、第３選択肢「アプリページ内のテキストを抽出してＯＣＲ結果とする」の３つを示している。ここで、ＯＣＲ（文字認識）は、画像（イメージデータ）に含まれる文字をパターンマッチング等により認識する処理であり、イメージデータ以外のデータには直接適用できない。したがって、文書ファイル中のイメージページにはＯＣＲは実行可能であるが、アプリページにはＯＣＲを実行できない。選択肢欄２０４中の第１選択肢は、ＯＣＲ対象の文書ファイル中のイメージページのみにＯＣＲ処理を実行し、ＯＣＲ終了後に、ＯＣＲが適用できないページが含まれていたことを示すメッセージを画面表示する処理である。第２選択肢は、その文書ファイル中のアプリページをイメージページに変換した上で、全ページに対してＯＣＲを実行する処理である。第３選択肢は、アプリページ内のテキストオブジェクトに含まれるテキストデータを抽出し、抽出したテキストデータを文字認識結果として出力する処理である。

図示の例では、選択肢欄２０４に３つの選択肢が含まれていたが、選択肢欄２０４にはそれら３つの選択肢のすべてが含まれている必要はなく、またそれら３つ以外の選択肢が含まれていてもよい。

図１の説明に戻ると、文字認識処理部２０は、ＯＣＲ（文字認識）処理を担う機能モジュールである。文字認識処理部２０は、処理制御部２２、文字認識エンジン２４、テキスト抽出部２６、及びラスタライザ２８を含む。処理制御部２２は、文字認識エンジン２４、テキスト抽出部２６、及びラスタライザ２８を制御して、文字認識処理部２０の機能を実現するための制御を行う。文字認識エンジン２４は、イメージデータに対して公知のＯＣＲアルゴリズムによる文字認識処理を実行する。テキスト抽出部２６は、アプリページからテキストデータを抽出する。ラスタライザ２８は、データ記述言語で記述されたアプリページをラスターデータ（ビットマップイメージ）に変換する。

図４に、ユーザから文字認識（ＯＣＲ）の実行を指示された際に処理制御部２２が実行する制御手順の例を示す。この手順では、まず処理制御部２２は、文字認識の対象に指定された文書ファイル内の各ページの属性を調べ、それら各ページの種類情報を取得する（Ｓ１０）。これにより、その文書ファイル内の各ページがアプリページ及びイメージページのいずれであるかが分かる。処理制御部２２は、Ｓ１０で取得した情報に基づき、その文書ファイルが１以上のアプリページを含むか否かを判定する（Ｓ１２）。この判定の結果がＮｏ、すなわちその文書ファイル内のページがすべてイメージページである場合、それらすべてのページに対して公知の文字認識処理を実行する（Ｓ２２）。各ページの文字認識結果のデータは、それぞれ対応するページに対応付けて保存される。

Ｓ１２でその文書ファイルがアプリページを１以上含むと判定した場合、処理制御部２２は、文字認識（ＯＣＲ）処理時のアプリページに対する処理の設定項目（図３の符号２０４参照）を設定管理部１８から取得する。そして、その設定項目が上述の第１選択肢（メッセージ表示）、第２選択肢（イメージ変換後にＯＣＲ）、第３選択肢（テキスト抽出）のいずれであるかを判定する（Ｓ１４）。

その設定項目の値が第１選択肢（メニュー表示）を示すものである場合、処理制御部２２は、その文書ファイル中の各イメージページを文字認識エンジン２４に処理させ、これにより得られたそれら各ページの文字認識結果のデータを保存する（Ｓ１６）。なお、文書ファイルがアプリページのみで構成されている場合は、Ｓ１６では１ページも文字認識されない。Ｓ１６の文字認識処理が完了すると、処理制御部２２は、今回対象として指定された文書ファイルに文字認識が適用できないページが含まれていた旨を示す表示を行う（Ｓ１８）。

図５にこのとき表示される画面３００の例を示す。文字認識を指示したユーザは、この画面により、今回指示した文書ファイルの中に文字認識結果がないページがあることを理解する。また、この画面３００に、文字認識が適用できなかったページ群についての更なる情報を表示してもよい。このような更なる情報には、例えば、文字認識が適用できなかったページの番号のリスト、文書の全ページ数に占める文字認識できなかったページの割合等が含まれる。また、文書ファイルがアプリページのみを含み、イメージページを含まない場合は、図５に例示した画面に代えて、ＯＣＲが可能なページが含まれていなかった旨を示す画面を表示してもよい。

また、この画面３００上で、文字認識が適用できなかったページ（アプリページ）からテキスト情報の取得を試みるか否かをユーザに問い合わせてもよい。アプリページからのテキストの取得方法には、イメージに変換して文字認識する方法、アプリページ内のテキストオブジェクトが持つテキストデータを取得する方法等がある（詳細は後述の別の例を参照）。画面３００上で、文字認識が適用できなかったページについての処置として、なにもしない、イメージに変換して文字認識する、アプリページ内のテキストオブジェクトが持つテキストデータを取得する、という選択肢の中からユーザに処理を選択させてもよい。そして、ユーザがテキスト取得の方法のいずれかを選択した場合、処理制御部２２は、その方法で各アプリページからテキスト情報を取得する。

Ｓ１４で設定項目の値が第２選択肢（イメージ変換後にＯＣＲ）であることが分かると、処理制御部２２は、その文書ファイル中の各アプリページをラスタライザ２８に処理させることで、それら各アプリページをイメージページに変換する（Ｓ２０）。これにより、対象の文書ファイルはすべてイメージページとなる。処理制御部２２は、それらすべてのイメージページに対して、文字認識エンジン２４に文字認識処理を行わせる（Ｓ２２）。

文書ファイル内のすべてのアプリページをイメージページに変換してからその文書ファイル内の全ページを文字認識するという流れは一例に過ぎない。この代わりに、文書ファイルをページ順に１ページずつ処理する中で、アプリページであればイメージページに変換してから文字認識を実行し、イメージページであれば単に文字認識を行うという処理でもよい。

なお、文書ファイル内の各アプリページを、Ｓ２０で得られたイメージページに置き換えてもよい。この場合、文字認識処理の後に文書ハンドリングシステム１０に保存されるその文書ファイルは、全ページがイメージページである。なお、文字認識処理時このような置換えを行うか否かを、Ｓ１２でアプリページを含むと判定した時点でユーザに問い合わせてもよいし、設定管理部１８の設定項目の一つとして事前に設定できるようにしてもよい。

Ｓ１４で設定項目の値が第３選択肢（テキスト抽出）であることが分かると、処理制御部２２は、その文書ファイル中の各アプリページ内のテキストデータをテキスト抽出部２６に抽出させる（Ｓ２４）。そして、アプリページから抽出されたテキストデータをそのアプリページに対応する文字認識結果として保存する。

以上の説明では、ある文書ファイルが文字認識の対象として選択された場合を例にとったが、これは一例に過ぎない。この代わりに、文書ファイル中の一部のページ群が文字認識の対象として選択された場合や、文書ファイルの全ページ又は選択された一部分のページ群のうちのページ内の特定の領域（例えば当該領域の外周の矩形の四隅の位置をユーザが指定）のみが文字認識の対象として選択された場合にも、同様の処理を行えばよい。このように、文字認識の対象が文書ファイル全体であってもその一部（すなわち一部のページ群、あるいはページ内の一部の領域）であってもよい点は、この後に説明する他のバリエーションにおいても同様である。

以上の例は、事前の設定に応じてアプリページの取扱を決定するものであった。別の例として、文字認識処理を開始した後、対象の文書ファイルにアプリページがあることが分かった際に、ユーザにアプリページの取扱を問い合わせてもよい。この例に沿った手順を、図６に示す。図６の手順では、文字認識におけるアプリページの処理についての設定を事前に設定管理部１８に登録しておく必要はない。

図６の手順では、まず処理制御部２２は、文字認識の対象に指定された文書ファイル内の各ページの属性を調べ、それら各ページの種類情報を取得する（Ｓ３０）。処理制御部２２は、Ｓ１０で取得した情報に基づき、その文書ファイル内のページがすべてアプリページであるか否かを判定する（Ｓ３２）。Ｓ３２の判定結果がＹｅｓの場合、文書ファイル内には文字認識が可能なイメージページが１ページもないので、処理制御部２２は、ユーザの指定した文書ファイルには文字認識可能なページが含まれない旨を示す画面をＵＩ処理部１６を介して表示する（Ｓ３４）。

Ｓ３２の判定結果がＮｏの場合、処理制御部２２は、その文書ファイル内にアプリページが含まれるか否かを判定する（Ｓ３６）。この判定の結果がＮｏの場合、その文書ファイル内のページはすべてイメージページである。この場合、処理制御部２２は、その文書ファイルの全ページに対して、文字認識エンジン２４による文字認識処理を施す（Ｓ３８）。

Ｓ３６の判定の結果がＹｅｓの場合、処理制御部２２は、ＵＩ処理部１６を介して、図７に例示する確認画面３２０を表示する（Ｓ４０）。この確認画面３２０には、ユーザの指定した文字認識の対象には文字認識不可のページが含まれる旨のメッセージ、文字認識可能なページのみに文字認識する処理を実行してよいかを示す問合せ、及びその問合せに対する是非を入力するための２つのボタン（「ＯＫ」又は「取り消し」）が表示される。ユーザは、文字認識可能なページのみ文字認識するという処理でよい場合「ＯＫ」ボタンを選択し、そうでなければ「取り消し」ボタンを選択する。処理制御部２２は、ユーザがどちらを選択したかを判定し（Ｓ４２）、「ＯＫ」が選択された場合は、その文書ファイル内のイメージページのみを文字認識エンジン２４に処理させる（Ｓ４４）。「取り消し」が選択された場合は、Ｓ４４をスキップして処理を終了する。この場合、その文書ファイルに対して文字認識処理は一切行われない。

以上に説明した図６の手順では、アプリページを含む文書ファイルについては、文字認識を一切行わないか、又はその中のイメージページのみについて文字認識を行うかのいずれかであった。このような手順はあくまで一例に過ぎない。この代わりに、図４の手順と同様、アプリページに対しても文字認識又はそれと同等の結果が得られる処理を行うようにしてもよい。

例えば、Ｓ３０で取得した情報から文字認識処理の対象のアプリページが含まれると判定した場合、処理制御部２２は、図８に例示する確認画面３４０を表示してもよい。この確認画面３４０には、ユーザの指定した文字認識の対象には文字認識不可のページが含まれる旨のメッセージ、文字認識不可のページに対する処理を選択するよう要請するメッセージ、その処理の選択肢を示す選択肢欄３４２、「ＯＫ」ボタン及び「取り消し」ボタンが表示される。選択肢欄３４２に示される選択肢は、図３に例示した設定画面２００の選択肢欄２０４に示された３つの選択肢と似ている。すなわち、第１の選択肢は、文字認識（ＯＣＲ）不可のページ（アプリページ）には文字認識を行わず、イメージページのみに文字認識を行う処理である。第２の選択肢は、文字認識不可のページをイメージページに変換して文字認識を行うという処理であり、第３の選択肢は、文字認識不可のページに含まれるテキストデータを抽出し、抽出したテキストデータを文字認識結果とする処理である。ユーザは、確認画面３４０の選択肢欄３４２から自分の希望する処理を１つ選択し、「ＯＫ」ボタンを押下することで、その処理の実行を処理制御部２２に指示する。例えば第１の選択肢が選択された場合、処理制御部２２は、文書ファイル中のイメージページのみを文字認識エンジン２４に処理させる。第２の選択肢が選択された場合には、処理制御部２２は、文書ファイル内のアプリページについては、まずラスタライザ２８に処理させ、その結果得られたイメージデータを文字認識エンジン２４に処理させる。第３の選択肢が選択された場合には、処理制御部２２は、テキスト抽出部２６に各アプリページからテキストデータを抽出させ、抽出されたテキストデータを当該ページの文字認識結果とする。

次に、更なるバリエーションについて説明する。以上に説明した例では、アプリページからテキスト情報を取得する方法として、イメージ化して文字認識する方法と、アプリページ内のテキストオブジェクトからテキストを抽出する方法のどちらを採用するか、ユーザが選択した。これに対して、以下に説明する例では、この選択を処理制御部２２が自動で行う。

図９に、処理制御部２２によるテキスト取得方法の選択処理の一例を示す。処理制御部２２は、指定された文字認識の対象内のアプリページ毎に図９の処理を行う。すなわち、処理制御部２２は、テキスト抽出部２６を用いてアプリページ内のテキストオブジェクトからテキストデータを抽出し（Ｓ５０）、これにより抽出されたテキストデータが含む文字数が、予め設定された閾値以上であるか否かを判定する（Ｓ５２）。抽出されたテキストの文字数が閾値以上の場合は、処理制御部２２は、その抽出されたテキストをそのアプリページに対応する文字認識結果として保存する（Ｓ５４）。一方、抽出されたテキストの文字数がその閾値未満である場合には、処理制御部２２は、ラスタライザ２８を用いてそのアプリページをイメージデータに変換し、文字認識エンジン２４によりそのイメージデータに対して文字認識を行う（Ｓ５６）。

図９の処理は、アプリページを表示（描画）したときに文字に見える部分が、アプリページのデータ内でテキストとして表現されているとは限らない、という事実に対処するものである。すなわち、アプリケーションは、自分が作成したアプリケーションファイルを文書ハンドリングシステム１０のファイル取り込み部１２（あるいはこれと同等の機能を持つ仮想プリンタ）に対して、そのファイル内のテキスト中の文字を複数のベクターグラフィックスに分解して入力することがある。これは、例えば、その文字の見た目の再現性を確保する等の理由による。このように文字がベクターグラフィックスに分解されてファイル取り込み部１２に入力された場合、そのファイル取り込み部１２が生成するアプリ文書のアプリページ内でも、その文字はベクターグラフィックスとして表現されることになる。したがって、そのアプリページにはその文字はテキストデータとしては存在しないが、そのアプリページを表示（描画）すれば、その文字に見える画像が現れることになる。アプリページ内の「文字」（目で見ると文字に見える画像オブジェクト）の多くがベクターグラフィックスで表現されている場合、そのアプリページからテキストを抽出しても、非常に少ない文字数のテキストしか得られない。

そこで、図９の手順では、アプリページから抽出した文字数が余りに少ない（すなわち閾値未満）場合には、そのアプリページをイメージに変換してから文字認識処理を行うのである。そのアプリページ中に、テキストとして抽出可能な文字数よりも多くの「文字」が含まれている（その多くがベクターグラフィックスで表現されている）場合には、イメージ化して文字認識することで、それら「文字」の多くを検出することが可能になる。

なお、Ｓ５６の後、文字認識処理で認識した文字数ｍとＳ５０で抽出した文字数ｎとを比較し、抽出したテキストの文字数よりも十分に多い文字数が文字認識により得られたことを確認してもよい。すなわち、この例では、文字数ｍが文字数ｎに十分に多い（すなわちその差がある閾値以上）場合には、文字認識の結果を最終的な文字認識結果として採用し、そうでなければ、抽出したテキストを最終的な文字認識結果として採用する。

図１０に、アプリページからのテキスト取得方法の自動選択の別の例の処理手順を示す。

図１０の手順では、処理制御部２２は、テキスト抽出部２６を用いてアプリページ内のテキストオブジェクトからテキストデータを抽出する（Ｓ６０）。また処理制御部２２は、ラスタライザ２８を用いてそのアプリページをイメージデータに変換し、文字認識エンジン２４によりそのイメージデータに対して文字認識を行う（Ｓ６２）（Ｓ６０とＳ６２の処理順序は図示の順に限らない）。そして、処理制御部２２は、Ｓ６０で抽出したテキストとＳ６２の文字認識により得られたテキストとの間で文字数を比較し、それら両者のうち文字数が多い方を最終的な文字認識結果として採用する（Ｓ６４）。なお、文字認識の誤りの可能性を考慮して、Ｓ６４では、Ｓ６２の文字認識で得た文字の数が、Ｓ６０で抽出したテキストの文字数よりも十分に大きい（すなわち両者の差がある閾値以上）場合にのみＳ６２の文字認識結果を採用し、そうでなければＳ６０のテキスト抽出結果を採用するようにしてもよい。

図１１に、アプリページからのテキスト取得方法の自動選択の更に別の例の処理手順を示す。

図１１の手順では、処理制御部２２は、テキスト抽出部２６を用いてアプリページ内のテキストオブジェクトからテキストデータを抽出すると共に、アプリページの全領域の中でそのテキストオブジェクトが存在するテキスト領域の位置や寸法を特定する（Ｓ７０）。テキスト領域の位置や寸法は、そのテキストオブジェクトに含まれるパラメータ（例えばテキストの流し込み範囲を規定するもの）から求めることができる。また処理制御部２２は、ラスタライザ２８を用いてそのアプリページをイメージデータに変換し、そのイメージデータのうち上述のテキスト領域以外の範囲のイメージに対して文字認識を行う（Ｓ７２）。そして、処理制御部２２は、Ｓ７０で抽出したテキストと、Ｓ７２の文字認識により得られたテキストと、そのアプリページに対する最終的な文字認識結果として採用する（Ｓ７４）。

図１２に、アプリページからのテキスト取得方法の自動選択の更に別の例の処理手順を示す。

この例は、アプリページに含まれるテキストが必ずしもそのアプリページを表示（描画）した際に、人の目に見えるとは限らないことを考慮に入れた処理の例である。

例えば、アプリケーションが、作成した文書中のテキストを完全な透明に設定したり、そのテキストの文字色を背景色と同じ色に設定したりした場合、そのテキストは人の目には見えなくなる。また、テキストオブジェクトを、不透明な他のオブジェクトで覆い隠してしまうと、そのテキストオブジェクトは見えなくなる（表示時に見えるのは「他のオブジェクト」の方）。アプリケーションファイルを作成した作成者が、第三者に見えない形でそのファイル内にテキスト情報を残しておこうとする場合に、それらの方法を採る場合がある。また、アプリケーションの中には、ユーザの編集操作の結果削除された文字列を透明な文字で、一種の履歴としてページ中に残すものもある。

この種の「目に見えないテキスト」は、そのアプリページをイメージに変換（すなわち描画）して文字認識を行っても認識することはできないが、テキスト抽出部２６によりアプリページ中から抽出することはできる。したがって、「目に見えないテキスト」を含んだアプリページが文字認識処理の対象に含まれる場合、その処理の結果として見た目（表示される文字はない）と内容（テキストデータは存在する）のどちらを優先するのかが問題になる。見た目を優先する場合、アプリページから抽出されたテキストは破棄し、内容を優先する場合には、抽出されたテキストを文字認識結果として採用する。

図１２の例では、それら両者のどちらを優先するのかを、文字認識処理を指示するユーザの判断に委ねる。すなわち、そのユーザは、それら両者のどちらを優先するのかを示す設定項目の値を設定管理部１８に登録する。あるいはユーザは、「目に見えないテキスト」がアプリページから検知された場合にＵＩ処理部１６が表示する確認画面上で、見た目と内容のどちらを優先するかを選択する。

図１２の手順では、処理制御部２２は、テキスト抽出部２６を用いてアプリページ内のテキストオブジェクトからテキストデータを抽出する（Ｓ８０）。また処理制御部２２は、ラスタライザ２８を用いてそのアプリページをイメージデータに変換し、文字認識エンジン２４によりそのイメージデータに対して文字認識を行う（Ｓ８２）。そして、そのアプリページの全領域の中で、Ｓ８０で抽出されたテキスト中の文字、又はＳ８２で認識された文字の少なくとも一方が存在する領域毎に、Ｓ８４〜Ｓ９２の処理を行う。

なお、ＯＣＲアルゴリズムは、認識した文字のページ内での位置を検出するので、文字認識結果の各文字のある領域はその文字の位置の情報から特定可能である。また、アプリページは、当該ページ内でのテキストオブジェクトの領域を示す情報（例えば矩形の領域として規定される）と、そのテキストオブジェクト内の各文字のフォントサイズや字送り、行間隔等の情報とを有している。テキストオブジェクト内の各文字の位置はそれらの情報から計算可能である。これらの情報から、テキストオブジェクトから抽出された文字又は文字認識された文字の少なくとも一方が存在する領域を特定すればよい。テキストオブジェクトから抽出された文字及び文字認識された文字のどちらも存在しない領域は、文字が全くない領域であり、図１２の処理の対象外である。

Ｓ８４では、処理制御部２２は、現在注目している領域に、テキスト抽出部２６が抽出した文字が存在するかどうかを判定する。この判定の結果がＮｏの場合、その領域には文字認識処理により認識された文字が存在する。この場合、処理制御部２２は、その認識された文字を、その領域についての文字認識結果として採用する（Ｓ８６）。

Ｓ８４で現在注目している領域に、テキスト抽出部２６が抽出した文字が存在すると判定した場合、処理制御部２２は、その領域に文字認識された文字が存在するかどうかを判定する（Ｓ８８）。Ｓ８８の判定結果がＹｅｓの場合、その領域には、テキスト抽出部２６が抽出した文字と、文字認識エンジン２４が認識した文字の両方が存在する。文字認識の結果は誤りである可能性があるので、この場合は、テキスト抽出部２６が抽出した文字の方をその領域についての文字認識結果として採用する（Ｓ９０）。

Ｓ８８の判定結果がＮｏの場合は、その領域には、抽出されたテキストの文字は存在するが、文字認識された文字は存在しない。これは前述した「目に見えないテキスト」のケースである。このケースでは、処理制御部２２は、見た目と内容のどちらを優先するかをユーザに問い合わせるか、または設定管理部１８に登録されている設定内容に基づいて判定する。そして、見た目を優先する場合には、その領域には文字がないものとし（すなわち文字認識結果が「文字なし」）、内容を優先する場合には、その領域の文字認識結果として、テキスト抽出部２６が抽出したその領域のテキストを採用する（Ｓ９２）。

図１２に例示した処理では、アプリページ内のテキストオブジェクトから抽出した文字と、文字認識処理により認識した文字とが競合した場合、基本的には、正確であるテキストオブジェクトから抽出した文字を採用する。ただし、テキストオブジェクトからは文字が抽出された場所から、文字認識処理では文字が認識されない場合は、「目に見えないテキスト」であり、一律に抽出されたテキストを優先してよいとは限らないので、ユーザに判断を求める。

文字認識処理部２０は、図９〜図１２を参照して説明したテキスト取得方法の自動選択処理のうちのいずれかを常にアプリページに適用するようにプログラミングされてもよい。

また、テキスト取得方法の自動選択を、アプリページに対する処理の選択肢としてユーザに提示し、ユーザに選択させてもよい。例えば、図１３に示す設定画面２００ａでは、ＯＣＲ時のアプリページに対する処理の選択肢欄２０４ａに、図３に示した第１〜第３選択肢に加え、第４選択肢としてテキスト取得方法の自動選択を挙げている。なお、第４選択肢の方法は、他の選択肢よりも顕著に処理に時間がかかるため、選択肢欄２０４ａ内の第４選択肢の説明文には、処理に時間を要する旨の但し書きが付されている。ある程度時間がかかっても、なるべく良質でなるべく大量のテキスト情報を得たいユーザは、この第４選択肢を選択すればよい。この設定画面２００ａの第４選択肢がユーザの選択した方法として設定管理部１８に登録されている場合、処理制御部２２は、文字認識対象のうちのアプリページについては、図９〜図１２に示した方法のいずれかを用いてアプリページを処理する。

以上に例示した文書ハンドリングシステム１０又は文字認識処理部２０は、例えば、コンピュータにそれら各装置の機能を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、ＣＰＵ等のマイクロプロセッサ、ランダムアクセスメモリ（ＲＡＭ）およびリードオンリメモリ（ＲＯＭ）等のメモリ（一次記憶）、ＨＤＤ（ハードディスクドライブ）を制御するＨＤＤコントローラ、各種Ｉ／Ｏ（入出力）インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバスを介して接続された回路構成を有する。また、そのバスに対し、例えばＩ／Ｏインタフェース経由で、ＣＤやＤＶＤなどの可搬型ディスク記録媒体に対する読み取り及び／又は書き込みのためのディスクドライブ、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び／又は書き込みのためのメモリリーダライタ、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがＣＤやＤＶＤ等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがＲＡＭに読み出されＣＰＵ等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。

１０文書ハンドリングシステム、１２ファイル取り込み部、１４文書処理部、１６ＵＩ処理部、１８設定管理部、２０文字認識処理部、２２処理制御部、２４文字認識エンジン、２６テキスト抽出部、２８ラスタライザ。

Claims

イメージデータ形式の第１種ページと、イメージデータ形式でない第２種ページと、の混在が可能なデータ形式の文書に対して文字認識の実行が指示された場合に、前記文書に含まれる前記第１種ページについては前記文字認識を実行し、前記文書に含まれる前記第２種ページについては前記文字認識とは異なる処理である第２種ページ処理を実行する、文書処理装置。
前記第２種ページ処理は、前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理である、請求項１に記載の文書処理装置。
前記通知処理では、更に、前記第２種ページから文字情報を取得するか否かの問合せを前記ユーザに対して行い、
前記文書処理装置は、前記問合せに対するユーザの回答に応じて、前記第２種ページから文字情報を取得する処理を実行するか否かを制御する、
請求項２に記載の文書処理装置。
前記第２種ページ処理は、前記第２種ページから文字情報を取得する処理である、請求項１に記載の文書処理装置。
前記第２種ページ処理は、前記第２種ページに含まれるテキストデータを抽出する処理である、請求項４に記載の文書処理装置。
前記第２種ページ処理は、前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理である、請求項４に記載の文書処理装置。
前記文書処理装置は、前記第２種ページに含まれるテキストデータを抽出する処理、及び、前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理、のうちユーザから選択された処理を、前記第２種ページ処理として実行する、請求項４に記載の文書処理装置。
前記第２種ページ処理は、前記第２種ページから抽出したテキストデータと、前記第２種ページを変換したイメージデータに対する前記文字認識の結果と、に基づいて、前記第２種ページについての処理結果となる文字情報を求める処理である、請求項４に記載の文書処理装置。
前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中のその場所に対応する第１の文字と、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する第２の文字との両方が存在する場合に、前記第１の文字をその場所についての文字情報として採用する、請求項８に記載の文書処理装置。
前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中にはその場所に対応する文字がなく、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する文字がある場合に、前記文字認識の結果中の前記文字をその場所についての文字情報として採用する、請求項８又は９に記載の文書処理装置。
前記第２種ページ処理では、前記第２種ページ内のある場所について、前記第２種ページから抽出したテキストデータ中にはその場所に対応する文字があり、前記第２種ページを変換したイメージデータに対する前記文字認識の結果中のその場所に対応する文字がない場合に、前記テキストデータ中の前記文字をその場所についての文字情報として採用するか否かを、ユーザの指示に従って制御する、請求項８〜１０のいずれか１項に記載の文書処理装置。
前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理と、
前記第２種ページから文字情報を取得する処理と、
のうちのいずれを前記第２種ページ処理として実行するかの設定をユーザから受け付ける設定画面を提示する手段、を有する請求項１に記載の文書処理装置。
前記文書に前記第２種ページが含まれている場合に、前記文字認識が適用できないページが含まれることをユーザに通知する通知処理と、
前記第２種ページに含まれるテキストデータを抽出する処理と、
前記第２種ページをイメージデータに変換し、このイメージデータに対して前記文字認識を実行する処理と、
のうちの２以上を前記第２種処理の選択肢としてユーザに選択させるための設定画面、を提示する手段、を有する請求項１に記載の文書処理装置。
イメージデータ形式の第１種ページと、イメージデータ形式でない第２種ページと、の混在が可能なデータ形式の文書に対して文字認識の実行が指示された場合に、前記文書に含まれる前記第１種ページについては前記文字認識を実行し、前記文書に含まれる前記第２種ページについては前記文字認識とは異なる処理である第２種ページ処理を実行する手段、としてコンピュータを機能させるためのプログラム。
イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記イメージデータ形式でないページをイメージデータ形式に変換し、前記束ね処理の結果の文書が前記イメージデータ形式でないページを含まないようにする束ね手段、を有する、文書処理装置。
イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記束ね処理の結果の文書に前記イメージデータ形式でないページを残す第２束ね手段と、
前記束ね処理が指示された場合に、前記束ね手段と前記第２束ね手段のいずれをもちいるかの指定をユーザから受け付ける手段と、
を更に有する請求項１５に記載の文書処理装置。
イメージデータ形式でないページを含んだ第１文書を、他の１以上の文書と束ねて１つの文書にする束ね処理を実行する際に、前記イメージデータ形式でないページをイメージデータ形式に変換し、前記束ね処理の結果の文書が前記イメージデータ形式でないページを含まないようにする束ね手段、としてコンピュータを機能させるためのプログラム。