JP2023054708A - 情報処理装置、文書分割方法、及びプログラム - Google Patents
情報処理装置、文書分割方法、及びプログラム Download PDFInfo
- Publication number
- JP2023054708A JP2023054708A JP2021163722A JP2021163722A JP2023054708A JP 2023054708 A JP2023054708 A JP 2023054708A JP 2021163722 A JP2021163722 A JP 2021163722A JP 2021163722 A JP2021163722 A JP 2021163722A JP 2023054708 A JP2023054708 A JP 2023054708A
- Authority
- JP
- Japan
- Prior art keywords
- page
- document
- target
- information processing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】スキャン画像データを文書単位で精度よく自動分割する。【解決手段】情報処理装置によりページ単位のスキャン画像を文書ごとに分割する文書分割方法であって、奇数ページを対象ページとして、対象ページの直前ページについて、文書の末尾ページであるか否かを判定し、対象ページの直前ページが文書の末尾ページであると判定された場合には、対象ページが文書の先頭ページであるとしてスキャン画像を分割する。【選択図】図9
Description
本発明は、例えば複数文書などからなるスキャン画像データを解析して文書の分割位置を自動判別するための情報処理装置、文書分割方法、及びプログラムに関する。
従来、文書の管理手法として、文書をスキャナで読み取って得られたスキャン画像を所定フォーマットのファイルに変換し、ネットワーク上のストレージサーバに送信して保存する手法が広く利用されている。
そのような手法が利用されるユースケースとして、複数の文書からなる複数枚の紙文書をまとめてスキャンして電子化し、文書毎にファイルとして分割してストレージサーバに保存するということがある。
複数の紙文書から得られたスキャン画像データを文書単位で自動的に分割するための手法として、特許文献1がある。特許文献1は、複数の文書をまとめてスキャンした際に、各文書の最後の原稿の裏面に付与されている文書分割を示すマークを認識して、マークに基づいて文書単位に区切るものである。
しかしながら特許文献1の手法では、複数の紙文書をまとめてスキャンし、文書毎にファイル分割してストレージサーバに保存することを想定して、各文書の最後の用紙の裏面に文書分割マークを印字しておく必要があった。各文書の分割ページの裏面に所定の分割マークを付与しておくといった繁雑な事前準備を行わねばならず、不便である。
本発明は、上記事情に鑑みてなされたものであり、複数の紙文書からなるスキャン画像データを文書単位で精度よく自動分割しつつ、文書分割に関わる処理負荷を低減する手法を提供することを目的とするものである。
上記目的を達成するために本発明は以下の構成を有する。すなわち本発明の一側面によれば、ページ単位のスキャン画像を文書ごとに分割する情報処理装置であって、
奇数ページを対象ページとして、前記対象ページの直前ページについて、文書の末尾ページであるか否かを判定する第1の判定手段と、
前記直前ページが前記末尾ページであると判定された場合には、前記対象ページが文書の先頭ページであるとして前記スキャン画像を分割する分割手段と、を有する
ことを特徴とする情報処理装置が提供される。
奇数ページを対象ページとして、前記対象ページの直前ページについて、文書の末尾ページであるか否かを判定する第1の判定手段と、
前記直前ページが前記末尾ページであると判定された場合には、前記対象ページが文書の先頭ページであるとして前記スキャン画像を分割する分割手段と、を有する
ことを特徴とする情報処理装置が提供される。
本発明によれば、複数の紙文書からなるスキャン画像データを文書単位で精度よく自動分割しつつ、文書分割に関わる処理負荷を低減することが可能となる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第一の実施形態]
<全体構成>
図1は、本実施形態の画像処理システムの全体構成を示す図である。画像処理システムは、MFP(Multi-Function Peripheral)110、クライアントPC111、MFP連携サービス120およびクラウドストレージ130を含む。MFP110及びクライアントPC111は、LAN(Local Area Network)経由でインターネット上の各種サービスを提供するサーバーに対して通信可能に接続されている。
<全体構成>
図1は、本実施形態の画像処理システムの全体構成を示す図である。画像処理システムは、MFP(Multi-Function Peripheral)110、クライアントPC111、MFP連携サービス120およびクラウドストレージ130を含む。MFP110及びクライアントPC111は、LAN(Local Area Network)経由でインターネット上の各種サービスを提供するサーバーに対して通信可能に接続されている。
MFP110は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置あるいは画像形成装置の一例である。クライアントPC111はMFP連携サービス120に対して依頼したサービスの提供を受けるコンピュータまたはアプリケーションである。MFP連携サービス120は、MFP110でスキャンした画像ファイルをMFP連携サービス120が稼働するサーバー上に保存したり、別のストレージサービス等のファイル保存が可能なサービスに転送したりする機能を持つサービスの一例である。クラウドストレージ130は、インターネットを介してファイルを保存したりウェブブラウザでファイルを取得したりすることができるサービスである。MFP連携サービス120は、たとえばMFP連携サービス機能を提供するサーバー(あるいは情報処理装置またはコンピュータ)により実現される。クラウドストレージ130もその機能を提供するサーバーにより実現される。
本実施形態の画像処理システムは、MFP110、クライアントPC111、MFP連携サービス120およびクラウドストレージ130を有する構成としているがこれに限定されない。例えば、MFP110がクライアントPC111やMFP連携サービス120の役割を兼ね備えてもよい。また、MFP連携サービス120はインターネット上ではなくLAN上のサーバーに配置した接続形態であってもよい。また、クラウドストレージ130はメールサーバーなどに置き換えて、スキャンした画像をメールに添付し送信してもよい。
<MFPのハードウェア構成>
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、モデム223で構成される。制御部210は、以下の各部211~219で構成され、MFP110全体の動作を制御する。CPU211は、ROM212に記憶された制御プログラムを読み出して、読取/印刷/通信などMFP110が有する各種機能を実行・制御する。RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では1つのCPU211が1つのメモリ(RAM213またはHDD214)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のCPUや複数のRAMまたはHDDを協働させて各処理を実行してもよい。HDD214は、画像データや各種プログラムを記憶する大容量記憶部である。操作部I/F215は、操作部220と制御部210とを接続するインタフェースである。操作部220には、タッチパネルやキーボードなどが備えられており、ユーザーによる操作/入力/指示を受け付ける。プリンタI/F216は、プリンタ部221と制御部210とを接続するインタフェースである。印刷用の画像データはプリンタI/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。スキャナI/F217は、スキャナ部222と制御部210とを接続するインタフェースである。スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder:自動原稿送り装置)にセットされた原稿を読み取って画像データを生成し、スキャナI/F217を介して制御部210に入力する。MFP110は、スキャナ部222で生成された画像データをプリンタ部221から印刷出力(コピー)する他、ファイル化してファイル送信またはメール送信することができる。モデムI/F218は、モデム223と制御部210とを接続するインタフェースである。モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークI/F219は、制御部210(MFP110)をLANに接続するインタフェースである。MFP110は、ネットワークI/F219を用いてインターネット上の各サービスに画像データや情報を送信したり、各種情報を受信したりする。
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、モデム223で構成される。制御部210は、以下の各部211~219で構成され、MFP110全体の動作を制御する。CPU211は、ROM212に記憶された制御プログラムを読み出して、読取/印刷/通信などMFP110が有する各種機能を実行・制御する。RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では1つのCPU211が1つのメモリ(RAM213またはHDD214)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のCPUや複数のRAMまたはHDDを協働させて各処理を実行してもよい。HDD214は、画像データや各種プログラムを記憶する大容量記憶部である。操作部I/F215は、操作部220と制御部210とを接続するインタフェースである。操作部220には、タッチパネルやキーボードなどが備えられており、ユーザーによる操作/入力/指示を受け付ける。プリンタI/F216は、プリンタ部221と制御部210とを接続するインタフェースである。印刷用の画像データはプリンタI/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。スキャナI/F217は、スキャナ部222と制御部210とを接続するインタフェースである。スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder:自動原稿送り装置)にセットされた原稿を読み取って画像データを生成し、スキャナI/F217を介して制御部210に入力する。MFP110は、スキャナ部222で生成された画像データをプリンタ部221から印刷出力(コピー)する他、ファイル化してファイル送信またはメール送信することができる。モデムI/F218は、モデム223と制御部210とを接続するインタフェースである。モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークI/F219は、制御部210(MFP110)をLANに接続するインタフェースである。MFP110は、ネットワークI/F219を用いてインターネット上の各サービスに画像データや情報を送信したり、各種情報を受信したりする。
<クライアントPC、MFP連携サービスのハードウェア構成>
図3は、クライアントPC111及びMFP連携サービス120のハードウェア構成図である。クライアントPC111及びMFP連携サービス120は、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315で構成される。CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。RAM313は、CPU311の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD314は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークI/F315は、MFP連携サービス120をインターネットに接続するインタフェースである。MFP連携サービス120およびクラウドストレージ130は、ネットワークI/F315を介して他の装置(MFP110など)から処理リスエストを受けて各種情報を送受信する。
図3は、クライアントPC111及びMFP連携サービス120のハードウェア構成図である。クライアントPC111及びMFP連携サービス120は、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315で構成される。CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。RAM313は、CPU311の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD314は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークI/F315は、MFP連携サービス120をインターネットに接続するインタフェースである。MFP連携サービス120およびクラウドストレージ130は、ネットワークI/F315を介して他の装置(MFP110など)から処理リスエストを受けて各種情報を送受信する。
<画像処理システムのソフトウェア構成>
図4は、本実施形態に係る画像処理システムのソフトウェア構成図である。MFP110は、ネイティブ機能部410と追加機能部420の大きく2つに分けられる。ネイティブ機能部410に含まれる各部はMFP110に標準的に備えられたものであるのに対し、追加機能部420はMFP110に追加インストールされたアプリケーションである。追加機能部420はJava(登録商標)をベースとしたアプリケーションであり、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他の追加アプリケーションがインストールされていても良い。
図4は、本実施形態に係る画像処理システムのソフトウェア構成図である。MFP110は、ネイティブ機能部410と追加機能部420の大きく2つに分けられる。ネイティブ機能部410に含まれる各部はMFP110に標準的に備えられたものであるのに対し、追加機能部420はMFP110に追加インストールされたアプリケーションである。追加機能部420はJava(登録商標)をベースとしたアプリケーションであり、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他の追加アプリケーションがインストールされていても良い。
ネイティブ機能部410は、スキャン実行部411および画像データ保存部412を有する。追加機能部420は、表示制御部421、スキャン指示部422、連携サービスリクエスト部423を有する。
表示制御部421は、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、ユーザーによる操作を受け付けるためのユーザインターフェイス(UI)画面を表示する。例えば、MFP連携サービス120へアクセスするための認証情報の入力、スキャン設定、ならびに、スキャン開始の操作、プレビュー画面などのUI画面を表示する。スキャン指示部422は、UI画面を介して入力されたユーザー指示に応じたスキャン設定と共にスキャン実行部411にスキャン処理を要求する。
スキャン実行部411は、スキャン指示部422からのスキャン設定を含んだスキャン要求を受け取る。スキャン実行部411は、スキャン要求に従い、スキャナI/F217を介して、スキャナ部222で原稿台ガラスに置かれた原稿を読み取ることでスキャン画像データを生成する。生成したスキャン画像データは、画像データ保存部412に送られる。スキャン実行部411は、保存したスキャン画像データを一意に示すスキャン画像識別子をスキャン指示部422へ送る。スキャン画像識別子はMFP110においてスキャンした画像をユニークに識別するための番号や記号、アルファベットなどである(不図示)。画像データ保存部412は、スキャン実行部411から受け取ったスキャン画像データをHDD214に保存する。ここで、原稿の1面をスキャンすることにより読み取った画像データを1ページの画像データと呼び、スキャン画像識別子はページ単位で付与されてよい。
スキャン指示部422は、スキャン実行部411から受け取ったスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。スキャン指示部422は、取得したスキャン画像データにMFP連携サービス120で処理を行う指示を連携サービスリクエスト部423に要求する。
連携サービスリクエスト部423は、MFP連携サービス120に対して各種処理の要求を行う。例えば、ログイン、スキャン画像の解析、スキャン画像の送信などの要求を行う。MFP連携サービス120とのやり取りはRESTやSOAPなどのプロトコルを使用するが、その他の通信手段を用いてもよい。
MFP連携サービス120は、リクエスト制御部431、画像処理部432、クラウドストレージアクセス部433、データ管理部434、表示制御部435を有する。
リクエスト制御部431は、外部装置からの要求を受信できる状態で待機している。処理要求を受けると要求に応じて適宜、画像処理部432、クラウドストレージアクセス部433、データ管理部434に処理を指示する。
画像処理部432は、画像に対して画像解析処理や、画像の回転や傾き補正などの画像に対する加工処理を行う。画像解析処理には文字領域解析、OCR(Optical Character Recognition)、タイトルなどを認識する自然言語処理などの言語処理が含まれる。
クラウドストレージアクセス部433は、クラウドストレージに対する処理の要求を行う。クラウドサービスは一般的にRESTやSOAPなどのプロトコルで、クラウドストレージにファイルを保存したり、保存したファイルを取得したりするための様々なインタフェースを公開している。クラウドストレージアクセス部433は、公開されたクラウドストレージのインタフェースを使用してクラウドストレージの操作を行う。
データ管理部434は、MFP連携サービス120で管理するユーザー情報や各種設定データ等を保持する。
表示制御部435は、インターネット経由で接続されたPCやモバイル等の別端末(不図示)上で動作しているウェブブラウザからのリクエストを受けて画面表示に必要な画面構成情報(HTML、CSS等)を返す。ユーザーは、ウェブブラウザで表示される画面経由でMFP連携サービス120に登録しているユーザー情報を確認したり、スキャンする際の設定を変更したりする。
なお図4ではMFP110に追加機能部420をインストールする構成の例について説明したが、本件はこの構成に限定せず、クライアントPC111に追加機能部420の機能が含まれていても構わない。
<全体の処理の流れ>
図5は、MFP110でスキャンした画像をファイル化してクラウドストレージに送信する際の各装置間の処理の流れを示すシーケンス図である。ここでは、各装置間のやり取りを中心に説明する。なお、図5ではMFP110がMFP連携サービス120とやり取りを行う記載としているが、後述する解析結果取得、画面の表示等はMFP110でなくクライアントPC111が実行する構成でも構わない。
図5は、MFP110でスキャンした画像をファイル化してクラウドストレージに送信する際の各装置間の処理の流れを示すシーケンス図である。ここでは、各装置間のやり取りを中心に説明する。なお、図5ではMFP110がMFP連携サービス120とやり取りを行う記載としているが、後述する解析結果取得、画面の表示等はMFP110でなくクライアントPC111が実行する構成でも構わない。
MFP110は、通常の状態では提供する各機能を実施するためのボタンを並べたメイン画面をタッチパネル上に表示する。
MFP110にスキャン画像をクラウドストレージに送信するための追加アプリケーション(以降、スキャンアプリと呼ぶ)をインストールすることで、アプリケーションの機能を使用するボタンがMFP110のメイン画面に表示される。このボタンを押すとスキャンした画像をクラウドストレージに送信するための画面が表示され、図5のシーケンスで示す処理が行われる。
MFP110にスキャン画像をクラウドストレージに送信するための追加アプリケーション(以降、スキャンアプリと呼ぶ)をインストールすることで、アプリケーションの機能を使用するボタンがMFP110のメイン画面に表示される。このボタンを押すとスキャンした画像をクラウドストレージに送信するための画面が表示され、図5のシーケンスで示す処理が行われる。
S501においてスキャンアプリは、MFP連携サービス120にアクセスするための認証情報を入力するログイン画面を表示する。S502でユーザーによるログイン操作を受け付けると、S503においてMFP連携サービス120は、ログイン要求に含まれるユーザー名とパスワードが正しいか検証し、正しければアクセストークンをMFP110に返す。以降のMFP110からMFP連携サービス120に対して行う各種リクエストにはこのアクセストークンと共に要求が出され、この情報により処理対象のユーザーを特定することができる。ユーザー認証の方法は一般的に公知な手法(Basic認証、Digest認証、OAuthを用いた認可等)を用いて行う。
MFP110は、ログイン処理が完了したらS504でスキャン設定画面を表示する。ユーザーがスキャン設定画面上で各種スキャンの読み込みに関する設定を行うとMFP110はその設定を保存する。ユーザーはさらに原稿台ガラスまたはADFにスキャンする対象の紙帳票を置き、「スキャン開始」ボタンを押す。MFP110はそれに応じてS505でスキャンを実行して紙帳票を電子化したスキャン画像データを生成する。ここでスキャン対象は用紙の両面とする。またスキャンする面の順序及びシートの順序はADFの機構等に応じて決められた順序でよい。ユーザーはその決められた順序に従ってシートの各面がスキャンされるよう紙帳票をADFに載置すればよい。そして、S506でスキャン処理により生成した画像群とともにスキャン画像群の解析要求をMFP連携サービス120に送信する。MFP連携サービス120は、スキャン画像群の解析要求を受信するとS507において、MFP連携サービス120の画像処理部432で画像解析を開始する。その後、MFP連携サービス120は、画像解析処理の終了を待たずに、MFP連携サービス120に依頼した解析を一意に示す識別子である"processId"をMFP110に返す。
MFP連携サービス120は、要求受信後、画像処理部432で画像解析処理を行う。
画像解析処理では、まず、S506でMFP110より受信したスキャン画像群に対してS508において文書先頭ページかを判定する。S508の処理の詳細については後述する。
MFP110は、S511でS506のレスポンスで受け取った"processId"を使用してMFP連携サービス120に定期的(例えば数百ミリ秒から数ミリ秒程度毎など)に"processId"の画像解析の処理状況の確認を行う。図では省略するが、S511の処理はMFP連携サービス120の画像処理完了のレスポンスが取得できるまで(S512のタイミングまで)継続して行う。MFP連携サービス120は、S511の処理状況確認の要求を受けると"processId"の処理の状況を確認し、レスポンスを返す。
レスポンスには、"status"に現在の処理状況を示す文字列が格納される。例えば"status"が"processing"の時は、MFP連携サービス120で処理が行われている最中であることを示し、"completed"の時は処理が完了している状態であることを示す。なお、処理が失敗した場合に"failed"など、この他のステータスが返ることもある。また処理完了時(statusがcompletedの場合)のレスポンスは、ステータスと共にスキャン画像を解析した結果やスキャン設定等の情報を含む。
S512において文書分割処理の完了を検知すると、S513でレスポンスに含まれる結果情報が格納されたURLから結果情報を取得する。そして、S514においてS513で取得した結果情報を使用して、複数のスキャン画像からなるスキャン画像群から文書の分割ページを確定するための分割ページ確定画面を表示する。図8は、MFP110で表示する分割ページ確定画面810の一例を示したものである。分割ページ確定画面での処理の詳細については後述する。
ファイル名設定画面でスキャン画像にファイル名を設定し、「送信」ボタン817を押すと、MFP110はS519でスキャン画像群と文書の先頭ページ番号等の情報をMFP連携サービス120に送信する。MFP連携サービス120はリクエストを受信すると、MFP110より受信した情報に基づきファイル生成処理を開始するとともにリクエストを正常に受けたことをMFP110に返す。MFP110は送信のレスポンスを受けると処理を終了し、S504のスキャン設定画面表示に戻る。
MFP連携サービス120は、S520でMFP連携サービスに登録されたスキャン設定からクラウドストレージ130に送信するファイルフォーマットの情報を取得し、その設定に基づいてスキャン画像群からファイルを生成する。そして、S521で生成したファイルをS519で受信したファイル名に設定してクラウドストレージ130に送信する。
●文書単位の分割の例
図6は、本実施形態において文書単位に自動分割されるスキャン画像群の例を示す図である。S505においてMFP110によって生成されたスキャン画像群が、図6に示す「スキャン画像群におけるページ順」の順番に生成されたものとする。これら10ページからなるスキャン画像群は3つの文書からなっており、それぞれ文書610、文書620、文書630である。画像処理部432は、スキャン画像群におけるページ順が1番目、2番目、3番目のスキャン画像に対して、1ページ目、2ページ目、3ページ目と順番にページ番号を割り振り、データ管理部434にスキャン画像と共に情報が保持される。本実施形態では、文書610、文書620、文書630の順で並べた文書をスキャンした例である。文書610は、1~4ページ目、文書620は、5~6ページ目、文書630は、7~10ページ目でスキャン画像が生成されている。また、文書610のスキャン画像611が1ページ目、文書620のスキャン画像621が5ページ目、文書630のスキャン画像631が7ページ目として文書の先頭ページで構成される。
図6は、本実施形態において文書単位に自動分割されるスキャン画像群の例を示す図である。S505においてMFP110によって生成されたスキャン画像群が、図6に示す「スキャン画像群におけるページ順」の順番に生成されたものとする。これら10ページからなるスキャン画像群は3つの文書からなっており、それぞれ文書610、文書620、文書630である。画像処理部432は、スキャン画像群におけるページ順が1番目、2番目、3番目のスキャン画像に対して、1ページ目、2ページ目、3ページ目と順番にページ番号を割り振り、データ管理部434にスキャン画像と共に情報が保持される。本実施形態では、文書610、文書620、文書630の順で並べた文書をスキャンした例である。文書610は、1~4ページ目、文書620は、5~6ページ目、文書630は、7~10ページ目でスキャン画像が生成されている。また、文書610のスキャン画像611が1ページ目、文書620のスキャン画像621が5ページ目、文書630のスキャン画像631が7ページ目として文書の先頭ページで構成される。
本実施形態では、スキャン画像群に含まれる文書は、片面印刷された文書と両面印刷された文書が混在している。文書610は、片面印刷された文書であり、スキャン画像611、スキャン画像612、スキャン画像613、スキャン画像614で構成されている。文書610のコンテンツ内容はスキャン画像群におけるページ順の奇数ページ目に印字され、偶数ページ目は印字されていない状態となる。文書620は、両面印刷された文書であり、スキャン画像621、スキャン画像622で構成されている。文書620のコンテンツ内容はスキャン画像群におけるページ順の奇数ページと偶数ページに印字されている。両面印刷された文書において、物理的な紙の表面と裏面にあたる奇数ページ目と偶数ページ目の間で文書が異なることはない。さらに文書630は、両面印刷された文書であり、スキャン画像631、スキャン画像632、スキャン画像633、スキャン画像634で構成されている。通常、両面印刷された文書の最終ページは文書620のようにスキャン画像群におけるページ順の偶数ページとなる。文書620のように最終ページに印字されている場合もあるが、コンテンツ内容によっては文書630のスキャン画像634のように印字されていない状態となる場合もある。ここでスキャン画像群に含まれるある文書内の1ページ目を「文書先頭ページ」と呼称し区別する。図6の例では、スキャン画像群における文書先頭ページに成り得るページは、スキャン画像群におけるページ順の奇数ページにあたるスキャン画像611、スキャン画像613、スキャン画像621、スキャン画像631、スキャン画像633である。
これらのページに文字領域解析とOCRを行ってテキストを抽出し、抽出したテキストに自然言語処理を行い、予め定めた特定の特徴量を含むページを文書先頭ページとし文書を分割する。特徴量とは、例えば文書のタイトル、日付、発行者などの先頭ページか判断可能な文字列のことである。
このように奇数ページのみを画像解析処理の対象とすることで「文書先頭ページ」が判断でき、文字列領域解析、OCR、自然言語処理といった画像解析処理の対象とするページ数を減らすことが可能になる。この結果、処理負荷を最大半分に低減することができる。さらに画像解析処理を行うページを文書構造から判断することで、処理負荷を低減する。
このように奇数ページのみを画像解析処理の対象とすることで「文書先頭ページ」が判断でき、文字列領域解析、OCR、自然言語処理といった画像解析処理の対象とするページ数を減らすことが可能になる。この結果、処理負荷を最大半分に低減することができる。さらに画像解析処理を行うページを文書構造から判断することで、処理負荷を低減する。
図7は、4ページ分のスキャン画像の印字パターンと想定される文書分割例を示した図である。この例の印字パターンは、文書区切れの前後2ページ分のスキャン画像を示しており、スキャン画像群におけるページ順の3ページ目が文書先頭ページかを判断している場面である。
各文書は、片面印刷または両面印刷されているため、紙の表面となる奇数ページには印字が必ずある。このため、スキャン画像群におけるページ順の1ページ目と3ページ目は印字されており、2ページ目、4ページ目がそれぞれ印字されている場合と印字されていない場合に分けられる。このため2ページ目と4ページ目の印刷の有無によって印字パターンは合計4パターンとなる。印字パターンの4つをそれぞれ印字パターン710、印字パターン720、印字パターン730、印字パターン740として説明する。
印字パターン710では、4ページ全てに印字されている。このとき想定される文書は、2通り考えられる。ひとつは、スキャン画像711とスキャン画像712で構成される文書と、スキャン画像713とスキャン画像714で構成される文書の2つの文書に分かれる場合がある。ふたつ目に、スキャン画像711、スキャン画像712、スキャン画像713、スキャン画像714で構成される1つの文書となる場合がある。よって、スキャン画像713が文書先頭ページか判断することで文書分割することができる。このため、スキャン画像群におけるページ順の3ページ目に画像解析処理を行う必要がある。
印字パターン720では、スキャン画像722以外が印字されている。このとき想定される文書は、2通り考えられる。ひとつに、スキャン画像721とスキャン画像722で構成される片面印刷された文書と、スキャン画像723とスキャン画像724で構成される両面印刷の文書とに分かれる場合である。ふたつ目に、スキャン画像721とスキャン画像722で構成される両面印刷された文書と、スキャン画像723とスキャン画像724で構成される両面印刷の文書とに分かれる場合である。この場合には、コンテンツによってスキャン画像722が白紙となっている。いずれの場合でもスャン画像723が先頭ページとなるため、本パターンでは、文書の分かれ目を決定する目的でスキャン画像群におけるページ順の3ページ目に画像解析処理を行う必要がない。
印字パターン730では、スキャン画像734以外が印字されている。このとき想定される文書は、2通り考えられる。ひとつが、スキャン画像731とスキャン画像732で構成される両面印刷された文書と、スキャン画像733とスキャン画像734で構成される片面印刷の文書とに分かれる場合である。ふたつ目に、スキャン画像731、スキャン画像732、スキャン画像733、スキャン画像734で構成される両面印刷された文書だが、コンテンツによってスキャン画像734が白紙となった単一の文書の場合である。なおスキャン画像733とスキャン画像734で構成される文書が両面印刷のこともあり得るが、先頭ページの判断のためにはひとつ目の場合と区別する必要はない。よって、スキャン画像733が文書先頭ページか判断することで文書分割することができる。このため、スキャン画像群におけるページ順の3ページ目に画像解析処理を行って先頭ページに該当するか判定する必要がある。
印字パターン740では、スキャン画像741とスキャン画像743に印字されている。このとき想定される文書は、2通り考えられる。ひとつは、スキャン画像741とスキャン画像742で構成される片面印刷された文書と、スキャン画像743とスキャン画像744で構成される片面印刷された文書の2つの文書に分かれる場合がある。ふたつ目に、スキャン画像741、スキャン画像742、スキャン画像743、スキャン画像744で構成される片面印刷された1つの文書となる場合がある。よって、スキャン画像743が文書先頭ページか判断することで文書分割することができる。このため、スキャン画像群におけるページ順の3ページ目に画像解析処理を行って先頭ページに該当するか判定する必要がある。
印字パターン710、印字パターン720、印字パターン730、印字パターン740のうち、印字パターン720については文書構造から画像解析処理を実施せずに文書先頭ページと判断できる。先の図6の例では、文書構造からスキャン画像621に対して画像解析処理を実施せずに先頭ページと判断できる。
本実施形態では、これらの前提のもとで処理負荷を低減しつつスキャン画像群に含まれる1つないし複数の文書を適切に分割するための手法を提案する。
図8の画面810はMFP110またはクライアントPC111が表示する分割ページ確定画面の一例を示す図である。本画面ではスキャン及び画像解析処理が完了し、クラウドストレージ130に送信前のスキャン画像を一覧することができる。さらに本画面では、S508で判定された、スキャン画像群に対する文書の分割箇所が確認、修正できるようになっている。画面810は上記の分割ページ確定画面であり、画面中に、スキャン画像群のサムネイル画像811及び対応するページ番号812が、スキャン画像群のページ数分だけ一覧して表示されている。さらに、画面表示時には、S508で判定された文書の先頭ページに基づき文書分割線813が表示された状態になっており、ユーザーは文書分割線813を例えばドラッグすることで先頭ページを修正することができるようになっている。「送信」ボタン817は、文書分割箇所を確定するためのボタンであり、ユーザーの押下により、MFP110またはクライアントPC111は、分割ページ確定画面で確定した文書の分割情報と共にスキャン画像群をMFP連携サービス120へ送信する。
画面820は、MFP連携サービス120において、画像解析中にエラーが発生した時の画面の一例を示す図である。エラーとは、MFP連携サービス120は、S511の処理状況確認の要求の"processId"対するレスポンスが"failed"になった場合である。画面820はエラーが発生したときのエラー表示画面であり、ユーザーに文書のセットの確認を促す注意画面821を表示する。ユーザーは、注意画面821が表示されると、MFP110で文書をセットし直してからS505におけるスキャンを再開する「再開」ボタン827、または、S506の処理以降を取り消す「中止」ボタン828を選べる。
●画像解析処理手順
図9は、本システムにおける画像処理部432が行う画像解析処理の詳細を示すフローチャートである。本フローは図5におけるS508に相当する。本フローにおける処理は、MFP連携サービス120、特にその画像処理部により実行される。
図9は、本システムにおける画像処理部432が行う画像解析処理の詳細を示すフローチャートである。本フローは図5におけるS508に相当する。本フローにおける処理は、MFP連携サービス120、特にその画像処理部により実行される。
S901において、MFP連携サービス120は、S506においてMFP110より受信したスキャン画像群のうち、最初のページを取得する。「ページを取得」とは、スキャン画像およびページ番号、処理結果などを含むページ情報である。なおページの順序はスキャンした順序に従い、先頭のページ番号は1である。また取得したページを対象ページあるいは現在ページと呼ぶ。続くS902において、MFP連携サービス120の画像処理部432は、S901で取得したスキャン画像データに対して、ページ番号が奇数ページであるか否かを判断する。奇数ページであった場合(S902がYESの場合)、S903に進み、偶数ページであった場合、(S902がNOの場合)、S907に進む。S903において、画像処理部432は、取得した対象ページの前後のページのスキャン画像が白紙か否かを判定する。詳しくは図10を用いて説明する。
図10は、本実施形態におけるS903の白紙判定について手順を説明するためのフローチャートである。本フローにおける処理は、MFP連携サービス120により実行される。
S1001において、画像処理部432は、S902で処理をしている対象ページの前後1ページずつのスキャン画像を取得する。続くS1002において、画像処理部432は、S1001で取得したページ(すなわち対象ページの前後のページ)のスキャン画像に閾値以上の割合の白領域があるかを判断する。白領域の算出方法については限定しないが、ここでは一例として白画素を使用して閾値以上の数の白画素が存在する領域を白領域として算出する。白領域の割合が所定の閾値を超えていた場合(S1002がYESの場合)、S1003に進み、超えていなかった場合(S1002がNOの場合)、S1004に進む。本実施形態では閾値はMFP連携サービス120内部で保持しているが、外部から設定しても良いし、画像によって動的に変更するような方法でも構わない。S1003において、画像処理部432は、白紙判定の対象のページは白紙ページとしてページ情報をデータ管理部434に記録する。続くS1004において、画像処理部432は、白紙判定の対象のページは印字ページ(或いは非白紙ページ)としてページ情報をデータ管理部434に記録する。図10の手順では対象ページの前後それぞれのページについて白紙か否かを判定し、判定結果を記録して本フローを終了する。なお対象ページの直前ページと直後のページ両方について白紙判定を行う必要は必ずしもない。たとえば直前ページの判定を行って次に直後のページの判定を行うものとすれば、まず直前のページが非白紙であると判定されたなら、対象ページが文書の先頭であると判定できないので、直後のページについてはもはや白紙判定を行う必要はない。逆に直後ページの判定を行って次に直前ページの判定を行うものとすれば、まず直後のページが白紙であると判定されたなら、対象ページが文書の先頭であると判定できないので、直前のページについてはもはや白紙判定を行う必要はない。これらの場合には、対象ページの直前ページまたは直後ページのいずれかの判定結果を記録して白紙判定処理を終了してよい。
図9の説明に戻る。S904において、画像処理部432は、文書構造判定ステップを実行する。文書構造判定ステップでは、S903で算出した白紙判定結果から、文書構造で文書分割が可能か否かを判定する。図7の印字パターン720に示した通り、現在処理を行う対象ページの前ページが白紙ページであり、且つ、後ろページが印字ページである場合、文書構造から文書分割することができる。文書構造から文書分割できる場合(S904がYESの場合)、S905に進み、文書構造から文書分割できない場合(S904がNOの場合)、S906に進む。S905において、画像処理部432は、現在ページの直前のページは文書の末尾ページであり、現在ページは文書先頭ページとしてページ情報をデータ管理部434に記録する。
一方S906において、画像処理部432は、文書先頭ページ判定処理を実施する。詳しくは図11を用いて説明する。S907において、画像処理部432は、次のページを対象ページとして取得する。続くS908において、画像処理部432は、次のページが存在するか否かを判定する。次のページがある場合(S908がNOの場合)、S902の処理に戻る。次のページがない場合(S908がYESの場合)、すなわちステップS907で次ページがないという理由でその取得に失敗した場合、本フローを終了する。
図11は、本実施形態におけるS906の画像解析処理による文書先頭ページ判断について手順を説明するためのフローチャートである。本フローにおける処理は、MFP連携サービス120により実行される。S1101において、画像処理部432は、処理中の対象ページの全ての領域に対して文字領域解析、OCR処理(文字認識処理)を実行して文字領域とテキストを抽出する。そして文字領域の領域番号と座標(X座標、Y座標、幅、高さ)とを決定し、文字領域に関連付けたテキスト(OCR処理結果)をページ情報としてデータ管理部434に記録する。S1102において、画像処理部432は、抽出されたテキストついて自然言語処理を実行して特徴量を抽出し、自然言語処理結果をS1101における文字領域と関連付けをしてデータ管理部434に記録する。自然言語処理は、たとえば単語の抽出であり、その結果は抽出された単語であってよい。下表1はS1101とS1102において実行された文字領域抽出結果、OCR処理、自然言語処理の結果の一例を示す表である。文字領域抽出結果は、文字領域の領域番号、X座標、Y座標、幅、高さからなる文字領域を取得し、OCR処理結果は文字領域のテキストデータを、自然言語処理では文字領域とOCR処理結果から文書の特徴量が取得される。文書の特徴量とは、たとえば自然言語処理で抽出された単語それぞれやその数うであってよい。
S1103において、画像処理部432は、S1102における画像解析処理結果から特徴量を取得する。本実施形態では一例として、S1102で取得した現在のページの文字領域のテキストデータを対象として自然言語処理を行い、たとえば意味のある単語を切り出す。自然言語処理には学習済の人工知能を用いてもよいし、テキストの辞書データベースを参照してもよい。
S1104において、画像処理部432は、文書先頭ページ判断を実行する。先頭ページ判断では、特徴量から現在のページが文書先頭ページか否かを判定する。たとえば自然言語処理の結果、先頭ページに含まれる蓋然性の高い文字列の数が所定数以上、たとえば3以上であれば先頭ページと判定する。表1の例では、自然言語処理結果としてタイトル、発行者、日付が対象ページから得られ、それらが、先頭ページに含まれる文字列として予め登録されていれば、そのページは先頭ページであると判定されることになる。またたとえば、自然言語処理により切り出された単語のテキストデータとデータ管理部434に記録された処理済みのページのテキストデータとを比較してもよい。その場合、比較の結果、一致率が閾値を超えたなら、それらページは同一文書に含まれ、したがって対象ページは文書の先頭ページではないと判定してもよい。なお判定の方法は、ページの文字領域抽出、OCR処理及び自然言語処理を用いたものである限りにおいて一つに限定されるものではない。文書先頭ページである場合(S1104がYESの場合)、S1105に進み、文書先頭ページでない場合(S1104がNOの場合)、本フローを終了する。
S1105において、画像処理部432は、現在のページを文書先頭ページとするページ情報をデータ管理部434に記録し、本フローを終了する。
S505において生成された複数ページからなるスキャン画像群のそれぞれについて、図9、図10、図11を用いて説明したフローを実行することによりS507の画像解析処理を完了し、画像処理部432は解析処理結果をリクエスト制御部431に返す。リクエスト制御部431は解析結果取得要求に応じて解析処理結果をMFP110またはクライアントPC111に送信する。解析処理結果にはデータ管理部434に記録された文書先頭ページを示す情報たとえば先頭ページのページ番号が含まれる。この解析処理結果を受けて、MFP110またはクライアントPC111は、文書分割線が表示された状態で分割ページ確定画面810を描画する。
以上の処理手順を実施することにより、対象ページの内容に基づいて先頭ページ判定を行う必要があるページは奇数ページに限られる。なおかつ、対象ページの直前のページが白紙でないか、または直後のページが白紙であるようなページに限られる。このケースは図7に示したように全ケースの3/4であるから、文書の長さが無作為であればページ画像の内容に基づいて文書区切りの判定を行う必要があるページ数の期待値は、スキャンした総ページ数の1/2×3/4=3/8となる。
このように複数のページで構成される複数の文書が含まれるスキャン画像群から文書の分割位置を自動判定する処理において、文書構造を基づいて必要最小限の領域に自然言語処理で詳細な解析を行うことができるようになる。これにより、複数の紙文書からなるスキャン画像データを文書単位で精度よく自動分割しつつ、文書分割に関わる処理負荷を最小限に抑えることができるため、ユーザーにとっての応答性を向上することができるようになる。以上で本実施形態の説明を終える。
なお図10で説明した白紙判定の方法については他の方法を用いることができる。たとえば画像データから縦横それぞれの方向のエッジを抽出し、抽出できたエッジの数が閾値よりも少なければ白紙と判定する方法を用いてもよい。また、画像を複数の領域に分割し、分割された領域毎に画素値の度数分布および分散値を求めて白領域であるか否かを判定し、領域すべてが白領域と判定された場合に画像全体についても白紙と判定してもよい。この場合、各領域について、閾値以下の画素値(すなわち非白画素)の画素について分散を求め、分散が所定値以下であれば白領域と判定してよい。もちろんこれらの方法以外の方法を白紙ページを判定するために採用してよい。
[変形例1]
上記実施形態では、対象ページの直前のページが白紙かつ直後のページが非白紙の場合に、対象ページは文書の先頭ページであると判定していた。しかしながら、対象ページの直前のページが非白紙であってもそのページは文書の末尾ページであり、対象ページはその次の文書の先頭ページであると判定できる場合がある。たとえば対象ページの直前のページの文が、そのページ途中までしかなく、その下が余白となっている場合である。この場合、対象ページの直前のページは、両面印刷された文書の末尾ページであると判断することができる。そこで本変形例ではそのような場合にも、対象ページを文字認識することなく対象ページを文書の先頭ページと判定する。
上記実施形態では、対象ページの直前のページが白紙かつ直後のページが非白紙の場合に、対象ページは文書の先頭ページであると判定していた。しかしながら、対象ページの直前のページが非白紙であってもそのページは文書の末尾ページであり、対象ページはその次の文書の先頭ページであると判定できる場合がある。たとえば対象ページの直前のページの文が、そのページ途中までしかなく、その下が余白となっている場合である。この場合、対象ページの直前のページは、両面印刷された文書の末尾ページであると判断することができる。そこで本変形例ではそのような場合にも、対象ページを文字認識することなく対象ページを文書の先頭ページと判定する。
そのために、本変形例では図9のステップS903の「白紙判定」処理として図16の処理を行う。図16の手順で白紙と判定されるページは白紙とは限らず印字部分を含むこともある。
図16においてまず対象ページの直後のページについて、図10の白紙判定処理を実行する(S1601)。図10では対象ページの前後のページについて白紙判定を行うとしたが、ここでは直後のページのみを対象とする。これによりまず直後のページについて白紙か非白紙かを判定する(S1602)。直後のページが白紙であれば、文書構造から対象ページが先頭ページであると判定することはないので、直後のページについて判定結果を記録して処理を終了する。
直後ページ画伯でないと判定された場合には、対象ページの直前ページの画像を取得し(S1603)、対象ページの直前ページについてステップS1604~S1608の処理を行う。まず直前ページの白領域のページに占める割合が第1閾値以上であるか判定する(S1604)。この第1閾値は、図10のS1002における閾値と同じであってよい。また白紙の判定の仕方も図10と同じ要領であってよい。白領域の割合が第1閾値以上であれば対象ページの直前のページは白紙であると判定される(S1607)。
そうでない場合には直前ページの白領域のページに占める割合が第2閾値以上であり(S1605)、かつその白領域がページ後半部にあるか判定する(S1606)。この第2閾値は、第1閾値よりも小さい値であってよい。たとえば、ページ下部の空白が1行分程度であれば、章や節の区切り目である可能性がある。また、たとえば表や図などのテキストではないオブジェクトが当該ページに収まりきらず、次ページに表示するためにまとまった空白が生じている可能性もある。そこでたとえば第2閾値は1ページの4分の1程度に固定的に設定してもよいし、利用者により設定変更可能としてもよい。両方の条件を満たせば、直前のページは、文書の区切り判定目的で疑似的な白紙ページと判定される(S1607)。そうでなければ直前のページは印字ページ(すなわち非白紙ページ)と判定される。
このように判定した結果を基に、図9の文書先頭ページの判定を行えばよい。これにより、対象ページの直前のページがたとえ白紙でなくとも文書の末尾の可能性があれば、対象ページを先頭ページと判定することができる。
これにより、第1実施形態に加えて一層文書区切り処理の生産性を高めることができる。なお本変形例の白紙判定は他の実施形態に適用することもできる。
[変形例2]
変形例1ではまず対象ページの直後のページについて白紙であるか判定し、白紙であれば対象ページは先頭ページではないと判定していた。しかしながら、ステップS1606で直前ページが疑似的な白紙ページと判定された場合には、対象ページの直後ページが白紙であっても対象ページを先頭ページと判定してもよい。そこで本変形例では、図16の処理をまずステップS1603から開始する。そしてステップS1604で、直前ページが白紙ページであるか否かを判定し、その判定結果を記録する。そのほかは変形例1と同様である。このようにすることで、文書構造から対象ページを先頭ページと判定する機会を増加させることができ、より生産性を向上させることができる。
変形例1ではまず対象ページの直後のページについて白紙であるか判定し、白紙であれば対象ページは先頭ページではないと判定していた。しかしながら、ステップS1606で直前ページが疑似的な白紙ページと判定された場合には、対象ページの直後ページが白紙であっても対象ページを先頭ページと判定してもよい。そこで本変形例では、図16の処理をまずステップS1603から開始する。そしてステップS1604で、直前ページが白紙ページであるか否かを判定し、その判定結果を記録する。そのほかは変形例1と同様である。このようにすることで、文書構造から対象ページを先頭ページと判定する機会を増加させることができ、より生産性を向上させることができる。
[第二の実施形態]
本実施形態では、本発明を適切に用いることで、画像解析処理を実行する範囲をさらに限定し、スキャン画像群の自動分割にかかる所要時間をさらに削減できることを、図を用いて具体的に説明する。なお、本実施形態の説明に際して、第一の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態では、本発明を適切に用いることで、画像解析処理を実行する範囲をさらに限定し、スキャン画像群の自動分割にかかる所要時間をさらに削減できることを、図を用いて具体的に説明する。なお、本実施形態の説明に際して、第一の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態は、画像解析処理実行領域を限定し、データ管理部434に保持されているページ情報を利用して文書先頭ページ判断を行う。同一文書のヘッダーフッター領域には、通常コンテンツ内容に依存しない文字列が存在することが多い。ヘッダーフッター領域に存在する文字列とは、文書タイトル、日付、通し番号などがある。ヘッダーフッター領域は、方形状の本文領域の外枠領域のことで、この領域は設定で変更しても良いし、それ以外の方法で定義しても良い。
現在のページが画像解析処理実行済ページと同一文書の場合、ヘッダーフッター領域に文書タイトルや日付などの文書内全てのページに一貫して印字されている文字列がある。文字列領域解析の結果、現在のページのヘッダーフッター領域の文字領域とデータ管理部434に記録された文字領域が一致する場合、同一文書と判断できる。
次に、ヘッダーフッター領域に文字領域が存在するが、データ管理部434に記録された文字領域と一致しない場合もある。例えばヘッダーフッター領域に通し番号が存在する場合、番号の桁数によって文字領域が変化してしまう。文字領域が一致しない場合、文字領域を自然言語処理し、テキストデータを比較して同一文書か判断する。ヘッダーフッター領域の文字領域と文字領域のテキストデータで判断できない場合、ヘッダーフッター領域以外の画像解析処理を行う。
本実施形態では、第一の実施形態にてS508の説明で述べた文書先頭ページ判断処理のフローチャートのうち、自然言語処理による先頭ページ判断S906に追加説明をする。
図12は、本実施形態におけるS906の詳細な処理手順を説明するフローチャートである。本フローの処理はMFP連携サービス120によって実施される。S1201において、画像処理部432は、2ページ前のページ情報をデータ管理部434から取得する。S1202において、画像処理部432は、2ページ前の画像解析処理情報がページ情報に保存済みであるか否かを判定する。2ページ前の画像解析処理情報が存在する場合(S1202がYESの場合)、S1203に進み、存在しない場合(S1202がNOの場合)、S1101に進む。S1203において、画像処理部432は、現在のページのヘッダーフッター領域の文字領域を抽出する。S1204において、画像処理部432は、現在のページと2ページ前のヘッダー領域とフッター領域それぞれの文字領域が一致するか否か判定する。一致する場合(S1204がYESの場合)、S1205に進み、不一致の場合(S1204がNOの場合)、S1206に進む。S1205において、画像処理部432は、現在のページは2ページ前と同一文書であるため先頭ページでないと判断する。S1206において、画像処理部432は、S1203において抽出されたヘッダーおよびフッターの文字領域に対して自然言語処理を行う。続くS1207において、画像処理部432は、S1206における処理結果から特徴量を取得する。S1208において、画像処理部432は、2ページ前の特徴量と比較して同一文書か否かを判定する。特徴量が所定の誤差内で一致すれば同一文書と判定する。同一文書の場合(S1208がYESの場合)、S1205へ進み、同一文書でない場合(S1208がNOの場合)、S1101に進む。ヘッダーフッター領域の文字領域が一致する場合(S1204がYESの場合)、はS1205において先頭ページでないと判断され本フローを終了する。またヘッダーフッター領域の文字領域のテキストデータから同一文書と判断できる場合(S1204がNOであった結果、S1208がYESの場合)もS1205において先頭ページでないと判断され本フローを終了する。
一方、ヘッダーフッター領域で同一文書と判断できない場合(S1204がNOであった結果、S1208がNOの場合)、第一の実施形態と同様にページ全ての領域に画像解析処理を行い、先頭ページか判定する。なお上記例ではヘッダー領域とフッター領域のそれぞれについて文字認識とそれに基づく処理を行っているがいずれか一方であってもよい。特にヘッダー領域に含まれる情報が多いことが多いのでヘッダー領域のみを対象としてもよい。
以上のように本発明を実施することで、これまで実行した画像解析処理結果を利用し、コンテンツ内容に依存しない部分を比較することで、処理負荷を低減することができるようになる。コンテンツ内容に依存しない部分とは具体的にはヘッダー領域およびフッター領域またはこれらのいずれかである。これにより、ユーザーに対する応答性をさらに向上することができるようになる。以上で本実施例の説明を終える。
[第三の実施形態]
本実施形態では、本発明を適切に用いることで、文書の積載誤りによる文書の分割処理エラーを防ぎ、また、ユーザーによって挿入された白紙によって意図された文書分割を確実に実施する。こうすることで、ユーザーにとって応答性を向上させることを、図を用いて具体的に説明する。なお、本実施形態の説明に際して、第一及び第二の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態では、本発明を適切に用いることで、文書の積載誤りによる文書の分割処理エラーを防ぎ、また、ユーザーによって挿入された白紙によって意図された文書分割を確実に実施する。こうすることで、ユーザーにとって応答性を向上させることを、図を用いて具体的に説明する。なお、本実施形態の説明に際して、第一及び第二の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態は、図5のS505において、複数の紙文書を原稿台ガラスまたはADFでスキャン実行するときの文書の積載状態を確認することで、ユーザーにとって正確且つ容易な文書分割処理を行う。具体的には、複数文書の積載時に紙の表裏が逆に読み取りされると、第一または第二の実施形態では、正しく文書分割を判断できなくなる。よって、ページの表裏を判定することで文書自動分割処理エラーを防ぎ、ユーザーに対して確認を促すことができる。また、文書と文書の間に白紙を仕切り紙として挿入することで自動分割する既存の文書分割方法がある。このような仕切り紙が挿入された場合、仕切り紙である白紙を判定して、白紙の位置で文書分割を行う。
図13は、本実施形態における画像処理部432が行う画像解析処理の詳細を示すフローチャートである。本フローは図5におけるS508に相当する。本フローにおける処理は、MFP連携サービス120により実行される。
対象ページが奇数ページであると(S901-S902)、S1301において、画像処理部432は、白紙判定を行う。図14は、本実施形態におけるS1301の処理手順を説明するフローチャートである。本フローの処理はMFP連携サービス120によって実施される。S1401において、画像処理部432は、処理をしている対象ページとその前後1ページずつのスキャン画像を取得する。各ページの白領域が所定の閾値を超えているかを判定し、ページ情報をデータ管理部434に記録し、本フローを終了する。各ページの白紙判定は図10で説明した方法と同じ要領で行ってよい。図14では白紙判定を、対象ページも含めてその前後3ページについて行う点で図10と相違している。
S1302において、画像処理部432は、ユーザーミスに起因する設定の見直しが必要か否かを判定する。スキャン画像群におけるページ順の奇数ページは、片面印刷及び両面された文書ともに何らかの印字がされている。そこで現在の対象ページが白紙の場合にエラー処理を行う。対象ページは奇数ページであるので、本来は白紙ではないはずである。そこで、対象ページが白紙であれば、それは仕切り紙(間紙)であるか、あるいは原稿が表裏逆にセットされている可能性がある。そこでステップS1302では、対象ページが」白紙であると判定された場合には設定の見直しが必要と判断する。見直しが必要でない場合(S1302がNOの場合)、S904に進み、見直しが必要な場合(S1302がYESの場合)、S1303に進む。
S1303において、画像処理部432は、仕切り紙か否かを判定する。仕切り紙の判定には現在の対象ページが白紙(S1302がNOの場合)、且つ、後ろページが白紙の場合である。ステップS1303では対象ページの直後のページが白紙であれば、対象ページとその直後のページは仕切り紙の両面であると判定する。仕切り紙の場合(S1303がYESの場合)、S1304に進み、仕切り紙でない場合(S1303がNOの場合)、S1305に進む。S1304において、画像処理部432は、現在のページ及び後ろページを仕切り紙と判断し、文書分割をして、データ管理部434にその旨を記録する。S1305において、画像処理部432は、文書積載状態が誤っていることを、MFP110またはクライアントPC111に送信してユーザーに警告する。具体的には、実行中の画像解析処理の"processId"を指定して処理ステータス"failed"をMFP110またはクライアントPC111に返し、本フローを終了する。それを受信したMFP110またはクライアントPC111は、ユーザインターフェイスに、スキャンした原稿の積載方向を確認させるメッセージを表示等で出力する。またユーザーが確認後に処理を再開させるためのボタンなどを表示し、それがタッチされたなら図5のS505から再度処理を実行してよい。
以上のように本実施形態によれば、文書の積載状況を確認しユーザーの意図した文書分割を実行できるようになる。これにより、ユーザーに対する応答性をさらに向上することができるようになる。以上で本実施例の説明を終える。
[第四の実施形態]
本実施形態では、事前にOCR処理が指定された場合に実施された処理結果を利用して文書分割を確実に実施する。ユーザーにとって応答性を向上させることを、図を用いて具体的に説明する。なお、本実施例の説明に際して、第一、第二及び第三の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態では、事前にOCR処理が指定された場合に実施された処理結果を利用して文書分割を確実に実施する。ユーザーにとって応答性を向上させることを、図を用いて具体的に説明する。なお、本実施例の説明に際して、第一、第二及び第三の実施形態と構成や処理手順が同一である箇所の説明は省略し、差異のある箇所のみを説明する。
本実施形態では、S504においてユーザーがサーチャブルPDFなどのテキストデータの抽出処理が必須となる設定を行った場合に、テキストデータを利用して文書先頭ページ判断を行う。その設定では、図5のS505においてスキャン実行されるとテキストデータが含まれる文書が生成され、S508において、文書に含まれるテキストデータを利用して先頭ページの判断を行い、文書分割を実行する。
本実施形態では、テキストデータを抽出する処理が事前に実行された場合、文書分割時に画像解析処理を実行することなく文書分割を実行する。本実施形態では、第一の実施形態にてS508の説明で述べた文書先頭ページ判断処理のフローチャートのうち、自然言語処理による先頭ページ判断S906に追加説明をする。
図15は、本実施形態におけるS906の詳細な処理手順を説明するフローチャートである。本フローの処理はMFP連携サービス120によって実施される。
S1501において、画像処理部432は、スキャン画像群のテキストデータの抽出が必須か否かを判定する。テキストデータ抽出が必要ない場合(S1501がYESの場合)、S1101に進み、テキストデータ抽出が必要な場合(S1501がNOの場合)、S1502に進む。S1502において、画像処理部432は、ページ内に含まれるテキストデータを取得する。なおテキストデータ抽出が必要のない設定とは、たとえばサーチャブルPDFなどが設定されて、すでにテキストデータが得られている場合である。
以上のように本発明を実施することで、重複して実行される処理を行うことなく文書分割を実行できるようになる。これにより、ユーザーに対する応答性をさらに向上することができるようになる。以上で本実施形態の説明を終える。
[その他の実施例]
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
110 MFP、111 クライアントPC、120 MFP連携サービス、421 表示制御部、431 リクエスト制御部、432 画像処理部、434 データ管理部
Claims (11)
- ページ単位のスキャン画像を文書ごとに分割する情報処理装置であって、
奇数ページを対象ページとして、前記対象ページの直前ページについて、文書の末尾ページであるか否かを判定する第1の判定手段と、
前記直前ページが前記末尾ページであると判定された場合には、前記対象ページが文書の先頭ページであるとして前記スキャン画像を分割する分割手段と、を有する
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記対象ページの直後ページについて、白紙ページであるか否かを判定する第2の判定手段を更に有し、
前記第1の判定手段は、前記直前ページが白紙ページであるか否かを判定し、白紙ページと判定された場合には、前記第2の判定手段により前記直後ページが白紙ページでないと判定されると、前記直前ページが前記末尾ページであると判定する
ことを特徴とする情報処理装置。 - 請求項1または2に記載の情報処理装置であって、
前記第1の判定手段は、前記直前ページが、所定の割合を超える割合でページの後半部に白領域を含むページであるか否かを判定し、前記直前ページが、所定の割合を超える割合でページの後半部に白領域を含むページである場合には、前記直前ページが末尾ページであると判定する
ことを特徴とする情報処理装置。 - 請求項1乃至3のいずれか一項に記載の情報処理装置であって、
前記第1の判定手段により前記対象ページが前記末尾ページであると判定されなかった場合に、前記対象ページの2ページ前のページに文字認識処理が施されているならば、前記対象ページの2ページ前のページのヘッダー領域とフッター領域またはそのいずれか一方と、前記対象ページのヘッダー領域とフッター領域またはそのいずれか一方とが一致するか判定し、一致する場合には、前記対象ページは前記先頭ページではないと判定する、
ことを特徴とする情報処理装置。 - 請求項4に記載の情報処理装置であって、
前記対象ページの2ページ前のページのヘッダー領域とフッター領域またはそのいずれか一方と、前記対象ページのヘッダー領域とフッター領域またはそのいずれか一方とが一致しない場合には、前記対象ページの文字認識処理をおこなって、前記対象ページの2ページ前のページのヘッダー領域とフッター領域またはそのいずれか一方の文字列と、前記対象ページのヘッダー領域とフッター領域またはそのいずれか一方の文字列とが一致するか判定し、一致しない場合には、前記対象ページは前記先頭ページではないと判定する、
ことを特徴とする情報処理装置。 - 請求項1乃至5のいずれか一項に記載の情報処理装置であって、
前記対象ページが前記先頭ページであると判定されなかった場合には、前記対象ページの全体について文字認識処理を行って、その結果を保存するとともに、認識された文字に応じて前記対象ページが前記先頭ページであるか判定する
ことを特徴とする情報処理装置。 - 請求項4乃至6のいずれか一項に記載の情報処理装置であって、
前記スキャン画像の読み取り時に文字認識処理が行われている場合には、前記対象ページを仕切り紙としてその文字認識処理の結果を用いて前記対象ページが前記先頭ページであるか判定する
ことを特徴とする情報処理装置。 - 請求項2または請求項2を引用する請求項3乃至7のいずれか一項に記載の情報処理装置であって、
前記対象ページが白紙ページであるか判定する手段を更に有し、
前記分割手段は、前記対象ページと前記直後ページがいずれも白紙ページである場合には、前記対象ページと前記直後ページとを文書を区切る仕切り紙として前記スキャン画像を分割する
ことを特徴とする情報処理装置。 - 請求項2または請求項2を引用する請求項3乃至7のいずれか一項に記載の情報処理装置であって、
前記対象ページが白紙ページであるか判定する手段と、
前記対象ページが白紙ページであり、かつ前記直後ページが白紙ページでない場合には、前記スキャン画像の読み取り方についてユーザーに警告する手段と
を更に有する
ことを特徴とする情報処理装置。 - 請求項1乃至9のいずれか一項に記載の情報処理装置としてコンピュータを機能させるためのプログラム。
- 判定手段と分割手段とを有する情報処理装置によりページ単位のスキャン画像を文書ごとに分割する文書分割方法であって、
前記判定手段が、奇数ページを対象ページとして、前記対象ページの直前ページについて、文書の末尾ページであるか否かを判定し、
前記分割手段が、前記直前ページが前記末尾ページであると判定された場合には、前記対象ページが文書の先頭ページであるとして前記スキャン画像を分割する
ことを特徴とする文書分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021163722A JP2023054708A (ja) | 2021-10-04 | 2021-10-04 | 情報処理装置、文書分割方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021163722A JP2023054708A (ja) | 2021-10-04 | 2021-10-04 | 情報処理装置、文書分割方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023054708A true JP2023054708A (ja) | 2023-04-14 |
Family
ID=85874161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021163722A Pending JP2023054708A (ja) | 2021-10-04 | 2021-10-04 | 情報処理装置、文書分割方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023054708A (ja) |
-
2021
- 2021-10-04 JP JP2021163722A patent/JP2023054708A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3855717B1 (en) | Image processing system for computerizing document, control method thereof, and storage medium background | |
US11843732B2 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
US11252287B2 (en) | Image processing apparatus that displays guidance for user operation, control method thereof and storage medium | |
US20220201146A1 (en) | Information processing apparatus, information processing system, control method of the same, and storage medium | |
US11908215B2 (en) | Information processing apparatus, information processing method, and storage medium | |
US11265431B2 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
US11393234B2 (en) | Image processing system for computerizing document, control method thereof, and storage medium | |
US11800032B2 (en) | Apparatus, information processing method, and storage medium | |
US11575799B2 (en) | Image processing apparatus for setting property including character strings and separators to scanned image, control method thereof and storage medium | |
JP2023054708A (ja) | 情報処理装置、文書分割方法、及びプログラム | |
JP2021164132A (ja) | 画像処理システム、及びプログラム | |
US11620840B2 (en) | Image processing apparatus for extracting a desired character string from a scanned image | |
US20230368558A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP7358663B2 (ja) | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム | |
JP2024032186A (ja) | 画像処理装置、画像処理装置の制御方法、及びプログラム | |
JP2022167157A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2023084495A (ja) | 情報処理装置、文書電子化システム、文書処理方法とプログラム | |
JP2022189109A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP2023020030A (ja) | サーバー、制御方法、およびそのプログラム | |
JP2024040612A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP2024032563A (ja) | 情報処理装置、情報処理装置の制御方法及びプログラム | |
JP2024034778A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
JP2023076051A (ja) | 情報処理装置、プログラムおよびその制御方法に関する。 | |
JP2022137727A (ja) | 情報処理装置、情報処理システム、その制御方法及びプログラム | |
JP2020177523A (ja) | スキャン画像のプレビュー表示を行う画像処理装置、その制御方法及びプログラム |