JP2020170942A - 画像処理システムおよび画像処理プログラム - Google Patents
画像処理システムおよび画像処理プログラム Download PDFInfo
- Publication number
- JP2020170942A JP2020170942A JP2019071284A JP2019071284A JP2020170942A JP 2020170942 A JP2020170942 A JP 2020170942A JP 2019071284 A JP2019071284 A JP 2019071284A JP 2019071284 A JP2019071284 A JP 2019071284A JP 2020170942 A JP2020170942 A JP 2020170942A
- Authority
- JP
- Japan
- Prior art keywords
- image processing
- template
- page
- image
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 表紙のテンプレートの追加の作業を容易化することができる画像処理システムおよび画像処理プログラムを提供する。【解決手段】 画像処理システムは、画像を処理する画像処理部を備え、画像処理部は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、ドキュメントにおける1ページ目に対応するテンプレートが登録されていないとき(S123でNO)、1ページ目の画像をテンプレートとして追加する(S124)ことを特徴とする。【選択図】 図6
Description
本発明は、複数のページの画像を含むドキュメントを複数に分割する画像処理システムおよび画像処理プログラムに関する。
従来、複数のページの画像を含むドキュメントに複数の表紙が含まれる場合に、表紙を区切りとしてドキュメントを複数に分割する画像処理システムが知られている(例えば、特許文献1参照。)。
しかしながら、従来の画像処理システムにおいては、複数の種類の表紙に対応する場合に、表紙のテンプレートが利用者によって追加される必要があるので、表紙のテンプレートの追加の作業が煩雑であるという問題がある。
そこで、本発明は、表紙のテンプレートの追加の作業を容易化することができる画像処理システムおよび画像処理プログラムを提供することを目的とする。
本発明の画像処理システムは、画像を処理する画像処理部を備え、前記画像処理部は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、前記ドキュメントにおける1ページ目に対応する前記テンプレートが登録されていないとき、前記1ページ目の画像を前記テンプレートとして追加することを特徴とする。
この構成により、本発明の画像処理システムは、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、ドキュメントにおける1ページ目に対応するテンプレートが登録されていないとき、1ページ目の画像をテンプレートとして追加するので、表紙のテンプレートの追加の作業を容易化することができる。
本発明の画像処理システムにおいて、前記画像処理部は、前記テンプレートに対して、部分的にOCRが実行される箇所としての部分OCR箇所が設定されている場合に、前記ドキュメントのページの画像のうち、このテンプレートに設定されている前記部分OCR箇所に相当する部分に対してのみOCRを実行し、このOCRの処理によって抽出されたテキストと、このテンプレートとに基づいて、このページが表紙であるか否かを判定しても良い。
この構成により、本発明の画像処理システムは、テンプレートに対して部分OCR箇所が設定されている場合に、ドキュメントのページの画像のうち、このテンプレートに設定されている部分OCR箇所に相当する部分に対してのみOCRを実行し、このOCRの処理によって抽出されたテキストと、このテンプレートとに基づいて、このページが表紙であるか否かを判定するので、このページの画像の全部に対してOCRを実行する場合と比較して、OCRの実行時間を短縮することができる。
本発明の画像処理システムにおいて、前記画像処理部は、前記ドキュメントにおけるいずれかのページに対応する前記テンプレートが登録されている場合に、このテンプレートに対して前記部分OCR箇所が設定されていないとき、前記ドキュメントにおいて前記テンプレートに対応するページと、このテンプレートとの共通部分の箇所を、このテンプレートの前記部分OCR箇所として設定しても良い。
この構成により、本発明の画像処理システムは、ドキュメントにおけるいずれかのページに対応するテンプレートが登録されている場合に、このテンプレートに対して部分OCR箇所が設定されていないとき、ドキュメントにおいてテンプレートに対応するページと、このテンプレートとの共通部分の箇所を、このテンプレートの部分OCR箇所として設定するので、テンプレートの部分OCR箇所の設定の作業を容易化することができる。
本発明の画像処理プログラムは、画像を処理する画像処理部をコンピューターに実現させ、前記画像処理部は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、前記ドキュメントにおける1ページ目に対応する前記テンプレートが登録されていないとき、前記1ページ目の画像を前記テンプレートとして追加することを特徴とする。
この構成により、本発明の画像処理プログラムを実行するコンピューターは、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、ドキュメントにおける1ページ目に対応するテンプレートが登録されていないとき、1ページ目の画像をテンプレートとして追加するので、表紙のテンプレートの追加の作業を容易化することができる。
本発明の画像処理システムおよび画像処理プログラムは、表紙のテンプレートの追加の作業を容易化することができる。
以下、本発明の実施の形態について、図面を用いて説明する。
まず、本発明の一実施の形態に係るシステムの構成について説明する。
図1は、本実施の形態に係るシステム10のブロック図である。
図1に示すように、システム10は、画像形成装置20を備えている。画像形成装置20は、例えば、MFP(Multifunction Peripheral)、スキャナー専用機などによって構成されている。システム10は、画像形成装置20以外にも、画像形成装置20と同様の構成の画像形成装置を少なくとも1つ備えることが可能である。
システム10は、画像を処理する画像処理システム30を備えている。画像処理システム30は、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。画像処理システム30は、クラウド上で動作するシステムでも良い。
図2は、MFPである場合の画像形成装置20のブロック図である。
図2に示すように、画像形成装置20は、種々の操作が入力される例えばボタンなどの入力デバイスである操作部21と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部22と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター23と、原稿から画像を読み取る読取デバイスであるスキャナー24と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部25と、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部26と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部27と、画像形成装置20全体を制御する制御部28とを備えている。
制御部28は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部28のCPUの作業領域として用いられる揮発性の記憶デバイスとしてのメモリーであるRAM(Random Access Memory)とを備えている。制御部28のCPUは、記憶部27または制御部28のROMに記憶されているプログラムを実行する。
図3は、1台のコンピューターによって構成される場合の画像処理システム30のブロック図である。
図3に示すように、画像処理システム30は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部32と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部33と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部34と、画像処理システム30全体を制御する制御部35とを備えている。
記憶部34は、画像を処理するための画像処理プログラム34aを記憶している。画像処理プログラム34aは、例えば、画像処理システム30の製造段階で画像処理システム30にインストールされていても良いし、CD(Compact Disk)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から画像処理システム30に追加でインストールされても良いし、ネットワーク上から画像処理システム30に追加でインストールされても良い。
記憶部34は、利用者のログインのための認証情報34bと、利用者が所属するグループを利用者毎に示すグループ情報34cとを記憶している。
記憶部34は、表紙のテンプレートを示すテンプレート情報34dを記憶可能である。記憶部34は、テンプレート情報34d以外にもテンプレート情報を少なくとも1つ記憶可能である。記憶部34は、グループ毎にテンプレート情報を記憶可能である。テンプレート情報に含まれるテンプレートは、部分的にOCR(Optical Character Recognition)が実行される箇所(以下「部分OCR箇所」という。)が設定されても良い。
制御部35は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部35のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部35のCPUは、記憶部34または制御部35のROMに記憶されているプログラムを実行する。
制御部35は、画像処理プログラム34aを実行することによって、画像を入力する画像入力部35aと、画像入力部35aによって入力された画像を処理する画像処理部35bと、画像処理部35bによる処理の結果を出力する結果出力部35cとを実現する。
制御部35は、画像入力部35aによる画像の入力と、画像処理部35bによって実行される画像の処理の少なくとも1つと、結果出力部35cによる結果の出力の少なくとも1つとからなるワークフローが、操作部31または通信部33を介した指示に応じて設定されることが可能である。そして、制御部35は、画像入力部35aによって画像が入力された場合に、画像入力部35aによる画像の入力に応じたワークフローを実行する。ワークフローは、画像入力部35aによる画像の入力に応じて、画像処理部35bによって実行される画像の処理と、画像処理部35bによる処理の結果の、結果出力部35cによる出力とが自動化されるものである。なお、ワークフローは、画像処理部35bによって実行される画像の処理に関して複数の処理が組み合わされて設定されることも可能であるし、結果出力部35cによる結果の出力に関しても複数の出力の方法が設定されることも可能である。
図4は、画像処理プログラム34aを実行することによって実現される画像処理システム30の機能の一例を示す図である。
図4に示すように、画像入力部35aによる画像の入力の方法としては、例えば、画像形成装置のスキャナーによって原稿から読み取られた画像を入力する「複合機からスキャン」と、特定の電子メールアドレス宛ての電子メールに添付された画像を入力する「Eメールに添付」と、予め指定されたフォルダーに記憶された画像を入力する「予め指定したフォルダー」と、専用のWebページを介して画像を入力する「専用Webページ」と、専用のモバイルアプリを介して画像を入力する「専用モバイルアプリ」とが存在する。
画像処理部35bによる画像の処理としては、例えば、画像を補正する「イメージ補正」と、画像に対して画像認識を実行することによって画像からデータを抽出する「データ認識/抽出」と、「イメージ補正」および「データ認識/抽出」のいずれでもない「その他」とが存在する。「イメージ補正」としては、例えば、画像を回転させたり画像の傾きを補正したりする「回転・傾き補正」と、画像から枠を消す「枠消し」と、画像の色を反転させる「カラー反転」とが存在する。「データ認識/抽出」としては、例えば、画像全体や画像のうち指定された領域に対してOCRを実行する「OCR」と、画像に含まれる手書き文字をテキスト化する「手書き文字」と、マークシートの画像における塗り潰し部分を抽出する「マークシート」と、画像に含まれるバーコードを読み取る「バーコード」とが存在する。「その他」としては、例えば、画像のフォーマットを変換する「フォーマット変換」と、画像のメタデータを作成する「メタデータ作成」と、画像に電子署名を付ける「電子署名」と、画像を検証する「データ検証」とが存在する。
結果出力部35cによる結果の出力の方法としては、例えば、画像処理部35bによる処理の結果をSMB(Server Message Block)、FTP(File Transfer Protocol)などのプロトコルによって特定のフォルダーに出力する「フォルダー」と、画像処理部35bによる処理の結果を電子メールで特定の電子メールアドレス宛てに送信する「Eメール」と、画像処理部35bによる処理の結果をODBC(Open Database Connectivity)データベースに記憶させる「ODBCデータベース」と、画像処理部35bによる処理の結果をDropbox(登録商標)、Google(登録商標) Drive、OneDrive(登録商標) for Businessなどのクラウドストレージに記憶させる「クラウドストレージ」と、画像処理部35bによる処理の結果をSharePoint(登録商標)に記憶させる「SharePoint」とが存在する。なお、結果出力部35cによる画像の出力の方法は、ワークフローに合わせてプラグインで追加されることが可能である。
図4には示していないが、画像処理部35bによる画像の処理としては、画像であるドキュメントを表紙のテンプレートを用いて複数に分割する「表紙式ドキュメント分割」と、ドキュメントをキーワードを用いて複数に分割する「キーワード式ドキュメント分割」とが存在する。「キーワード式ドキュメント分割」は、同一の案件の各ページには同一のキーワードが頻出することに着目して考案された、ドキュメントの分割の機能である。
次に、システム10の動作について説明する。
まず、「複合機からスキャン」、「表紙式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作について説明する。
画像処理システム30の制御部35は、画像入力部35aによる画像の入力の方法としての「複合機からスキャン」と、画像処理部35bによって実行される画像の処理としての「表紙式ドキュメント分割」と、結果出力部35cによる結果の出力の方法としての「フォルダー」とからなるワークフローを実行する場合、図5に示す動作を実行する。
図5は、「複合機からスキャン」、「表紙式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作のフローチャートである。
制御部35は、画像形成装置を介して入力された情報と、認証情報34bとに基づいて利用者のログインの処理を実行可能である。制御部35は、利用者のログインが成功している状態である場合に、図5に示す動作を実行可能である。
図5に示すように、画像入力部35aは、画像形成装置のスキャナーによって原稿から画像が読み取られると、画像形成装置のスキャナーによって原稿から読み取られた画像を記憶部34に記憶する(S101)。
次いで、画像処理部35bは、S101において記憶した画像であるドキュメント(以下、「複合機からスキャン」、「表紙式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作の説明において「対象ドキュメント」という。)を分割するためのラベルを、表紙のテンプレートを用いて対象ドキュメントの各ページに付ける表紙式ラベル付け処理を実行する(S102)。
図6は、図5に示す表紙式ラベル付け処理のフローチャートである。
図6に示すように、画像処理部35bは、対象ドキュメントにおける1ページ目のみを対象にする(S121)。
次いで、画像処理部35bは、現在の対象のページ(以下「対象ページ」という。)である1ページ目の画像に対応するテンプレートが、ログイン中の利用者にグループ情報34cにおいて関連付けられているグループのテンプレート情報(以下「対象テンプレート情報」という。)に存在するか否かを判定するテンプレート存在判定処理を実行する(S122)。
図7は、図6に示すテンプレート存在判定処理のフローチャートである。
図7に示すように、画像処理部35bは、対象テンプレート情報に存在するテンプレートのうち、今回のテンプレート存在判定処理において未だ対象にしていないテンプレートが存在しなくなるまで、S142〜S146の処理を繰り返すテンプレート存在判定ループを実行する(S141)。
以下、S142〜S146の処理について説明する。
まず、画像処理部35bは、対象テンプレート情報に存在するテンプレートのうち、今回のテンプレート存在判定処理において未だ対象にしていない1つのテンプレートのみを対象にする(S142)。
次いで、画像処理部35bは、現在の対象のテンプレート(以下「対象テンプレート」という。)に対して部分OCR箇所が設定されているか否かを対象テンプレート情報に基づいて判断する(S143)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されていないとS143において判断すると、対象ページである1ページ目の画像の全部に対してOCRを実行する(S144)。ここで、画像処理部35bは、1ページ目の画像の全部に対して既にOCRを実行済みである場合には、1ページ目の画像の全部に対して既に実行済みのOCRによって抽出されたテキストを使用すれば良いので、1ページ目の画像の全部に対して再度OCRを実行しなくても良い。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているとS143において判断すると、対象ページである1ページ目の画像のうち、対象テンプレート情報において対象テンプレートに設定されている部分OCR箇所に相当する部分に対してのみOCRを実行する(S145)。
画像処理部35bは、S144またはS145の処理の後、対象ページである1ページ目と、対象テンプレートとの類似度が特定の類似度以上であるか否かを判断する(S146)。なお、画像処理部35bは、対象ページである1ページ目と、対象テンプレートとの類似度を、S144またはS145の処理によって抽出されたテキストと、対象テンプレートとを使用して、特定の規則に基づいて算出することができる。
画像処理部35bは、1ページ目と、対象テンプレートとの類似度が特定の類似度未満であるとS146において判断した場合に、対象テンプレート情報に存在するテンプレートのうち、今回のテンプレート存在判定処理において未だ対象にしていないテンプレートが存在するとき、S142の処理を実行する。
画像処理部35bは、1ページ目と、対象テンプレートとの類似度が特定の類似度以上であるとS146において判断すると、テンプレート存在判定ループを抜け出す。そして、画像処理部35bは、対象ページである1ページ目に対応するテンプレートが対象テンプレート情報に存在すると判定する(S147)。
次いで、画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているか否かを対象テンプレート情報に基づいて判断する(S148)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されていないとS148において判断すると、対象ページである1ページ目と、対象テンプレートとの共通部分を、対象テンプレートとして更新し(S149)、この共通部分の箇所を、対象テンプレートの部分OCR箇所として対象テンプレート情報に設定する(S150)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているとS148において判断するか、S150の処理が終了すると、図7に示すテンプレート存在判定処理を終了する。
画像処理部35bは、1ページ目と、対象テンプレートとの類似度が特定の類似度未満であるとS146において判断した場合に、対象テンプレート情報に存在するテンプレートのうち、今回のテンプレート存在判定処理において未だ対象にしていないテンプレートが存在しないとき、テンプレート存在判定ループを抜け出して、図7に示すテンプレート存在判定処理を終了する。
図6に示すように、画像処理部35bは、S122のテンプレート存在判定処理が終了すると、対象ページである1ページ目の画像に対応するテンプレートが対象テンプレート情報に存在するとS122のテンプレート存在判定処理において判定されたか否かを判断する(S123)。
画像処理部35bは、1ページ目の画像に対応するテンプレートが対象テンプレート情報に存在するとS122のテンプレート存在判定処理において判定されなかったとS123において判断すると、1ページ目の画像をテンプレートとして対象テンプレート情報に追加する(S124)。
画像処理部35bは、1ページ目の画像に対応するテンプレートが対象テンプレート情報に存在するとS122のテンプレート存在判定処理において判定されたとS123において判断するか、S124の処理が終了すると、現在のラベルを1に設定する(S125)。
次いで、画像処理部35bは、対象ページである1ページ目に、現在のラベルである1を付ける(S126)。
次いで、画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在するか否かを判断する(S127)。
画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在するとS127において判断すると、対象ページの次のページのみを対象にする(S128)。
次いで、画像処理部35bは、対象ページが表紙であるか否かを判定する表紙判定処理を実行する(S129)。
図8は、図6に示す表紙判定処理のフローチャートである。
図8に示すように、画像処理部35bは、対象テンプレート情報に存在するテンプレートのうち、今回の表紙判定処理において未だ対象にしていないテンプレートが存在しなくなるまで、S162〜S166の処理を繰り返す表紙判定ループを実行する(S161)。
以下、S162〜S166の処理について説明する。
まず、画像処理部35bは、対象テンプレート情報に存在するテンプレートのうち、今回の表紙判定処理において未だ対象にしていない1つのテンプレートのみを対象にする(S162)。
次いで、画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているか否かを対象テンプレート情報に基づいて判断する(S163)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されていないとS163において判断すると、対象ページの画像の全部に対してOCRを実行する(S164)。ここで、画像処理部35bは、対象ページの画像の全部に対して既にOCRを実行済みである場合には、対象ページの画像の全部に対して既に実行済みのOCRによって抽出されたテキストを使用すれば良いので、対象ページの画像の全部に対して再度OCRを実行しなくても良い。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているとS163において判断すると、対象ページの画像のうち、対象テンプレートに対して設定されている部分OCR箇所に相当する部分に対してのみOCRを実行する(S165)。
画像処理部35bは、S164またはS165の処理の後、対象ページと、対象テンプレートとの類似度が特定の類似度以上であるか否かを判断する(S166)。なお、画像処理部35bは、対象ページと、対象テンプレートとの類似度を、S164またはS165の処理によって抽出されたテキストと、対象テンプレートとを使用して、特定の規則に基づいて算出することができる。S166において使用する規則と、S146において使用した規則とは、同一である。
画像処理部35bは、対象ページと、対象テンプレートとの類似度が特定の類似度未満であるとS166において判断した場合に、対象テンプレート情報に存在するテンプレートのうち、今回の表紙判定処理において未だ対象にしていないテンプレートが存在するとき、S162の処理を実行する。
画像処理部35bは、対象ページと、対象テンプレートとの類似度が特定の類似度以上であるとS166において判断すると、表紙判定ループを抜け出す。そして、画像処理部35bは、対象ページが表紙であると判定する(S167)。
次いで、画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているか否かを対象テンプレート情報に基づいて判断する(S168)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されていないとS168において判断すると、対象ページと、対象テンプレートとの共通部分を、対象テンプレートとして更新し(S169)、この共通部分の箇所を、対象テンプレートの部分OCR箇所として対象テンプレート情報に設定する(S170)。
画像処理部35bは、対象テンプレートに対して部分OCR箇所が設定されているとS168において判断するか、S170の処理が終了すると、図8に示す表紙判定処理を終了する。
画像処理部35bは、対象ページと、対象テンプレートとの類似度が特定の類似度未満であるとS166において判断した場合に、対象テンプレート情報に存在するテンプレートのうち、今回の表紙判定処理において未だ対象にしていないテンプレートが存在しないとき、表紙判定ループを抜け出して、図8に示す表紙判定処理を終了する。
図6に示すように、画像処理部35bは、S129の表紙判定処理が終了すると、対象ページが表紙であるとS129の表紙判定処理において判定されたか否かを判断する(S130)。
画像処理部35bは、対象ページが表紙であるとS129の表紙判定処理において判定されたとS130において判断すると、現在のラベルを1つ増加させる(S131)。
画像処理部35bは、対象ページが表紙であるとS129の表紙判定処理において判定されなかったとS130において判断するか、S131の処理が終了すると、対象ページに、現在のラベルを付ける(S132)。
画像処理部35bは、S132の処理が終了すると、S127の処理を実行する。
画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在しないとS127において判断すると、図6に示す表紙式ラベル付け処理を終了する。
図5に示すように、画像処理部35bは、S102の表紙式ラベル付け処理が終了すると、S102の表紙式ラベル付け処理において付けたラベル毎に対象ドキュメントを分割する(S103)。
次いで、結果出力部35cは、S103における分割後のドキュメントを特定のフォルダーに出力して(S104)、図5に示す動作を終了する。
次に、「複合機からスキャン」、「キーワード式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作について説明する。
画像処理システム30の制御部35は、画像入力部35aによる画像の入力の方法としての「複合機からスキャン」と、画像処理部35bによって実行される画像の処理としての「キーワード式ドキュメント分割」と、結果出力部35cによる結果の出力の方法としての「フォルダー」とからなるワークフローを実行する場合、図9に示す動作を実行する。
図9は、「複合機からスキャン」、「キーワード式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作のフローチャートである。
制御部35は、画像形成装置を介して入力された情報と、認証情報34bとに基づいて利用者のログインの処理を実行可能である。制御部35は、利用者のログインが成功している状態である場合に、図9に示す動作を実行可能である。
図9に示すように、画像入力部35aは、画像形成装置のスキャナーによって原稿から画像が読み取られると、画像形成装置のスキャナーによって原稿から読み取られた画像を記憶部34に記憶する(S201)。
次いで、画像処理部35bは、S201において記憶した画像であるドキュメント(以下、「複合機からスキャン」、「キーワード式ドキュメント分割」および「フォルダー」からなるワークフローを実行する場合の画像処理システム30の動作の説明において「対象ドキュメント」という。)を分割するためのラベルを、キーワードを用いて対象ドキュメントの各ページに付けるキーワード式ラベル付け処理を実行する(S202)。
図10は、図9に示すキーワード式ラベル付け処理のフローチャートである。
図10に示すように、画像処理部35bは、対象ドキュメントにおける1ページ目のみを対象にする(S221)。
次いで、画像処理部35bは、対象ページからキーワードを抽出するキーワード抽出処理を実行する(S222)。
図11は、図10に示すキーワード抽出処理のフローチャートである。
図11に示すように、画像処理部35bは、対象ページの画像の全部に対してOCRを実行する(S241)。
次いで、画像処理部35bは、S241の処理によって抽出されたテキストからキーワードを抽出する(S242)。具体的には、画像処理部35bは、S241の処理によって抽出されたテキストを単語で区切った後、このテキストにおける単語の出現頻度を取得し、出現頻度が高い上位の例えば3つなどの特定の数の単語をキーワードとして抽出する。ここで、特定の数は、操作部31または通信部33を介した指示に応じて変更されることが可能である。
画像処理部35bは、S242の処理の後、図11に示すキーワード抽出処理を終了する。
図10に示すように、画像処理部35bは、S222のキーワード抽出処理が終了すると、現在のラベルを1に設定する(S223)。
次いで、画像処理部35bは、対象ページである1ページ目に、現在のラベルである1を付ける(S224)。
次いで、画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在するか否かを判断する(S225)。
画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在するとS225において判断すると、対象ページの次のページのみを対象にする(S226)。
次いで、画像処理部35bは、キーワード抽出処理を実行する(S227)。
画像処理部35bは、S227のキーワード抽出処理が終了すると、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度以上であるか否かを判断する(S228)。
ここで、キーワード抽出処理によって抽出されるキーワードが1つのみである場合、画像処理部35bは、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとが同一であるときのみ、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度以上であるとS228において判断する。
また、キーワード抽出処理によって抽出されるキーワードが複数である場合、画像処理部35bは、例えば、対象ページから抽出したキーワードのうち、対象ページの直前のページから抽出したキーワードと同一であるものの数が、対象ページから抽出したキーワードの総数の半数未満であるとき、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度未満であるとS228において判断し、対象ページから抽出したキーワードのうち、対象ページの直前のページから抽出したキーワードと同一であるキーワードの数が、対象ページから抽出したキーワードの総数の半数以上であるとき、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度以上であるとS228において判断しても良い。
更に、キーワード抽出処理によって抽出されるキーワードが複数である場合、画像処理部35bは、例えば、対象ページから抽出したキーワードのうち、対象ページの直前のページから抽出したキーワードと同一であるものの数が、対象ページから抽出したキーワードの総数の半数以上であったとしても、対象ページの直前のページにおける各キーワードの出現割合、すなわち、対象ページの直前のページにおける全ての単語の数に対する各キーワードの出現頻度の割合と、対象ページにおける各キーワードの出現割合、すなわち、対象ページにおける全ての単語の数に対する各キーワードの出現頻度の割合とが特定の程度以上に変化しているとき、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度未満であるとS228において判断しても良い。
画像処理部35bは、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度未満であるとS228において判断すると、現在のラベルを1つ増加させる(S229)。
画像処理部35bは、対象ページの直前のページから抽出したキーワードと、対象ページから抽出したキーワードとの類似度が特定の類似度以上であるとS228において判断するか、S229の処理が終了すると、対象ページに、現在のラベルを付ける(S230)。
画像処理部35bは、S230の処理が終了すると、S225の処理を実行する。
画像処理部35bは、対象ドキュメントに、対象ページの次のページが存在しないとS225において判断すると、図10に示すキーワード式ラベル付け処理を終了する。
図9に示すように、画像処理部35bは、S202のキーワード式ラベル付け処理が終了すると、S202のキーワード式ラベル付け処理において付けたラベル毎に対象ドキュメントを分割する(S203)。
次いで、結果出力部35cは、S203における分割後のドキュメントを特定のフォルダーに出力して(S204)、図9に示す動作を終了する。
以上に説明したように、画像処理システム30は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合(S102〜S103)に、ドキュメントにおける1ページ目に対応するテンプレートが登録されていないとき(S123でNO)、1ページ目の画像をテンプレートとして追加する(S124)ので、表紙のテンプレートの追加の作業を容易化することができる。
画像処理システム30は、テンプレートに対して部分OCR箇所が設定されている場合(S143でYES、または、S163でYES)に、ドキュメントのページの画像のうち、このテンプレートに設定されている部分OCR箇所に相当する部分に対してのみOCRを実行し(S145またはS165)、このOCRの処理によって抽出されたテキストと、このテンプレートとに基づいて、このページが表紙であるか否かを判定する(S146〜S147、または、S166〜S167)ので、このページの画像の全部に対してOCRを実行する場合と比較して、OCRの実行時間を短縮することができる。
画像処理システム30は、ドキュメントにおけるいずれかのページに対応するテンプレートが登録されている場合(S146でYES、または、S166でYES)に、このテンプレートに対して部分OCR箇所が設定されていないとき(S148でNO、または、S168でNO)、ドキュメントにおいてテンプレートに対応するページと、このテンプレートとの共通部分の箇所を、このテンプレートの部分OCR箇所として設定する(S150またはS170)ので、テンプレートの部分OCR箇所の設定の作業を容易化することができる。
画像処理システム30は、本実施の形態において、利用者が所属するグループ毎にテンプレート情報を記憶部34に記憶し、ログイン中の利用者のグループのテンプレート情報を使用してドキュメントを分割する。しかしながら、画像処理システム30は、利用者毎にテンプレート情報を記憶部34に記憶し、ログイン中の利用者のテンプレート情報を使用してドキュメントを分割しても良い。また、画像処理システム30は、全ての利用者に共通のテンプレート情報を記憶部34に記憶し、全ての利用者に共通のテンプレート情報を使用してドキュメントを分割しても良い。
画像処理システム30は、本実施の形態において、対象ドキュメントにおける1ページ目の画像に対応するテンプレートをテンプレート情報に追加する(S124)。画像処理システム30は、対象ドキュメントにおける1ページ目の画像に対応するテンプレートをテンプレート情報に追加する方法に加えて、操作部31または通信部33を介した指示に応じた任意のテンプレートをテンプレート情報に追加しても良い。
30 画像処理システム(コンピューター)
34a 画像処理プログラム
35b 画像処理部
34a 画像処理プログラム
35b 画像処理部
Claims (4)
- 画像を処理する画像処理部を備え、
前記画像処理部は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、前記ドキュメントにおける1ページ目に対応する前記テンプレートが登録されていないとき、前記1ページ目の画像を前記テンプレートとして追加することを特徴とする画像処理システム。 - 前記画像処理部は、前記テンプレートに対して、部分的にOCRが実行される箇所としての部分OCR箇所が設定されている場合に、前記ドキュメントのページの画像のうち、このテンプレートに設定されている前記部分OCR箇所に相当する部分に対してのみOCRを実行し、このOCRの処理によって抽出されたテキストと、このテンプレートとに基づいて、このページが表紙であるか否かを判定することを特徴とする請求項1に記載の画像処理システム。
- 前記画像処理部は、前記ドキュメントにおけるいずれかのページに対応する前記テンプレートが登録されている場合に、このテンプレートに対して前記部分OCR箇所が設定されていないとき、前記ドキュメントにおいて前記テンプレートに対応するページと、このテンプレートとの共通部分の箇所を、このテンプレートの前記部分OCR箇所として設定することを特徴とする請求項2に記載の画像処理システム。
- 画像を処理する画像処理部をコンピューターに実現させ、
前記画像処理部は、複数のページの画像を含むドキュメントを表紙のテンプレートを用いて複数に分割する場合に、前記ドキュメントにおける1ページ目に対応する前記テンプレートが登録されていないとき、前記1ページ目の画像を前記テンプレートとして追加することを特徴とする画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019071284A JP2020170942A (ja) | 2019-04-03 | 2019-04-03 | 画像処理システムおよび画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019071284A JP2020170942A (ja) | 2019-04-03 | 2019-04-03 | 画像処理システムおよび画像処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020170942A true JP2020170942A (ja) | 2020-10-15 |
Family
ID=72746109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019071284A Pending JP2020170942A (ja) | 2019-04-03 | 2019-04-03 | 画像処理システムおよび画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020170942A (ja) |
-
2019
- 2019-04-03 JP JP2019071284A patent/JP2020170942A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8817276B2 (en) | Image processing apparatus and data processing method for managing log information related to a job processing request | |
JP2006174462A (ja) | 情報処理方法及び情報処理装置 | |
US11144189B2 (en) | Determination and relocation of movement targets based on a drag-and-drop operation of a thumbnail across document areas | |
US10306085B2 (en) | Information processing apparatus, control method of information processing apparatus, and recording medium | |
JP2016162134A (ja) | 携帯機器、画像形成システムおよび機能拡張プログラム | |
CN103377277A (zh) | 文档管理装置以及文档管理方法 | |
JP5382059B2 (ja) | 画像処理システム、画像処理装置およびプログラム | |
JP2007036406A (ja) | 画像編集装置 | |
JP7192321B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2010262584A (ja) | 情報処理装置、情報処理システム、情報処理方法およびプログラム | |
JP6262708B2 (ja) | 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 | |
KR20110115553A (ko) | 전자적 문서의 라우팅 방법 및 복합기 시스템 | |
US9875068B2 (en) | Information processing system, information processing apparatus, and information processing method for facilitating job parameter setting | |
US20070061377A1 (en) | Document management system and control method thereof | |
JP2007312225A (ja) | データ処理装置、並びに当該装置で実行されるデータ処理方法及びデータ処理プログラム | |
JP2020170942A (ja) | 画像処理システムおよび画像処理プログラム | |
JP5440043B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2020170334A (ja) | 画像処理システムおよび画像処理プログラム | |
US20210409555A1 (en) | Information processing system, data output system, image processing method, and recording medium | |
JP2019117987A (ja) | 画像処理装置 | |
JP2020060895A (ja) | 文書ファイリングシステム | |
JP2016046745A (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
JP2015187848A (ja) | 文書管理システム、画像処理装置、情報処理装置、文書管理方法およびプログラム | |
JP2016177387A (ja) | 情報処理装置、システム、情報処理方法およびプログラム | |
US20210289078A1 (en) | Information processing apparatus, method, and non-transitory computer readable medium |