JP2013246697A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2013246697A JP2013246697A JP2012120871A JP2012120871A JP2013246697A JP 2013246697 A JP2013246697 A JP 2013246697A JP 2012120871 A JP2012120871 A JP 2012120871A JP 2012120871 A JP2012120871 A JP 2012120871A JP 2013246697 A JP2013246697 A JP 2013246697A
- Authority
- JP
- Japan
- Prior art keywords
- storage server
- index
- ocr
- server device
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】適切な検索結果が得られるようにすることを目的とする。
【解決手段】スキャンデータのジョブの指示書の接続先情報に基づいて接続するストレージサーバー装置を選択する選択手段と、選択手段で選択されたストレージサーバー装置に接続する接続手段と、接続手段で接続されたストレージサーバー装置よりインデックスを取得する取得手段と、キーワード辞書に登録されているキーワード及び取得手段で取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合手段と、照合手段での照合の結果、OCR処理結果と一致したキーワード又はインデックスをスキャンデータに付加し、接続されたストレージサーバー装置に登録する登録手段と、を有することによって課題を解決する。
【選択図】図8
【解決手段】スキャンデータのジョブの指示書の接続先情報に基づいて接続するストレージサーバー装置を選択する選択手段と、選択手段で選択されたストレージサーバー装置に接続する接続手段と、接続手段で接続されたストレージサーバー装置よりインデックスを取得する取得手段と、キーワード辞書に登録されているキーワード及び取得手段で取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合手段と、照合手段での照合の結果、OCR処理結果と一致したキーワード又はインデックスをスキャンデータに付加し、接続されたストレージサーバー装置に登録する登録手段と、を有することによって課題を解決する。
【選択図】図8
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来技術として、読取装置等で原稿の電子化を行いOCR(Optical Character Reader)処理を実施し、OCR結果とキーワード辞書とを比較し、一致するキーワードを抽出する技術がある。ここで、キーワードとは、OCR結果との比較時に利用する単語を意味する。また、キーワード辞書とは複数のキーワードを記憶装置等に登録したデータのことを意味する。通常、このキーワード辞書に登録されたキーワードがOCR結果との比較用に順次利用される。
この技術を活用したシステムとして以下のようなシステムがある。クライアント装置、データ処理サーバー、ストレージサーバーで構成されるシステムであり、まずクライアント装置でスキャンしたデータをデータ処理サーバーに送信する。次にデータ処理サーバーでは、受信したデータに対しOCRを実施して、事前登録したキーワード辞書と比較を実施する。比較の結果一致した場合、データと共に一致したキーワードをインデックスとしてストレージサーバーに登録するシステムである。ここでのインデックスとは、ストレージサーバーにデータを登録する際に、検索の利便性を向上するために付加する単語を意味する。ユーザーはストレージサーバーに対して検索を実施する際、付加したインデックスを指定し登録したデータを検索する。また、前述したキーワードとの差異は、単語を登録するサーバーの違い及び用途のみでありキーワードをインデックスとして使用することもその逆も可能である。
この技術を活用したシステムとして以下のようなシステムがある。クライアント装置、データ処理サーバー、ストレージサーバーで構成されるシステムであり、まずクライアント装置でスキャンしたデータをデータ処理サーバーに送信する。次にデータ処理サーバーでは、受信したデータに対しOCRを実施して、事前登録したキーワード辞書と比較を実施する。比較の結果一致した場合、データと共に一致したキーワードをインデックスとしてストレージサーバーに登録するシステムである。ここでのインデックスとは、ストレージサーバーにデータを登録する際に、検索の利便性を向上するために付加する単語を意味する。ユーザーはストレージサーバーに対して検索を実施する際、付加したインデックスを指定し登録したデータを検索する。また、前述したキーワードとの差異は、単語を登録するサーバーの違い及び用途のみでありキーワードをインデックスとして使用することもその逆も可能である。
このシステムの具体的事例として特許文献1がある。特許文献1の記載によれば、データ処理サーバーのキーワード辞書にキーワードとして"見積書"が登録されているとする。
まずデータ処理サーバーがクライアント装置でスキャンされたデータを受信し、データに対してOCRを実行する。次に、OCR結果とキーワード辞書内のキーワードを比較する。比較の結果、"見積書"がキーワード辞書及びOCR結果に存在するか否かのチェックを行う。存在した場合、"見積書"をインデックスとしてデータと共にストレージサーバーに登録するシステムである。
昨今、上述したシステムを取り巻く状況に変化が起きている。ネットワークの高速化や無料ストレージサービスの増加を背景として、上述したストレージサーバーが企業社内のイントラネット上だけでなくインターネット上にも存在するようになってきた。それにより、クライアント装置以外のクライアント(例えば携帯電話等のモバイル端末)からもストレージサーバーに対しデータ及びインデックスの登録が可能になり、ユーザー利便性が向上してきている。
まずデータ処理サーバーがクライアント装置でスキャンされたデータを受信し、データに対してOCRを実行する。次に、OCR結果とキーワード辞書内のキーワードを比較する。比較の結果、"見積書"がキーワード辞書及びOCR結果に存在するか否かのチェックを行う。存在した場合、"見積書"をインデックスとしてデータと共にストレージサーバーに登録するシステムである。
昨今、上述したシステムを取り巻く状況に変化が起きている。ネットワークの高速化や無料ストレージサービスの増加を背景として、上述したストレージサーバーが企業社内のイントラネット上だけでなくインターネット上にも存在するようになってきた。それにより、クライアント装置以外のクライアント(例えば携帯電話等のモバイル端末)からもストレージサーバーに対しデータ及びインデックスの登録が可能になり、ユーザー利便性が向上してきている。
上述した昨今の状況変化の中で、上述文献1の方法によるインデックスの登録には課題がある。
例えば、クライアント装置以外からストレージサーバーに対して、企業内で新設された部署名である「営業3課」という文字列がインデックスとして登録されているとする。一方、クライアント装置から新しい部署名である「営業3課」という文字が含まれた文書をスキャンした際に、データ処理サーバーでは、「営業3課」というキーワードがキーワード辞書に登録されていない。何故ならば、キーワード辞書のキーワード管理(登録、削除、更新)は、通常システムの構築時及び定期的なシステムメンテナンス時に実施されるため、ユーザーにより随時インデックスが更新されるストレージサーバーとは保持している単語に差分がある。
そのためOCR結果との比較処理に「営業3課」が利用できず、ストレージサーバーに対してデータに紐づけて「営業3課」というキーワードをインデックスとして登録することができない。
最終的にユーザーがストレージサーバーにおいて「営業3課」という文字列を使って登録文書の検索を実施した場合、キーワードが適合せずにユーザーが所望する検索結果を得られないという課題がある。
例えば、クライアント装置以外からストレージサーバーに対して、企業内で新設された部署名である「営業3課」という文字列がインデックスとして登録されているとする。一方、クライアント装置から新しい部署名である「営業3課」という文字が含まれた文書をスキャンした際に、データ処理サーバーでは、「営業3課」というキーワードがキーワード辞書に登録されていない。何故ならば、キーワード辞書のキーワード管理(登録、削除、更新)は、通常システムの構築時及び定期的なシステムメンテナンス時に実施されるため、ユーザーにより随時インデックスが更新されるストレージサーバーとは保持している単語に差分がある。
そのためOCR結果との比較処理に「営業3課」が利用できず、ストレージサーバーに対してデータに紐づけて「営業3課」というキーワードをインデックスとして登録することができない。
最終的にユーザーがストレージサーバーにおいて「営業3課」という文字列を使って登録文書の検索を実施した場合、キーワードが適合せずにユーザーが所望する検索結果を得られないという課題がある。
本発明はこのような問題点に鑑みなされたもので、適切な検索結果が得られるようにすることを目的とする。
そこで、本発明は、スキャンデータのジョブの指示書の接続先情報に基づいて接続するストレージサーバー装置を選択する選択手段と、前記選択手段で選択された前記ストレージサーバー装置に接続する接続手段と、前記接続手段で接続された前記ストレージサーバー装置よりインデックスを取得する取得手段と、キーワード辞書に登録されているキーワード及び前記取得手段で取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合手段と、前記照合手段での照合の結果、前記OCR処理結果と一致したキーワード又はインデックスを前記スキャンデータに付加し、前記接続された前記ストレージサーバー装置に登録する登録手段と、を有する。
本発明によれば、適切な検索結果が得られるようにすることができる。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、データ処理システムのシステム構成の一例を示す図である。
本システムはネットワーク100を介して接続される、クライアント装置101、データ処理サーバー装置(データ処理サーバー)102、ストレージサーバー装置(ストレージサーバー)103、から構成される。クライアント装置、データ処理サーバー装置、ストレージサーバー装置は何れも、コンピュータ等の情報処理装置によって提供される。
ネットワーク100は、各装置間で通信を行うための基盤であって、イントラネット、インターネット若しくはその他のネットワークシステムであってもよい。
クライアント装置101は、MFP(Multiple Function Peripheral)等でもよい。
また、データ処理サーバー102は、クライアント装置101からのリクエストに応じてジョブを処理し、ストレージサーバー103へデータを登録する機能を持っている。
ストレージサーバー103は、データ処理サーバー102からのリクエストに応じてデータ及びインデックスの登録やインデックスの返却、各種リクエスト指示を実行する。
図1は、データ処理システムのシステム構成の一例を示す図である。
本システムはネットワーク100を介して接続される、クライアント装置101、データ処理サーバー装置(データ処理サーバー)102、ストレージサーバー装置(ストレージサーバー)103、から構成される。クライアント装置、データ処理サーバー装置、ストレージサーバー装置は何れも、コンピュータ等の情報処理装置によって提供される。
ネットワーク100は、各装置間で通信を行うための基盤であって、イントラネット、インターネット若しくはその他のネットワークシステムであってもよい。
クライアント装置101は、MFP(Multiple Function Peripheral)等でもよい。
また、データ処理サーバー102は、クライアント装置101からのリクエストに応じてジョブを処理し、ストレージサーバー103へデータを登録する機能を持っている。
ストレージサーバー103は、データ処理サーバー102からのリクエストに応じてデータ及びインデックスの登録やインデックスの返却、各種リクエスト指示を実行する。
図2は、クライアント装置101のハードウェア構成の一例を示す図である。
CPU201は、クライアント装置101の全体を制御する。RAM202は、CPU201のワークエリアを提供する。読取装置203は、画像を読み取る。印刷装置204は、画像を印刷する。記憶装置205(HDDやNVRAM等でもよい)は、プログラムや様々な設定を記憶する。ユーザー入力装置206は、ユーザーがコマンドの入力を行うのに用いる。UI表示装置207は、画面表示を行う。ネットワーク装置208は、他機器とネットワークによる通信を行う。メインバス200は、各装置を接続する。尚、本実施形態は特に断らない限り、クライアント装置101は、CPU201がメインバス200を介して各装置を制御し実施する。また、タッチパネルディスプレイのようにUI表示装置207がユーザー入力装置206を兼ねても良い。
つまり、CPU201が、記憶装置205に記憶されたプログラムに基づき処理を実行することによって、クライアント装置101の機能が実現される。
CPU201は、クライアント装置101の全体を制御する。RAM202は、CPU201のワークエリアを提供する。読取装置203は、画像を読み取る。印刷装置204は、画像を印刷する。記憶装置205(HDDやNVRAM等でもよい)は、プログラムや様々な設定を記憶する。ユーザー入力装置206は、ユーザーがコマンドの入力を行うのに用いる。UI表示装置207は、画面表示を行う。ネットワーク装置208は、他機器とネットワークによる通信を行う。メインバス200は、各装置を接続する。尚、本実施形態は特に断らない限り、クライアント装置101は、CPU201がメインバス200を介して各装置を制御し実施する。また、タッチパネルディスプレイのようにUI表示装置207がユーザー入力装置206を兼ねても良い。
つまり、CPU201が、記憶装置205に記憶されたプログラムに基づき処理を実行することによって、クライアント装置101の機能が実現される。
図3は、データ処理サーバー102やストレージサーバー103のハードウェア構成の一例を示す図である。尚、以下、図3では説明の簡略化のため、データ処理サーバー102のハードウェア構成として説明を行う。
CPU301は、データ処理サーバー102の全体を制御する。RAM302は、CPU301のワークエリアを提供する。記憶装置303は、プログラム、設定を記憶する。ネットワーク装置304は、他機器とネットワークによる通信を行う。メインバス300は、各装置を接続する。
尚、本実施形態は特に断らない限り、CPU301がメインバス300を介して各装置を制御して実施する。
つまり、CPU301が、記憶装置303に記憶されたプログラムに基づき処理を実行することによって、データ処理サーバー102の機能及び後述するデータ処理サーバー102に係るフローチャートの各ステップの処理が実現される。
同様に、ストレージサーバー103のCPUが、ストレージサーバー103の記憶装置に記憶されたプログラムに基づき処理を実行することによって、ストレージサーバー103の機能が実現される。
CPU301は、データ処理サーバー102の全体を制御する。RAM302は、CPU301のワークエリアを提供する。記憶装置303は、プログラム、設定を記憶する。ネットワーク装置304は、他機器とネットワークによる通信を行う。メインバス300は、各装置を接続する。
尚、本実施形態は特に断らない限り、CPU301がメインバス300を介して各装置を制御して実施する。
つまり、CPU301が、記憶装置303に記憶されたプログラムに基づき処理を実行することによって、データ処理サーバー102の機能及び後述するデータ処理サーバー102に係るフローチャートの各ステップの処理が実現される。
同様に、ストレージサーバー103のCPUが、ストレージサーバー103の記憶装置に記憶されたプログラムに基づき処理を実行することによって、ストレージサーバー103の機能が実現される。
図4は、実施形態1のデータ処理システムを構成する各装置のソフトウェア構成の一例を示す図である。図4に示す各機能部は、クライアント装置101/データ処理サーバー102・ストレージサーバー103のそれぞれが有しているCPU201/CPU301がプログラムを実行することにより実現される。
クライアント装置101は、アプリケーション430を有している。アプリケーション430は、クライアント装置101が有しているCPU201がプログラムを実行することにより実現される。データ処理サーバー102、ストレージサーバー103は、SOAPプロトコルに従ってリクエスト/レスポンスを送受信するWebサーバーに限定するものではない。
アプリケーション430は、通信部431、データ処理部432、画面表示部433を有する。通信部431は、SOAP又はHTTPプロトコルに従って、データ処理サーバー102の通信部424を介してWebアプリケーション420のプログラム処理部422と通信する。
より具体的には、アプリケーション430は、画面表示部433で表示した設定画面を介して入力される値に基づき、データ処理部432でジョブの指示書を生成する。そして、クライアント装置101の読取装置203でジョブの指示書の設定で読取る。読み取られた電子データ及びジョブの指示書は、通信部431及びデータ処理サーバー102のWebアプリケーション420の通信部424を介し、プログラム処理部422に送信される。
クライアント装置101は、アプリケーション430を有している。アプリケーション430は、クライアント装置101が有しているCPU201がプログラムを実行することにより実現される。データ処理サーバー102、ストレージサーバー103は、SOAPプロトコルに従ってリクエスト/レスポンスを送受信するWebサーバーに限定するものではない。
アプリケーション430は、通信部431、データ処理部432、画面表示部433を有する。通信部431は、SOAP又はHTTPプロトコルに従って、データ処理サーバー102の通信部424を介してWebアプリケーション420のプログラム処理部422と通信する。
より具体的には、アプリケーション430は、画面表示部433で表示した設定画面を介して入力される値に基づき、データ処理部432でジョブの指示書を生成する。そして、クライアント装置101の読取装置203でジョブの指示書の設定で読取る。読み取られた電子データ及びジョブの指示書は、通信部431及びデータ処理サーバー102のWebアプリケーション420の通信部424を介し、プログラム処理部422に送信される。
データ処理サーバー102は、Webアプリケーション420を含む。更に、Webアプリケーション420には、プレゼンテーション部421、プログラム処理部422、通信部424、インデックス処理部423、画像処理部425、キーワード辞書426が含まれる。
プレゼンテーション部421は、キーワード辞書426の編集画面を提供する。
プレゼンテーション部421は、通信部424を介した、ユーザーのWebブラウザーからのアクセスに基づき、キーワード辞書の編集画面をHTMLで生成しクライアントのWebブラウザーに表示する。また、プレゼンテーション部421は、ユーザーの入力値に応じて適宜、プログラム処理部422及びインデックス処理部423を介してキーワード辞書426の更新を行う。キーワード辞書の編集は、ユーザーシステムのシステム管理者によりシステムメンテナンス時に実施される。
プレゼンテーション部421は、キーワード辞書426の編集画面を提供する。
プレゼンテーション部421は、通信部424を介した、ユーザーのWebブラウザーからのアクセスに基づき、キーワード辞書の編集画面をHTMLで生成しクライアントのWebブラウザーに表示する。また、プレゼンテーション部421は、ユーザーの入力値に応じて適宜、プログラム処理部422及びインデックス処理部423を介してキーワード辞書426の更新を行う。キーワード辞書の編集は、ユーザーシステムのシステム管理者によりシステムメンテナンス時に実施される。
プログラム処理部422は、通信部424から送信されたクライアント装置101からのジョブの指示書に基づき受信データに対して処理を行う。プログラム処理部422は、ジョブの指示書に基づき画像処理部425にOCR処理を指示する。また、プログラム処理部422は、データ及び一致したキーワード1001をストレージサーバー103のWebアプリケーション410に対して通信部412を介しデータ処理部413に送信する。更に、プログラム処理部422は、プレゼンテーション部421からの入力に基づきインデックス処理部423に対しキーワード辞書426の更新を指示する。
インデックス処理部423は、プログラム処理部422からの処理依頼に対してOCR結果とキーワード辞書426に含まれたキーワード1000との比較処理を実施する。また、インデックス処理部423は、プログラム処理部422の指示に基づき、キーワード1000の管理(登録、削除等)を指示する。
通信部424は、ネットワーク装置304を介してSOAP又はHTTPプロトコルにより通信を行うソフトウェアモジュールである。
画像処理部425は、プログラム処理部422の依頼に基づき、OCR処理等の画像処理を実施、処理結果をプログラム処理部422に返却する。
キーワード辞書426は、インデックス処理部423の指示に基づき、キーワード1000の管理(登録、削除等)を行う。
インデックス処理部423は、プログラム処理部422からの処理依頼に対してOCR結果とキーワード辞書426に含まれたキーワード1000との比較処理を実施する。また、インデックス処理部423は、プログラム処理部422の指示に基づき、キーワード1000の管理(登録、削除等)を指示する。
通信部424は、ネットワーク装置304を介してSOAP又はHTTPプロトコルにより通信を行うソフトウェアモジュールである。
画像処理部425は、プログラム処理部422の依頼に基づき、OCR処理等の画像処理を実施、処理結果をプログラム処理部422に返却する。
キーワード辞書426は、インデックス処理部423の指示に基づき、キーワード1000の管理(登録、削除等)を行う。
ストレージサーバー103は、Webアプリケーション410を有する。更に、Webアプリケーション410には、プレゼンテーション部411、通信部412、データ処理部413、ストレージ部414が含まれる。
プレゼンテーション部411は、ストレージ部414に保存されたデータを管理するための管理画面を提供する。この管理画面では、インデックスを利用したデータ検索、データ及びインデックス1002の登録が可能である。更に、管理画面には携帯等のモバイル端末からのアクセスが可能である。
データ処理部413は、通信部412を介してデータ処理サーバー102からのリクエストを解釈し、必要に応じてストレージ部414へのデータ及びインデックス1002の登録を行う。また、データ処理部413は、プレゼンテーション部411からのリクエストを解釈し、ストレージ部414に対してデータ及びインデックス1002の管理(検索、保存、削除等)を行う。
ストレージ部414は、データ処理部からの指示に要求に基づき、データ管理を実施する。
通信部412は、ネットワーク装置304を操作してSOAP又はHTTPプロトコルにより通信を行うソフトウェアモジュールである。
プレゼンテーション部411は、ストレージ部414に保存されたデータを管理するための管理画面を提供する。この管理画面では、インデックスを利用したデータ検索、データ及びインデックス1002の登録が可能である。更に、管理画面には携帯等のモバイル端末からのアクセスが可能である。
データ処理部413は、通信部412を介してデータ処理サーバー102からのリクエストを解釈し、必要に応じてストレージ部414へのデータ及びインデックス1002の登録を行う。また、データ処理部413は、プレゼンテーション部411からのリクエストを解釈し、ストレージ部414に対してデータ及びインデックス1002の管理(検索、保存、削除等)を行う。
ストレージ部414は、データ処理部からの指示に要求に基づき、データ管理を実施する。
通信部412は、ネットワーク装置304を操作してSOAP又はHTTPプロトコルにより通信を行うソフトウェアモジュールである。
図5は、実施形態1におけるデータ処理サーバー102でのインデックス処理に関する一例を示すフローチャートである。本フローチャートの前までにクライアント装置101の画面表示部433において、ユーザーが選択した設定に基づきデータ処理部432でジョブの指示書が生成されジョブが実行される。そしてクライアント装置101からストレージサーバー103に登録すべきデータ及びジョブの指示書がデータ処理サーバー102に送付されている状態とする。
まず、データ処理サーバー102のプログラム処理部422において実行対象のジョブの指示書を解析する。プログラム処理部422は、解析結果に基づき画像処理部425及びインデックス処理部423に処理を依頼する。
ステップ501では、クライアント装置101から受信したデータをプログラム処理部422から画像処理部425に送信してOCR処理を実施する。
ステップ502では、プログラム処理部422は、ジョブの指示書にある接続先情報601を取得する。
まず、データ処理サーバー102のプログラム処理部422において実行対象のジョブの指示書を解析する。プログラム処理部422は、解析結果に基づき画像処理部425及びインデックス処理部423に処理を依頼する。
ステップ501では、クライアント装置101から受信したデータをプログラム処理部422から画像処理部425に送信してOCR処理を実施する。
ステップ502では、プログラム処理部422は、ジョブの指示書にある接続先情報601を取得する。
ステップ503では、プログラム処理部422は、取得した接続先情報601に基づきストレージサーバー103にログインする。
ステップ504では、プログラム処理部422は、ストレージサーバー103からストレージ部414に保存されているインデックス1002を取得する。
ステップ505では、取得したインデックス1002をプログラム処理部422からインデックス処理部423にOCR結果と共に送付する。そしてインデックス処理部423では、ストレージサーバー103から取得したインデックス1002及びキーワード辞書426から取得したキーワード1001を用いて、OCR結果との照合処理を実施する。
ステップ504では、プログラム処理部422は、ストレージサーバー103からストレージ部414に保存されているインデックス1002を取得する。
ステップ505では、取得したインデックス1002をプログラム処理部422からインデックス処理部423にOCR結果と共に送付する。そしてインデックス処理部423では、ストレージサーバー103から取得したインデックス1002及びキーワード辞書426から取得したキーワード1001を用いて、OCR結果との照合処理を実施する。
ステップ506では、プログラム処理部422は、照合処理の結果に基づき、一致したキーワード1001又はインデックス1002があるか否かを判定する。一致したキーワード1001又はインデックス1002がある場合、プログラム処理部422は、処理をステップ507に進める。一方、一致したキーワード1001又はインデックス1002がない場合、プログラム処理部422は、データのみをストレージサーバー103に保存し、図5に示す処理を終了する。
ステップ507で、プログラム処理部422は、キーワード1001又はインデックス1002をデータと共にストレージサーバー103に送信し、ストレージ部414に登録させる。一致した単語がキーワードだった場合でも、キーワードとインデックスとは相互利用が可能であるので、インデックスとしてキーワードを登録することができる。尚、このことは、後述する図7の説明で詳細を記載する。
このようにデータ処理サーバー102にてインデックス1002の取得処理及びそれを活用したOCR処理結果との照合処理を実施することにより、スキャンデータに即した適切なインデックス1002を付加してストレージサーバー103に登録することができる。
ステップ507で、プログラム処理部422は、キーワード1001又はインデックス1002をデータと共にストレージサーバー103に送信し、ストレージ部414に登録させる。一致した単語がキーワードだった場合でも、キーワードとインデックスとは相互利用が可能であるので、インデックスとしてキーワードを登録することができる。尚、このことは、後述する図7の説明で詳細を記載する。
このようにデータ処理サーバー102にてインデックス1002の取得処理及びそれを活用したOCR処理結果との照合処理を実施することにより、スキャンデータに即した適切なインデックス1002を付加してストレージサーバー103に登録することができる。
図6は、ジョブの指示書600のフォーマットの一例を示す図である。ジョブの指示書は、クライアント装置101の画面表示部433でユーザーが選択した設定項目に基づき、データ処理部432で生成される。ユーザーが選択する設定項目の選択肢としては、スキャン設定、画像処理設定、送信先設定等がある。ジョブの指示書は、XML書式で記載されており、ジョブ実行に必要な以下の4つの要素で構成されている。
1つ目は、Header要素で指示書に関する概要的な情報が定義されている。2つ目は、ScanSetting要素でクライアント装置101におけるスキャン実行時のセッティング情報が記載されている。3つ目は、ImageProcesserSetting要素でデータ処理サーバー102におけるスキャン画像の画像処理に関する設定情報が定義されている。4つ目は、CloudSetting要素であり、クライアント装置101でスキャンしたデータ及びインデックス1002の登録及び取得先でもあるストレージサーバー103に関する接続先情報601が定義されている。
1つ目は、Header要素で指示書に関する概要的な情報が定義されている。2つ目は、ScanSetting要素でクライアント装置101におけるスキャン実行時のセッティング情報が記載されている。3つ目は、ImageProcesserSetting要素でデータ処理サーバー102におけるスキャン画像の画像処理に関する設定情報が定義されている。4つ目は、CloudSetting要素であり、クライアント装置101でスキャンしたデータ及びインデックス1002の登録及び取得先でもあるストレージサーバー103に関する接続先情報601が定義されている。
図7は、キーワード辞書426及びストレージ部414に保存されるキーワード及びインデックスの実体を示す図である。
キーワード辞書426及びストレージ部414には、複数のキーワード及びインデックスがCSV形式で登録されている(1000、1004)。1001は、個々のキーワードを表わす。1002は、個々のインデックスを表す。区切り子1003により各データが区切られている。また、各キーワード及びインデックスの更新日時等の属性情報は、キーワード辞書426及びストレージサーバー103に保存されている。
このように、CSV形式で登録されているキーワード1000及びインデックス1004の個々のキーワード1001及びインデックス1002は異なるが、同じデータ形式で保存されている。これにより、データ処理サーバー102及びストレージサーバー103によるキーワード1001とインデックス1002との相互利用が可能となる。
キーワード辞書426及びストレージ部414には、複数のキーワード及びインデックスがCSV形式で登録されている(1000、1004)。1001は、個々のキーワードを表わす。1002は、個々のインデックスを表す。区切り子1003により各データが区切られている。また、各キーワード及びインデックスの更新日時等の属性情報は、キーワード辞書426及びストレージサーバー103に保存されている。
このように、CSV形式で登録されているキーワード1000及びインデックス1004の個々のキーワード1001及びインデックス1002は異なるが、同じデータ形式で保存されている。これにより、データ処理サーバー102及びストレージサーバー103によるキーワード1001とインデックス1002との相互利用が可能となる。
以上、本実施形態によれば、保存先のストレージサーバーから最新のインデックスを取得し、スキャンデータのインデックスとして利用できることで、ストレージサーバーへのデータ登録時に適切なインデックスを登録できるようになる。これにより、ユーザーに対してデータ検索時の確実性を向上させることができる。
<実施形態2>
次に、実施形態2について説明する。
実施形態1では、データ処理サーバー102がストレージサーバー103からインデックス1002を取得し、キーワード辞書426のキーワード1000と共に照合処理に利用する方法について説明した。実施形態2では、データ処理サーバー102における更新日時を利用した照合処理について説明する。尚、システム構成、ハードウェア構成、ソフトウェア構成等は、実施形態1と同じである。
次に、実施形態2について説明する。
実施形態1では、データ処理サーバー102がストレージサーバー103からインデックス1002を取得し、キーワード辞書426のキーワード1000と共に照合処理に利用する方法について説明した。実施形態2では、データ処理サーバー102における更新日時を利用した照合処理について説明する。尚、システム構成、ハードウェア構成、ソフトウェア構成等は、実施形態1と同じである。
図8は、実施形態2におけるデータ処理サーバー102でのインデックス処理に関する一例を示すフローチャートである。尚、図5のフローチャートと同様に、本処理前にクライアント装置101からデータ処理サーバー102に必要な操作及びデータ送付が完了済みであるとする。ステップ701〜703までは、ステップ501〜503までと同様なため説明は省略する。
ステップ704では、プログラム処理部422は、キーワード辞書426に保存されているキーワード1000の最新の更新日時をチェックする。
ステップ705では、プログラム処理部422は、ストレージサーバー103からインデックス1002の更新日時を取得する。プログラム処理部422は、取得したインデックス1002の更新日時情報とキーワード1000の更新日時とを比較し、キーワード1000よりも新しいインデックス1002が存在するか否かをチェックする。
存在する場合、ステップ706では、プログラム処理部422は、ストレージサーバー103から該当するインデックス1002を取得する。存在しない場合は、プログラム処理部422は、インデックス1002は取得しない。
ステップ707では、プログラム処理部422は、インデックス1002を取得した場合、各インデックス及びキーワード1001を使用する。インデックス1002を取得しなかった場合、プログラム処理部422は、キーワード1000のみを利用してOCR処理結果との照合処理を実施する。
ステップ709、710は、ステップ507、508と同様なため説明は省略する。
ステップ704では、プログラム処理部422は、キーワード辞書426に保存されているキーワード1000の最新の更新日時をチェックする。
ステップ705では、プログラム処理部422は、ストレージサーバー103からインデックス1002の更新日時を取得する。プログラム処理部422は、取得したインデックス1002の更新日時情報とキーワード1000の更新日時とを比較し、キーワード1000よりも新しいインデックス1002が存在するか否かをチェックする。
存在する場合、ステップ706では、プログラム処理部422は、ストレージサーバー103から該当するインデックス1002を取得する。存在しない場合は、プログラム処理部422は、インデックス1002は取得しない。
ステップ707では、プログラム処理部422は、インデックス1002を取得した場合、各インデックス及びキーワード1001を使用する。インデックス1002を取得しなかった場合、プログラム処理部422は、キーワード1000のみを利用してOCR処理結果との照合処理を実施する。
ステップ709、710は、ステップ507、508と同様なため説明は省略する。
本実施形態によれば、ストレージサーバー103から、クライアント装置101以外のクライアントが登録したような、キーワード辞書426に登録されていないような最新のインデックス1002のみを取得することが可能となる。したがって、照合処理に係る処理時間を短縮し処理の効率化が図れる。
<実施形態3>
次に、実施形態3について説明する。
実施形態2では、データ処理サーバー102がストレージサーバー103からインデックス1002の更新日時情報を取得し、必要なインデックス1002のみ取得する方法について説明した。実施形態3では、ストレージサーバー103の処理能力を利用した処理方法に関して説明する。尚、システム構成やハードウェア構成等は実施形態1と同様であるがソフトウェア構成は異なる。
次に、実施形態3について説明する。
実施形態2では、データ処理サーバー102がストレージサーバー103からインデックス1002の更新日時情報を取得し、必要なインデックス1002のみ取得する方法について説明した。実施形態3では、ストレージサーバー103の処理能力を利用した処理方法に関して説明する。尚、システム構成やハードウェア構成等は実施形態1と同様であるがソフトウェア構成は異なる。
図9は、実施形態3のデータ処理システムを構成する各装置のソフトウェア構成の一例を示す図である。図9と図4とにおいて異なる箇所は、ストレージサーバー103に画像処理部415が追加されている点である。
画像処理部415では、データ処理部413からの指示によりデータ処理サーバー102から通信部412及びデータ処理部413を介してデータを取得し、OCR処理を実施する。そして、画像処理部415は、OCR処理完了後、処理結果をデータ処理部413に返却する。
データ処理部413では、返却されたOCR結果とストレージ部414に保存されているインデックス1002とを取得して照合処理を行い、一致した場合はデータをインデックス1002と関連付けてストレージ部414に保存する。上述した内容が、ソフトウェア構成において実施形態1と異なる箇所の説明である。
画像処理部415では、データ処理部413からの指示によりデータ処理サーバー102から通信部412及びデータ処理部413を介してデータを取得し、OCR処理を実施する。そして、画像処理部415は、OCR処理完了後、処理結果をデータ処理部413に返却する。
データ処理部413では、返却されたOCR結果とストレージ部414に保存されているインデックス1002とを取得して照合処理を行い、一致した場合はデータをインデックス1002と関連付けてストレージ部414に保存する。上述した内容が、ソフトウェア構成において実施形態1と異なる箇所の説明である。
図10は、実施形態3におけるデータ処理サーバー102でのインデックス処理に関する一例を示すフローチャートである。尚、図5のフローチャートと同様に、本処理前にクライアント装置101からデータ処理サーバー102に必要な操作及びデータ送付が完了済みであるとする。
ステップ801では、プログラム処理部422は、ジョブの指示書に基づき接続先情報601を取得する。
ステップ802では、プログラム処理部422は、接続先情報601に基づきストレージサーバー103にログインする。
ステップ803では、プログラム処理部422は、ストレージサーバー103にOCR機能の有無の問い合わせを実施し、機能チェックを行う。
ステップ804では、プログラム処理部422は、機能チェックの結果、ストレージサーバー103にOCR機能がある場合はステップ805に処理を進め、ストレージサーバー103にOCR機能がない場合はステップ807に処理を進める。
ステップ801では、プログラム処理部422は、ジョブの指示書に基づき接続先情報601を取得する。
ステップ802では、プログラム処理部422は、接続先情報601に基づきストレージサーバー103にログインする。
ステップ803では、プログラム処理部422は、ストレージサーバー103にOCR機能の有無の問い合わせを実施し、機能チェックを行う。
ステップ804では、プログラム処理部422は、機能チェックの結果、ストレージサーバー103にOCR機能がある場合はステップ805に処理を進め、ストレージサーバー103にOCR機能がない場合はステップ807に処理を進める。
ステップS805では、プログラム処理部422は、ストレージサーバー103にデータを送付する。
次にステップ806では、プログラム処理部422は、ストレージサーバー103に対してOCR処理及びインデックス1002の登録指示を行う。
一方、ステップ807では、プログラム処理部422は、ストレージサーバー103からインデックス1002を取得する。
次にステップ808では、クライアント装置101から受信したデータをプログラム処理部422から画像処理部425に送信してOCR処理を実施する。
ステップ809では、プログラム処理部422は、キーワード1001及び取得したインデックス1002とOCR結果との照合を実施する。
ステップ810では、プログラム処理部422は、照合の結果、一致したキーワード1001又はインデックス1002が存在するか否かを判定する。一致したキーワード1001又はインデックス1002が存在する場合、プログラム処理部422は、処理をステップ811に進める。一方、一致したキーワード1001又はインデックス1002が存在しない場合、プログラム処理部422は、データのみをストレージサーバー103に保存し、図10に示す処理を終了する。
ステップS811では、プログラム処理部422は、キーワード1001又はインデックス1002をデータと共にストレージサーバー103に送信し、ストレージ部414に登録させる。
次にステップ806では、プログラム処理部422は、ストレージサーバー103に対してOCR処理及びインデックス1002の登録指示を行う。
一方、ステップ807では、プログラム処理部422は、ストレージサーバー103からインデックス1002を取得する。
次にステップ808では、クライアント装置101から受信したデータをプログラム処理部422から画像処理部425に送信してOCR処理を実施する。
ステップ809では、プログラム処理部422は、キーワード1001及び取得したインデックス1002とOCR結果との照合を実施する。
ステップ810では、プログラム処理部422は、照合の結果、一致したキーワード1001又はインデックス1002が存在するか否かを判定する。一致したキーワード1001又はインデックス1002が存在する場合、プログラム処理部422は、処理をステップ811に進める。一方、一致したキーワード1001又はインデックス1002が存在しない場合、プログラム処理部422は、データのみをストレージサーバー103に保存し、図10に示す処理を終了する。
ステップS811では、プログラム処理部422は、キーワード1001又はインデックス1002をデータと共にストレージサーバー103に送信し、ストレージ部414に登録させる。
本実施形態によれば、ストレージサーバー103の処理能力に応じて、OCR処理及びインデックス登録をデータ処理サーバー102又はストレージサーバー103のどちらで処理するかを判断し制御することができる。これにより、データ処理サーバー102の負荷分散及びデータ処理サーバーにおけるインデックス取得の効率化を実現できる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、適切な検索結果が得られるようにすることができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
Claims (11)
- スキャンデータのジョブの指示書の接続先情報に基づいて、接続するストレージサーバー装置を選択する選択手段と、
前記選択手段で選択された前記ストレージサーバー装置に接続する接続手段と、
前記接続手段で接続された前記ストレージサーバー装置よりインデックスを取得する取得手段と、
キーワード辞書に登録されているキーワード及び前記取得手段で取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合手段と、
前記照合手段での照合の結果、前記OCR処理結果と一致したキーワード又はインデックスを前記スキャンデータに付加し、前記接続された前記ストレージサーバー装置に登録する登録手段と、
を有する情報処理装置。 - 前記スキャンデータに対してOCR処理を実行するOCR処理手段を更に有し、
前記照合手段は、キーワード辞書に登録されているキーワード及び前記取得手段で取得されたインデックスと、前記OCR処理手段でOCR処理された結果であるOCR処理結果と、を照合する請求項1記載の情報処理装置。 - 前記接続手段で接続された前記ストレージサーバー装置にOCR機能があるか否かを判定する判定手段を更に有し、
前記判定手段での判定の結果、ストレージサーバー装置にOCR機能がない場合には、前記OCR処理手段でOCR処理を実行する請求項2記載の情報処理装置。 - 前記判定手段での判定の結果、ストレージサーバー装置にOCR機能がある場合には、前記スキャンデータを前記ストレージサーバー装置に送信し、OCR処理と前記インデックスの登録とを指示する指示手段を更に有する請求項3記載の情報処理装置。
- 前記取得手段は、前記キーワード辞書の更新日時より新しいインデックスが存在する場合、前記ストレージサーバー装置よりインデックスを取得する請求項1乃至4何れか1項記載の情報処理装置。
- 情報処理装置が実行する情報処理方法であって、
スキャンデータのジョブの指示書の接続先情報に基づいて接続するストレージサーバー装置を選択する選択ステップと、
前記選択ステップで選択された前記ストレージサーバー装置に接続する接続ステップと、
前記接続ステップで接続された前記ストレージサーバー装置よりインデックスを取得する取得ステップと、
キーワード辞書に登録されているキーワード及び前記取得ステップで取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合ステップと、
前記照合ステップでの照合の結果、前記OCR処理結果と一致したキーワード又はインデックスを前記スキャンデータに付加し、前記接続された前記ストレージサーバー装置に登録する登録ステップと、
を含む情報処理方法。 - 前記スキャンデータに対してOCR処理を実行するOCR処理ステップを更に含み、
前記照合ステップでは、キーワード辞書に登録されているキーワード及び前記取得ステップで取得されたインデックスと、前記OCR処理ステップでOCR処理された結果であるOCR処理結果と、を照合する請求項6記載の情報処理方法。 - 前記接続ステップで接続された前記ストレージサーバー装置にOCR機能があるか否かを判定する判定ステップを更に含み、
前記判定ステップでの判定の結果、ストレージサーバー装置にOCR機能がない場合には、前記OCR処理ステップでOCR処理を実行する請求項7記載の情報処理方法。 - 前記判定ステップでの判定の結果、ストレージサーバー装置にOCR機能がある場合には、前記スキャンデータを前記ストレージサーバー装置に送信し、OCR処理と前記インデックスの登録とを指示する指示ステップを更に含む請求項8記載の情報処理方法。
- 前記取得ステップでは、前記キーワード辞書の更新日時より新しいインデックスが存在する場合、前記ストレージサーバー装置よりインデックスを取得する請求項6乃至9何れか1項記載の情報処理方法。
- コンピュータに、
スキャンデータのジョブの指示書の接続先情報に基づいて接続するストレージサーバー装置を選択する選択ステップと、
前記選択ステップで選択された前記ストレージサーバー装置に接続する接続ステップと、
前記接続ステップで接続された前記ストレージサーバー装置よりインデックスを取得する取得ステップと、
キーワード辞書に登録されているキーワード及び前記取得ステップで取得されたインデックスと、クライアント装置より受け取られたスキャンデータのOCR処理結果と、を照合する照合ステップと、
前記照合ステップでの照合の結果、前記OCR処理結果と一致したキーワード又はインデックスを前記スキャンデータに付加し、前記接続された前記ストレージサーバー装置に登録する登録ステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012120871A JP2013246697A (ja) | 2012-05-28 | 2012-05-28 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012120871A JP2013246697A (ja) | 2012-05-28 | 2012-05-28 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013246697A true JP2013246697A (ja) | 2013-12-09 |
Family
ID=49846396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012120871A Pending JP2013246697A (ja) | 2012-05-28 | 2012-05-28 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013246697A (ja) |
-
2012
- 2012-05-28 JP JP2012120871A patent/JP2013246697A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9354828B2 (en) | Print system, print server, control method thereof, and program | |
US20140129607A1 (en) | Information processing apparatus, information processing system, and information processing method | |
US9325784B2 (en) | Device management device and recording medium | |
US10681232B2 (en) | Image processing apparatus, method for controlling the same, and storage medium | |
US20130088751A1 (en) | Job management apparatus, job control system, and job control method | |
JP2011203964A (ja) | 文書管理システム及び方法 | |
US20180285467A1 (en) | Web server | |
JP6579013B2 (ja) | 情報処理システム、情報処理装置、情報処理方法、及びプログラム | |
US20140055804A1 (en) | Image processing apparatus, method of controlling the same and storage medium thereof | |
JP2007115137A (ja) | データ処理装置 | |
US20080246991A1 (en) | Content managing system | |
US20160373592A1 (en) | Information processing system, information processing device, and information processing method | |
US8717611B2 (en) | Image processing apparatus that updates a message on a server after an image is edited, the server providing a microblogging function | |
US9128650B2 (en) | Data processing apparatus, information processing system, control method for the same, and storage medium storing a program | |
JP2012185761A (ja) | 画像形成装置、文書データの自動編集方法およびコンピュータプログラム | |
JP2013246697A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2011013994A (ja) | 情報出力装置、情報出力システム、情報出力方法、およびプログラム | |
WO2020031347A1 (ja) | 情報紐付け支援システム | |
KR100933477B1 (ko) | 파일 송신 서버 | |
JP6015794B2 (ja) | 電子帳票システムとその処理方法及びプログラム | |
US20110235106A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20210191917A1 (en) | Information processing apparatus, information processing method, and program | |
JP2007293655A (ja) | 文書処理装置、電子文書の出力処理方法、およびプログラム | |
JP6108034B2 (ja) | 機器情報取得装置、機器情報取得システム、機器情報取得方法、及びプログラム | |
JP2009176015A (ja) | データベース検索システム、検索画面提供方法及びプログラム |