JP2016212563A - 文書解析システムおよび文書解析方法 - Google Patents

文書解析システムおよび文書解析方法 Download PDF

Info

Publication number
JP2016212563A
JP2016212563A JP2015094293A JP2015094293A JP2016212563A JP 2016212563 A JP2016212563 A JP 2016212563A JP 2015094293 A JP2015094293 A JP 2015094293A JP 2015094293 A JP2015094293 A JP 2015094293A JP 2016212563 A JP2016212563 A JP 2016212563A
Authority
JP
Japan
Prior art keywords
analysis
text data
storage destination
processing apparatus
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015094293A
Other languages
English (en)
Inventor
憲 鴇田
Ken Tokita
憲 鴇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015094293A priority Critical patent/JP2016212563A/ja
Priority to US15/130,027 priority patent/US10057449B2/en
Priority to CN201610269573.3A priority patent/CN106095765B/zh
Publication of JP2016212563A publication Critical patent/JP2016212563A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/04Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00344Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a management, maintenance, service or repair apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Abstract

【課題】スキャンした紙文書のページ数が大量にある場合、ユーザーに対して、最適な格納先を提示するまでに時間がかかってしまうといった課題がある。
【解決手段】画像処理装置と解析サーバーとを含む文書解析システムを提供する。画像処理装置は、文書をスキャンして得た画像データからテキストデータを抽出し、抽出したテキストデータを分割して得られる分割テキストデータを、解析サーバーから画像データの格納先候補を受信するまで解析サーバーに順次送信する。解析サーバーは、送信された分割テキストデータに基づいて解析を行ない、格納先候補が決定した時点で、格納先候補を画像処理装置に返信する。
【選択図】図10

Description

本発明は、スキャンして得られた画像データを所定の格納先に格納する技術に関する。
近年、法律事務所などの大量の紙文書を扱う分野において、スキャン機能を有する画像処理装置を利用して紙文書の電子化を行い、その紙文書の画像データを関連する格納先に分類して管理する仕組みが考えられている。スキャンして得た紙文書の画像データを格納する格納先については、ユーザーが手動で指定したり、過去に格納した格納先の履歴やあらかじめ登録しておいたブックマークなどを利用したりして、ユーザーが選択するという手法が採用されている。
また、文書データから抽出された文字列を使用して格納先の属性情報を検索し、検索結果を基に特定された格納先を候補としてユーザーに提示する手法も考えられている。(特許文献1参照)
特開2008−234078号公報
しかしながら、画像処理装置においてスキャンして得た紙文書のテキストデータを特許文献1に記載されているような情報処理装置に送信し、格納先の候補が送信元に通知されるような形態においては処理に時間を要することがある。例えば、スキャンした紙文書のページ数が大量にある場合、情報処理装置において全てのテキストデータの受信を待って検索処理が行なわれたり、大量のテキストデータに基づく検索処理に時間を要したりすることがある。従って、ユーザーに対して、最適な格納先を提示するまでに時間がかかってしまうといった課題がある。
本発明に係る文書解析システムは、画像処理装置と解析サーバーとを含む文書解析システムであって、前記画像処理装置は、文書をスキャンして得た画像データからテキストデータを抽出する抽出手段と、前記抽出手段で抽出したテキストデータを分割して得られる分割テキストデータを、前記解析サーバーから前記画像データの格納先候補を受信するまで前記解析サーバーに順次送信する第一の送信手段と、前記解析サーバーから受信した格納先候補を提示して、ユーザーに格納先を選択させる選択手段と、前記ユーザーによって選択された格納先に、前記文書をスキャンして得た前記画像データを送信する第二の送信手段とを有し、前記解析サーバーは、前記第一の送信手段から送信された分割テキストデータに基づいて解析を行なう解析手段と、前記解析手段での解析処理において格納先候補が決定した時点で、当該格納先候補を前記画像処理装置に返信する返信手段とを有することを特徴とする。
本発明によれば、画像処理装置におけるスキャン開始から画像処理装置において格納先候補が提示されるまでの時間を短縮することができる。
実施例にかかるシステムの構成例を示す図である。 本実施例における画像処理装置のハードウェア構成を示すブロック図である。 本実施例における解析サーバーおよびファイルサーバーのハードウェア構成を示す図である。 本実施例における解析サーバーのソフトウェア構成を説明するための図である。 実施例における画像処理装置が有するアプリケーションのソフトウェア構成を説明するための図である。 本実施例における画像処理装置の操作表示部の例である。 本実施例における画像処理装置の操作表示部の例である。 本実施例における処理のシーケンス図である。 本実施例における、格納先の候補として適している格納先情報をユーザーに選択させるための画面例である。 本実施例における、テキスト解析処理のフローチャートである。 本実施例におけるテキストサイズによって送信データを変更する処理を示したフローチャートである。
以下、本発明を実施するための形態について図面を用いて説明する。なお以下の実施例において示す構成は一例にすぎず、本発明は図示された構成に限定されるものではない。
[実施例1]
図1は、本実施例の文書解析システムの一例を示す構成例である。本システムはネットワーク100を介して接続される画像処理装置101と、解析サーバー102と、ファイルサーバー103とを有する。ネットワーク100は各装置間で通信を行うための基盤であって、イントラネット、インターネットもしくはその他のネットワークシステムであっても構わない。
画像処理装置101は、例えばWebブラウザー機能を有するMFP(Multifunction Peripheral)などで構成される。また、画像処理装置101はローカルなIPアドレスで管理されていても良い。その場合ネットワーク100と画像処理装置101の間にゲートウェイ(不図示)が存在し、ゲートウェイはアドレス変換を行う。例えばゲートウェイにはルーターが含まれる。またゲートウェイや、画像処理装置101がファイアウォール機能を備えていても良い。解析サーバー102は、ファイルサーバー103に格納されているファイルを取得しキーワードを抽出してデータベース(DB)に格納する機能を有する。また、解析サーバー102は、DBに格納されたキーワードと比較対象のテキストデータから抽出したキーワードとを比較し、類似したファイルが格納されている格納先の候補を提示する機能を有する。ファイルサーバー103は、紙文書をスキャンして得られた画像データなどのファイルを保存する機能を有する。ファイルサーバーは、画像処理装置101や解析サーバー102からリクエストに応じて、ファイルを格納したり、格納されているファイルを取得して送信したりする。
図2は画像処理装置101のハードウェア構成を示すブロック図の一例である。画像処理装置101は、制御部218と、ネットワーク部216と、画像メモリ217と、HDD219と、操作表示部212と、スキャナ部213と、プリンタ部214とを有する。制御部218は、CPU220、ROM221、及びRAM222を含む。
制御部218は、画像処理装置101の全体の動作を制御する。CPU220は、ROM221に記憶された制御プログラムを読み出して読取制御や送信制御などの各種制御処理を実行する。RAM222は、CPU220の主メモリ、ワークエリア等の一時記憶領域として用いられる。また、制御部218は、操作表示部212、スキャナ部213、プリンタ部214、及びネットワーク部216の動作を制御する。また制御部218は、画像メモリ217やHDD219から各種データを読み出したり画像メモリ217やHDD219に各種データを書き込んだりする。
操作表示部212には、タッチパネル機能を有する液晶等の表示部やキーボード等が配置されている。操作表示部212は、操作画面を操作表示部212に表示する。スキャナ部213は、原稿の画像を読み取って画像データを生成し、制御部218に出力する。プリンタ部214は、制御部218から出力された画像データをシートに印刷する。
ネットワーク部216は、スキャナ部213で読み取られて保存された画像データから抽出したテキストデータを、指定された送信先に送信する。また、ネットワーク部216は、制御部218をネットワーク100に接続して外部の情報処理装置(不図示)から印刷用の画像データを受信したり、操作表示部212で表示する画面データを受信したりする。
HDD219は、画像データや各種プログラムを記憶する。本実施例における各種プログラムも、HDD219に格納される。なお、外部の情報処理装置から受信した印刷用の画像データは、画像メモリ217に一時的に格納され、制御部218を介してプリンタ部214により印刷される。
図3は、本実施例の解析サーバー102およびファイルサーバー103のハードウェア構成図の一例である。サーバーを制御するCPU301、CPU301のワークエリアを提供するRAM302、サーバー上で動作するプログラムおよび設定を記憶する記憶部303、他機器とネットワーク100による通信を行うネットワーク部304、メインバス300を有する。
尚、本実施例は特に断らない限り、CPU301がメインバス300を介してRAM302、記憶部303、ネットワーク部304を制御して実施する。
図4は、本実施例における解析サーバー102のソフトウェア構成を説明するための図である。図4に示す各機能部は、解析サーバー102が有しているCPU301が制御プログラムを実行することにより実現される。
解析サーバー102は、通信部401、解析リクエスト受付処理部402、解析リクエスト処理部403、クローラー部404、クローラー結果処理部405、キーワード抽出部406、ファイル情報DB部407を有する。
クローラー部404は、通信部401を介して、ファイルサーバー103に格納されているファイル(電子データ)とそのファイルの格納先を示す情報とを収集する。格納先とは、例えばファイルが格納されているフォルダのことであり、格納先を示す情報とはフォルダ名やフォルダへのパス情報などのことである。クローラー部404は、ファイルサーバー103に格納される新規ファイルもしくはアップデートがあるファイルについての情報の収集を行う。すでに収集しているファイルについての情報は収集しない。クローラー部404は収集したファイルとその格納先情報とをクローラー結果処理部405に渡す。
クローラー結果処理部405は、クローラー部から受け取ったファイルを、キーワード抽出部406に渡し、レスポンスとして、ファイルから抽出したキーワード抽出結果を受け取る。そして、クローラー結果処理部405は、キーワード抽出部406から受け取ったキーワード抽出結果と対応する格納先情報とを、ファイル情報DB部407に保存する。これにより、ファイル情報DB部407には、それぞれの格納先に格納されているファイルに適したキーワードが格納先情報と関連付けられて保存されることになる。
キーワード抽出部406は、受け取ったテキストデータまたはファイルから、キーワード情報を抽出する処理を行う。また、キーワードの出現回数などを集計する処理も行う。例えば、キーワード抽出部406は、ファイルのプロパティの情報からキーワードを抽出したり、文書ファイルのテキストデータを解析したりする。そして、専門用語に多く見られる複合名詞などを出現頻度などの統計的指標を利用してキーワードとして抽出する処理を行なう。また、キーワード抽出部406は、後述する解析リクエスト処理部403からの要求によりテキストデータを解析してキーワードを抽出する処理を行なう。
解析リクエスト受付処理部402は、通信部401を介して、画像処理装置101からテキストデータの解析リクエストを受け付ける。この画像処理装置101からのテキストデータは画像処理装置101においてスキャンした画像から文字認識処理(OCR処理)を行なうことで抽出されたテキストデータである。すなわち、解析リクエスト受付処理部402は、画像処理装置101がスキャンを行なって得た画像から、画像処理装置101がOCR処理を行なって抽出したテキストデータを受け取る。また、解析リクエスト受付処理部402は、後述する解析リクエスト処理部403が処理した解析結果を、画像処理装置101にレスポンスとして送信する処理も行う。
解析リクエスト処理部403は、解析リクエスト受付処理部402が受信したテキストデータをキーワード抽出部406に渡し、テキストデータから抽出したキーワード抽出結果を受け取る。また、解析リクエスト処理部403は、ファイル情報DB部407に格納されているファイルのキーワード等の情報を取得し、受信したテキストデータから抽出したキーワード抽出結果と比較する処理を行う。比較した結果、受信したテキストデータのキーワードと類似するキーワードが関連付けられるファイルが格納される格納先候補を示すリスト(以下、格納先候補情報という)を、解析結果として解析リクエスト受付処理部に渡す。 図5は、本実施例における解析サーバー102に対応した画像処理装置101が有するアプリケーション500のソフトウェア構成を説明するための図である。アプリケーション500は、ROM221に格納され、画像処理装置が有するCPU220によって実行される。アプリケーション500は、通信部501、処理部502、画面表示部503を有する。
処理部502は、通信部501を介して、解析サーバー102およびファイルサーバー103と通信を行う。なお、処理部502を中心とした一連の処理シーケンスに関しては、図8を用いて後述する。主な処理としては、まず、画像処理装置101が有する制御部218を介して、スキャナ部213に対してスキャン実行指示を行う。また、スキャナ部213が紙文書などをスキャンして得られたスキャン画像データ(電子データ)からOCR処理を行なうことで抽出したテキストデータを解析サーバー102へ送信し、そのレスポンスとして解析結果を受け取る。解析結果とは、前述のように格納先候補情報のことである。また、処理部502は、格納先候補情報に基づいて選択されたファイルサーバー103の格納先に、スキャナ部213でスキャンしたスキャン画像データを送信しファイルの格納を指示する。以下、スキャン画像データのことを、単にスキャンデータと称する。
画面表示部503は、操作表示部212を介して、ユーザーに対して画面を表示するための処理を行う。具体的には、操作画面を表示し、ユーザーの操作に応じて処理依頼を処理部502に行う。
図6は、本実施例における画像処理装置101の操作表示部212で表示される操作画面600の例である。この操作画面600では、画像処理装置101上で利用可能なアプリケーションへアクセス可能なボタンが表示されている。ユーザーが各ボタンを押下することによって押下されたアプリケーションが起動する。なお、この操作画面600は、画像処理装置101が有するメインメニューキー(不図示)を押下したときに表示されるメインメニューの画面である。例えば、ボタン601を押下すると、「スキャンして送信」するアプリケーションが表示されることになる。
図7は、本実施例における画像処理装置101の操作表示部212の例であり、ユーザーが原稿をスキャンして送信を行う際に利用するアプリケーション500の画面例である。利用者は、スキャナ部に原稿をセットしたうえで、スタートキー701を押下すると、スキャンが実行される。
図8は、本実施例におけるユーザーが図7に示したアプリケーション500の操作画面を利用して、原稿をスキャンし、ファイルサーバー103に格納するまでのシーケンス図である。ユーザーによって、画像処理装置101が有するメインメニューキー(不図示)が押下されて図6に示した操作画面600が表示されるところから処理の説明をする。
ステップS801において、図6に示したメインメニューの画面を操作表示部212が表示する。表示した画面上で、ユーザー操作によってアプリケーション500のボタンが押下されると、ステップS802において操作表示部212は、アプリケーション500に対してアプリケーションが選択されたことを通知する。通知を受け、ステップS803においてアプリケーション500は、アプリケーション500の初期画面情報を操作表示部212に送信し表示指示を行う。ステップS804において、操作表示部212は受信した初期画面を表示する。次にユーザー操作によって、スキャナ部に原稿が置かれている状態でアプリケーション500のスタートキーが押下されると、ステップS805において操作表示部212はアプリケーション500に対してスタートキーが押下されたことを通知する。アプリケーション500はスタートボタン押下通知を受け、ステップS806において、スキャナ部213にスキャン実行指示を行う。ステップS807でスキャナ部213は、原稿のスキャンを実行してスキャンデータ(電子データ)を生成し、ステップS808においてスキャナ部213は、スキャンが終了したことをアプリケーション500に通知する。スキャン終了を受けて、アプリケーション500はステップS809において、ステップS807でスキャナ部213が生成したスキャンデータからテキスト抽出を行う。すなわち、ステップS807でアプリケーション500は、スキャンデータの文字認識処理(OCR処理)を行いテキストデータを抽出する。
アプリケーション500はステップS810において、抽出したテキストデータを解析サーバー102に送信し、その結果として解析結果(スキャンデータの格納先候補情報)を取得する。なお、ステップS810の詳細な処理は、図10を利用して後述することにする。
ステップS811でアプリケーション500は、ステップS810で取得した格納先候補情報をもとに、ユーザーに対して格納先を選択させるための画面情報を生成する。ステップS812でアプリケーション500は、操作表示部212に対して画面表示指示を行う。ステップS813では、操作表示部212は画面表示を行う。格納先候補情報をもとに生成された画面の例について図9を用いて説明する。
図9は、本実施例における解析サーバー102によって解析された結果である格納先候補情報に基づいて生成される画面の例を示す図である。画面900は、格納先の候補として適している格納先をユーザーに選択させるための画面である。画面900には、格納先候補901が表示されている。ここでは、格納先のフォルダ名が格納されているものとする。このような格納先候補901の中からから所望の格納先をユーザーが選択し、送信ボタン902がユーザーによって押下されると、ステップS808で得られたスキャンデータがファイルサーバー103に送信される。
図8に戻ってシーケンスの説明を続ける。ユーザー操作によって候補先が選択され、送信ボタンが押下されるとステップS814において操作表示部212はアプリケーション500に対して送信ボタンが押下されたことを通知する。通知を受けたアプリケーション500は、ステップS815において、ネットワーク部216に対して、格納先の指定を含む、スキャンデータの送信指示を行う。指示を受けたネットワーク部216は、ステップS816において、スキャナ部213が生成したスキャンデータをファイルサーバー103に送信する。ステップS817では、スキャンデータを受信したファイルサーバーが、指定された保存先にスキャンデータを格納し、ステップS818にて、処理終了のレスポンスを返す。ネットワーク部216は、ステップS819にてアプリケーション500に対してレスポンスを返す。アプリケーション500は、ステップS820において送信完了画面の表示指示を操作表示部212に指示し、ステップS821において、操作表示部212は、完了画面を表示して処理を終了する。
図10は、本実施例における図9のステップS810のテキスト解析処理を示したフローチャートである。
フローチャートの説明の前にテキスト解析処理の概要を簡単に説明する。本実施例のテキスト解析処理では、画像処理装置101において抽出された全てのテキストデータが解析サーバー102に送信されるのではなく、部分的に抜粋されたテキストデータが必要に応じて順次送信される。解析サーバー102においてはまず、抜粋された第一のテキストデータを用いて第一の解析結果を求める。その後、解析サーバー102は、第一のテキストデータに、その後に送られる抜粋されたテキストデータである第二のテキストデータを結合し、その結合したテキストデータを用いて第二の解析結果を求める。この第一の解析結果と第二の解析結果とが類似する場合には、それ以上の解析をせずに、第二の解析結果を画像処理装置101に送信する。一般に原稿には、冒頭部分や最初の数ページに重要なキーワードが含まれている傾向があり、ある一定以上のページ数を超える場合などには、同様のキーワードしか抽出されない傾向がある。そこで、本実施例では画像処理装置101は抽出した全てのテキストデータを解析サーバー102に送信するのではなく、必要に応じて部分的にテキストデータを送信して解析結果を受信する処理を行なう。このように全てのテキストデータを送信せず、また全てのテキストデータに基づく解析処理を行なわないことにより、ユーザーに解析結果を速やかに提示することができる。以下、具体的にフローチャートに従って説明をする。
まず、ステップS1001において画像処理装置101は、初期化処理を行う。初期化処理として、Part番号Nを1に初期化、及び画像処理装置101が抽出したテキストを一部抜粋する際に使用する抜粋開始位置を先頭に初期化する。Part番号とは、抜粋したテキストに割り当てられた番号を示す。本実施例では、画像処理装置101は抽出したテキストデータを全て解析サーバー102に送信するのではなく、抽出したテキストデータの一部を送信する。そこで、送信対象の抜粋されたテキストデータを特定する識別子としてPart番号を用いることとする。
ステップS1002において画像処理装置101は、抜粋開始位置より一定サイズ分のテキストデータを、抽出したテキストデータから抜粋する。以下、一定サイズ分抜粋したテキストデータを「分割テキストデータ」と呼ぶ。なお、一定サイズとは、テキストの文字数でもよいし、テキストデータのデータサイズであってもよい。抜粋するサイズ及びその設定方法は任意に決定することができる。ステップS1003において画像処理装置101は、ステップS1002で抜粋した分割テキストデータをPart番号と紐づけて解析サーバー102に送信する。
ステップS1004において解析サーバー102は、画像処理装置101から送信された分割テキストデータを受信する。ステップS1005において解析サーバー102は、受信した分割テキストデータが空かどうか判定する。分割テキストデータが空である場合は、例えば分割テキストデータに含まれるテキスト数が0である場合や、分割テキストデータのデータサイズが所定値未満である場合などである。
ステップS1005において、受信した分割テキストデータが空であると判定された場合は、ステップS1006において、N=1かどうか、つまり最初の分割テキストデータの送信リクエストか判定する。ステップS1006において、N=1であると判定された場合は、ステップS1007において解析サーバー102は、解析不可エラー通知をレスポンスとして画像処理装置101に返信する。解析すべきテキストが存在しないからである。一方、ステップS1006において、N=1でないと判定された場合は、解析サーバー102は、画像処理装置101で抜粋できるテキストが存在しないと判定する。そして、ステップS1008において解析サーバー102は前Part番号の解析結果(すなわち、Part番号N−1までの解析結果)をレスポンスとして画像処理装置101に返信する。
ステップS1005においてテキストデータが空でないと判定された場合、ステップS1009において解析サーバー102は、Part番号Nまでの分割テキストデータをすべて結合した結合テキストデータを解析する。ステップS1010において、N=1、つまり、最初の分割テキストデータであると判定された場合は、ステップS1011において解析サーバー102は、Part番号1のテキストデータ及び前記解析結果をファイル情報DB部407に保存する。次いで、ステップS1012において解析サーバー102は、レスポンスとして分割テキストデータ送信依頼を画像処理装置101に送信する。本実施例では、画像処理装置101からは分割テキストデータが必要に応じて順次送られる。そこで、最初の分割テキストデータであるPart番号1のテキストデータの解析結果は画像処理装置101には送信せずにファイル情報DB部407に保存しておく。
ステップS1010において、N=1ではないと判定された場合とは、前回まで(Part番号N−1)まで有効なテキストデータが存在しており、かつ、Part番号N−1までのテキストデータの解析結果が保存されている場合である。そこで、ステップS1010において、N=1ではないと判定された場合、ステップS1013において、Part番号Nまでの解析結果と、ファイル情報DB部407に保存されたPart番号N−1までの解析結果、つまり、前回までの解析結果とを比較する。ステップS1014において、比較結果がある閾値より低い結果の場合には、追加解析が必要なため、ステップS1011から処理を継続する。すなわち、ステップS1011において、前述のようにPart番号Nまでの結合テキストデータおよび解析結果を保存し、ステップS1012において分割テキストデータの送信依頼をレスポンスとして画像処理装置101に送信する。
一方、ステップS1014において、比較結果がある閾値より高い結果の場合には、ステップS1008において解析サーバー102は、レスポンスとしてPart番号Nの解析結果を画像処理装置101へ送信する。解析結果は、前述のように格納先の候補を示す情報のことである。より具体的には、解析結果は類似度が高いフォルダ順に並んだ格納先フォルダの一覧とすることができる。ここで、類似度が高いフォルダとは、「テキストデータと関連するファイルが多く入っている」フォルダや、「テキストデータとの関連度が高いファイルが入っている」フォルダなどが挙げられる。ステップS1014では、例えば格納先の候補のリストの項目及び順位が、閾値以上同じである場合(すなわち、ほぼ変わらない場合)にPart番号Nの解析結果をクライアントに送信する。つまり、前述のようにこれ以上のテキストデータの解析は実質的に不要であるので、この時点で解析処理を打ち切る。一方、前回の解析結果と今回の解析結果との比較結果がある閾値よりも低い(すなわち、格納先候補リストの内容が前回と今回とで異なる場合)、さらなる解析処理を行い、いわば解析結果が安定化するまでテキストデータを追加して解析を行なうことになる。
ステップS1015において画像処理装置101は、解析サーバー102からのレスポンスを受信する。ステップS1016において画像処理装置101は、受信したレスポンスの内容を解析する。ステップS1016で、レスポンス結果が分割テキスト送信依頼であると判定された場合、ステップS1017において画像処理装置101は、Part番号をインクリメントする処理及び抜粋開始位置を前回抜粋終了位置へ移動する処理を行う。ステップS1017の処理の後、画像処理装置101はステップS1002から処理を継続する。ステップS1016で、レスポンス結果が解析結果もしくは解析不可エラーであると判定された場合はテキスト解析処理を終了し、図8のステップS811から処理を継続する。
以上説明したように、本実施例によれば画像処理装置101においてスキャンして得られたスキャンデータから抽出したテキストデータを部分的に抜粋したテキストデータを必要に応じて順次解析サーバー102に送信する。そして、解析サーバー102において解析結果がほとんど変わらなくなった時点で解析結果を画像処理装置101に格納先候補情報を送信するので、ユーザーに格納先候補を提示する時間を早めることができる。
[実施例2]
実施例1では、アプリケーション500が送信する分割テキストデータのPart番号Nまでの解析結果と、Part番号N−1までの解析結果とを比較して、類似度が閾値(%)を越えた場合(すなわち、ほぼ変わらない場合)に解析結果を返す例を説明した。しかしながら、電子データから抽出したテキストデータサイズ、または抜粋した分割テキストデータサイズが小さい場合、解析サーバー102がテキストデータを解析しても、期待した結果が返ってこない可能性が高い。本実施例では、抽出テキストデータサイズまたは分割テキストのデータサイズが基準値に達しない場合の処理を説明する。具体的には、画像処理装置101は抽出テキストデータサイズまたは分割テキストのデータサイズが基準値に達しない場合、テキストデータではなく、スキャンして得られた画像を示すスキャンデータを解析サーバーに送信する。そして、解析サーバーはテキストデータの解析ではなく画像データの解析によって解析結果を返す例を説明する。なお、画像処理装置101や解析サーバー102の構成および全体のシーケンスについて実施例1と同様とすることができるので、ここでの説明は省略する。
図11は、本実施例におけるテキストサイズによってステップS810におけるテキスト解析処理において、画像処理装置101から解析サーバー102に送信されるデータを変更する処理を示したフローチャートである。
まず、ステップS1101およびステップS1102は、ステップS1001およびステップS1002と同様である。ステップS1103において画像処理装置101は、ステップS1102において抜粋した分析テキストのサイズが基準値に達しているか判定する。例えば基準値が100文字といった文字数を示している場合、分割テキストの文字数が100文字に達しているか否かの判定が行なわれる。なお、基準値はテキストデータサイズであってもよい。
ステップS1103において、分割テキストのサイズが基準値に達していると判定された場合、ステップS1104において画像処理装置101は、実施例1と同様にPart番号と紐づけて分割テキストデータを解析サーバー102に送信する。ステップS1103において、分割テキストが基準値に達しないと判定された場合、ステップS1105において画像処理装置101は、スキャンデータから抽出されたテキストデータではなく、スキャンデータを解析サーバー102に送信する。
ステップS1106において解析サーバー102は、画像処理装置101から送信されたデータを受信する。ステップS1107において解析サーバー102は、受信したデータがスキャンデータかどうか判定する。ステップS1107において、受信したデータがスキャンデータであると判定された場合は、ステップS1108において解析サーバー102は、スキャンデータを解析する。ステップS1108においては解析サーバー102は、実施例1で説明したようなテキストデータに基づく解析ではなく、スキャンして得られた画像データ(スキャンデータ)を解析する。本実施例では、クローラー部404は画像データのファイルの収集を行ない、解析サーバー102の不図示の解析部が画像データの特徴点を算出し、その特徴点がその画像データの格納先と関連付けてファイル情報DB部407に保存されている。解析サーバー102は、ステップS1108では、画像処理装置101から送信されたスキャンデータの特徴点を算出し、格納されている特徴点と比較し、類似度が高いファイルが格納されている格納先の候補を解析結果として得る。
テップS1109において解析サーバー102は、ステップS1106において得られたスキャンデータの解析結果を画像処理装置101に返信する。
一方、ステップS1107において、受信したデータがテキストデータであると判定された場合、ステップS1110に進む。ステップS1110からS1115までの処理は、実施例1のステップS1009からS1014と同様の処理であるので、説明は省略する。
以上説明したように、本実施例では、文字数が少ないような文書をスキャンした場合には、テキストデータに基づく解析ではなく、スキャンして得られた画像データに基づく解析を行なうことで正確な格納先候補をユーザーに提示することができる。
<その他の実施例>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

Claims (12)

  1. 画像処理装置と解析サーバーとを含む文書解析システムであって、
    前記画像処理装置は、
    文書をスキャンして得た画像データからテキストデータを抽出する抽出手段と、
    前記抽出手段で抽出したテキストデータを分割して得られる分割テキストデータを、前記解析サーバーから前記画像データの格納先候補を受信するまで前記解析サーバーに順次送信する第一の送信手段と、
    前記解析サーバーから受信した格納先候補を提示して、ユーザーに格納先を選択させる選択手段と、
    前記ユーザーによって選択された格納先に、前記文書をスキャンして得た前記画像データを送信する第二の送信手段と
    を有し、
    前記解析サーバーは、
    前記第一の送信手段から送信された分割テキストデータに基づいて解析を行なう解析手段と、
    前記解析手段での解析処理において格納先候補が決定した時点で、当該格納先候補を前記画像処理装置に返信する返信手段と
    を有することを特徴とする文書解析システム。
  2. 前記解析手段は、第一の分割テキストデータを用いた第一の解析結果と、前記第一の分割テキストデータの後に前記第一の送信手段から送信される第二の分割テキストデータを前記第一の解析結果に用いられたテキストデータに結合した結合テキストデータを用いた第二の解析結果と、を比較し、比較結果が閾値以上である場合、前記第二の解析結果を前記格納先候補として決定することを特徴とする請求項1に記載の文書解析システム。
  3. 前記返信手段は、前記比較結果が閾値以上でない場合、前記画像処理装置に追加の分割テキストデータの送信依頼を送信することを特徴とする請求項2に記載の文書解析システム。
  4. 前記第一の送信手段は、前記送信依頼を受信するたびに、前記抽出したテキストデータから抜粋する位置を変えて得られた分割テキストデータを送ることを特徴とする請求項3に記載の文書解析システム。
  5. 前記解析手段は、テキストデータからキーワードを抽出し、抽出したキーワードと格納先に対応するキーワードとを比較することで格納先候補を解析結果として決定することを特徴とする請求項1から4のいずれか一項に記載の文書解析システム。
  6. 前記第一の送信手段は、分割テキストデータが基準値に達していない場合、文書をスキャンして得た前記画像データを送信し、
    前記解析手段は、前記画像データを用いた解析を行なうことを特徴とする請求項1から5のいずれか一項に記載の文書解析システム。
  7. 前記解析手段は、前記画像データが示す画像の特徴点に基づいて格納先候補を解析結果として決定することを特徴とする請求項6に記載の文書解析システム。
  8. 文書をスキャンして得た画像データからテキストデータを抽出する抽出手段と、
    前記抽出手段で抽出したテキストデータを分割して得られる分割テキストデータを解析サーバーから前記画像データの格納先候補を受信するまで前記解析サーバーに順次送信する第一の送信手段と、
    前記解析サーバーから受信した格納先候補を提示して、ユーザーに格納先を選択させる選択手段と、
    前記ユーザーによって選択された格納先に、前記文書をスキャンして得た前記画像データを送信する第二の送信手段と
    を有することを特徴とする画像処理装置。
  9. 画像処理装置において文書をスキャンして得た画像データから抽出されたテキストデータを分割して得られた分割テキストデータを、前記画像処理装置から受信する受信手段と、
    前記受信した分割テキストデータに基づいて解析を行なう解析手段と、
    前記解析手段での解析処理において前記画像データの格納先候補が決定した時点で、当該格納先候補を前記画像処理装置に返信する返信手段と
    を有することを特徴とする解析サーバー。
  10. 画像処理装置と解析サーバーとを用いた文書解析方法であって、
    前記画像処理装置において、
    文書をスキャンして得た画像データからテキストデータを抽出する抽出ステップと、
    前記抽出ステップで抽出したテキストデータを分割して得られる分割テキストデータを、前記解析サーバーから前記画像データの格納先候補を受信するまで前記解析サーバーに順次送信する第一の送信ステップと、
    前記解析サーバーから受信した格納先候補を提示して、ユーザーに格納先を選択させる選択ステップと、
    前記ユーザーによって選択された格納先に、前記文書をスキャンして得た前記画像データを送信する第二の送信ステップと
    を実行させ、
    前記解析サーバーにおいて、
    前記第一の送信ステップにおいて送信された分割テキストデータに基づいて解析を行なう解析ステップと、
    前記解析ステップでの解析処理において格納先候補が決定した時点で、当該格納先候補を前記画像処理装置に返信する返信ステップと
    を実行させることを特徴とする文書解析方法。
  11. コンピュータを請求項1から7のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。
  12. コンピュータを請求項1から7のいずれか一項に記載の解析サーバーの各手段として機能させるためのプログラム。
JP2015094293A 2015-05-01 2015-05-01 文書解析システムおよび文書解析方法 Pending JP2016212563A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015094293A JP2016212563A (ja) 2015-05-01 2015-05-01 文書解析システムおよび文書解析方法
US15/130,027 US10057449B2 (en) 2015-05-01 2016-04-15 Document analysis system, image forming apparatus, and analysis server
CN201610269573.3A CN106095765B (zh) 2015-05-01 2016-04-27 文档分析系统、图像处理装置以及分析服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015094293A JP2016212563A (ja) 2015-05-01 2015-05-01 文書解析システムおよび文書解析方法

Publications (1)

Publication Number Publication Date
JP2016212563A true JP2016212563A (ja) 2016-12-15

Family

ID=57205250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015094293A Pending JP2016212563A (ja) 2015-05-01 2015-05-01 文書解析システムおよび文書解析方法

Country Status (3)

Country Link
US (1) US10057449B2 (ja)
JP (1) JP2016212563A (ja)
CN (1) CN106095765B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020141332A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 画像処理装置、その制御方法及びプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6968647B2 (ja) 2017-10-03 2021-11-17 キヤノン株式会社 スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
CN109063105A (zh) * 2018-07-27 2018-12-21 北京字节跳动网络技术有限公司 文件存储方法、装置、计算机设备和存储介质
US10701232B1 (en) * 2019-06-27 2020-06-30 Kyocera Document Solutions Inc. Automated running of image-processing instructions from sticky notes
WO2021102673A1 (en) * 2019-11-26 2021-06-03 Citrix Systems, Inc. Document storage and management
CN111159434A (zh) * 2019-12-29 2020-05-15 赵娜 一种在互联网存储集群中存储多媒体文件的方法及系统
JP2023053602A (ja) 2021-10-01 2023-04-13 キヤノン株式会社 装置、情報処理方法、及びプログラム
CN114817200B (zh) * 2022-05-06 2024-04-05 新疆利丰智能科技股份有限公司 一种基于物联网的文档数据云端管理方法、系统及储存介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2679094A1 (en) * 2007-02-23 2008-08-28 1698413 Ontario Inc. System and method for delivering content and advertisements
JP2008234078A (ja) * 2007-03-16 2008-10-02 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
JP5194643B2 (ja) * 2007-08-27 2013-05-08 富士ゼロックス株式会社 文書処理プログラム、文書処理装置及び文書処理システム
JP2012203783A (ja) * 2011-03-28 2012-10-22 Fuji Xerox Co Ltd 画像処理装置およびプログラム
CN102360353A (zh) * 2011-09-27 2012-02-22 汉王科技股份有限公司 扫描文件存储方法、装置和扫描设备
US20150269135A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Language identification for text in an object image
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020141332A (ja) * 2019-02-28 2020-09-03 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
JP7282550B2 (ja) 2019-02-28 2023-05-29 キヤノン株式会社 画像処理装置、その制御方法及びプログラム

Also Published As

Publication number Publication date
CN106095765A (zh) 2016-11-09
US20160321500A1 (en) 2016-11-03
US10057449B2 (en) 2018-08-21
CN106095765B (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
JP2016212563A (ja) 文書解析システムおよび文書解析方法
JP4890212B2 (ja) スキャン画像管理装置
JP5929397B2 (ja) 画像処理装置、画像処理システム及びプログラム
US8804169B2 (en) Printing method, image forming apparatus, and web server
US10423825B2 (en) Retrieval device, retrieval method, and computer-readable storage medium for computer program
JP7434001B2 (ja) 情報処理装置、プログラム、情報処理方法
EP3125106A1 (en) Apparatus and method for applying settings, and computer program
US20120293844A1 (en) Method for adding scan data to computer work area
JP2020024303A (ja) 画像処理装置及びその制御方法、並びにプログラム
US20130050733A1 (en) Information processing apparatus that displays web page, method of controlling information processing apparatus, and storage medium
US9742953B2 (en) Document management system, document management method, an image forming apparatus, an analysis server and storage medium
US9591092B2 (en) Relaying device, image processing device, and system comprising image processing device, relaying device and service server
US9432526B2 (en) Image forming system, image forming apparatus, remote control apparatus, and recording medium for displaying an input screen
JP6214581B2 (ja) 文書解析システム、文書解析装置、文書解析方法、及びプログラム
JP5057460B2 (ja) 文書管理システム、文書管理装装置、文書管理方法、およびプログラム
JP2020024582A (ja) 画像処理装置及びその制御方法、並びにプログラム
US20140289741A1 (en) Cooperation method, image processing device, and medium
JP6992332B2 (ja) 画像処理システム、画像処理装置、端末装置及びプログラム
JP6589508B2 (ja) 情報処理装置、画像形成装置及びプログラム
EP1770560A1 (en) Device and method to retrieve a destination address in a hierarchical directory for a data transmission
JP7292988B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5267710B1 (ja) 情報処理装置、コンテンツ管理システム及びプログラム
JP5644624B2 (ja) 情報処理プログラム、情報処理装置、情報処理方法
JP6175414B2 (ja) 文書処理装置および文書処理プログラム
US20110279855A1 (en) Retrieval system, image forming apparatus, and recording medium