JP2008276487A - 文書処理プログラム、文書処理装置及び文書処理システム - Google Patents

文書処理プログラム、文書処理装置及び文書処理システム Download PDF

Info

Publication number
JP2008276487A
JP2008276487A JP2007118957A JP2007118957A JP2008276487A JP 2008276487 A JP2008276487 A JP 2008276487A JP 2007118957 A JP2007118957 A JP 2007118957A JP 2007118957 A JP2007118957 A JP 2007118957A JP 2008276487 A JP2008276487 A JP 2008276487A
Authority
JP
Japan
Prior art keywords
attribute
information
document
extraction
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007118957A
Other languages
English (en)
Inventor
Yutaka Komatsu
裕 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007118957A priority Critical patent/JP2008276487A/ja
Priority to US12/060,538 priority patent/US20080270879A1/en
Publication of JP2008276487A publication Critical patent/JP2008276487A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】文書データの属性情報を登録する文書処理プログラム、文書処理装置及び文書処理システムを提供する。
【解決手段】文書処理システム1Aは、属性情報を含む文書及びその文書から属性情報を抽出するための属性抽出情報を含む属性指示書を光学的に読み取って、画像データとしての文書データ及び属性指示書データを生成するスキャナ2A、2Bと、スキャナ2A、2Bからネットワーク10を介して文書データ及び属性指示書データを取得し、属性指示書データから抽出した属性抽出情報に基づいて文書データから属性情報を抽出し、その抽出した属性情報を文書データの属性情報として登録する文書処理サーバ3Aとから構成されている。
【選択図】図1

Description

本発明は、文書処理プログラム、文書処理装置及び文書処理システムに関する。
文書の電子化により、多数の文書データを分類整理して保存し、特定の文書データを検索することが可能となり、さらに文書データの分類整理、及び検索を容易に行うために、文書データから属性情報を抽出して、その属性情報を文書データに付与する文書属性識別装置が提案されている(例えば、特許文献1参照。)。
この文書属性識別装置は、文書に記載された文書属性の位置を示す位置情報、例えば左上を原点とした方形の枠の位置を予め入力する入力手段と、その入力された位置情報を記憶する記憶手段とを備えている。そして、文書属性識別装置は、文書属性が同一の位置に記載されている同一の様式の文書に対して、文書属性の種類毎に文書属性の記載された位置を、予め記憶した位置情報の中から指定することにより、イメージ文書から文書属性を抽出することができる。
特開2005−55985号公報
本発明の目的は、文書データの属性情報を登録する文書処理プログラム、文書処理装置及び文書処理システムを提供することにある。
本発明の一態様は、上記目的を達成するため、以下の文書処理プログラム、文書処理装置、及び文書処理システムを提供する。
[1]属性情報を含む文書データを取得するとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を取得する取得手段、前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段として、コンピュータを機能させるための文書処理プログラム。
[2]前記抽出方式が、不可視ペンマーク方式のとき、前記位置情報は、前記文書データに含まれる不可視ペンによる像である請求項1に記載の文書処理プログラム。
[3]前記取得手段は、前記属性抽出情報を属性名毎に取得し、前記登録手段は、前記属性情報を前記属性名毎に登録する請求項1または2に記載の文書処理プログラム。
[4]前記抽出方式情報は、複数の抽出方式のうち選択された抽出方式を示す選択情報を含む請求項1から3のいずれか1項に記載の文書処理プログラム。
[5]性情報を含む文書データを取得するとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を取得する取得手段と、前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
[6]文書データを属性情報を含む文書から読み取るとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を属性指示書から読み取る読取手段と、前記読取手段により読み取られた前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
[7]属性情報を含む文書から文書データを読み取る文書読取手段と、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を入力する入力手段と、前記入力手段により入力された前記属性抽出情報に基づいて前記文書読取手段により読み取られた前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
[8]文書データを属性情報を含む文書から読み取るとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を属性指示書から読み取る読取手段、及び前記読取手段により読み取られた前記文書データ及び前記属性抽出情報を送信する送信手段を有する文書読取装置と、前記送信手段から送信された前記文書データ及び前記属性抽出情報を受信する受信手段、前記受信手段により受信された前記属性抽出情報に基づいて前記文書データから前記属性情報を抽出する抽出手段、及び前記抽出手段により抽出された前記属性情報を前記文書データの属性情報として登録する登録手段を有する文書処理装置とを備えた文書処理システム。
請求項1に係る文書処理プログラムによれば、複数の抽出方式の中から指定された抽出方式で抽出した文書データの属性情報を登録することができる。
請求項2に係る文書処理プログラムによれば、属性情報の記載された位置を不可視ペンで指定することができる。
請求項3に係る文書処理プログラムによれば、属性毎に抽出方式を指定することができる。
請求項4に係る文書処理プログラムによれば、本構成を有しない場合と比較して、抽出方式を簡便に指定することができる。
請求項5に係る文書処理装置によれば、複数の抽出方式の中から指定された抽出方式で抽出した文書データの属性情報を登録することができる。
請求項6に係る文書処理装置によれば、読取手段によって読み取られた情報に示された、複数の抽出方式の中から指定された抽出方式で抽出した文書データの属性情報を登録することができる。
請求項7に係る文書処理装置によれば、入力手段によって入力された情報に示された、複数の抽出方式の中から指定された抽出方式で抽出した文書データの属性情報を登録することができる。
請求項8に係る文書処理システムによれば、読取手段によって読み取られた情報に示された、複数の抽出方式の中から指定された抽出方式で抽出した文書データの属性情報を登録することができる。
[第1の実施の形態]
図1は、本発明の第1の実施の形態に係る文書処理システムの概略構成を示す全体図である。この文書処理システム1Aは、属性情報を含む文書、及びその文書から属性情報を抽出するための属性指示書を光学的に読み取るスキャナ(文書読取装置)2A、2Bと、スキャナ2A、2Bからネットワーク10を介して文書データに含まれる属性情報を文書データの属性情報として登録する文書処理サーバ(文書処理装置)3Aとから構成されている。
ここで、文書に含まれる「属性情報」は、複数の文書を整理分類して、複数の文書から特定の文書を容易に検索するための情報を意味し、例えば日付、場所、氏名等の情報が該当し、1つの文書に複数の属性情報が含まれていてもよい。また、このような日付、場所、氏名等の属性情報を識別するための名称を「属性名」といい、例えば文書中に「2007年3月1日」と記載されている場合、文書の属性名「日時」に対応する属性情報としては、「2007年3月1日」という日時が該当する。また、「文書」の内容は任意のものでよく、「文書」には例えば契約書、仕様書、図面、表、イラスト、写真等が含まれる。
また、属性指示書には、文書から属性情報を抽出するための属性抽出情報が記載されており、この「属性抽出情報」は、文書データから属性情報を抽出する抽出方式を示す抽出方式情報と、その抽出方式情報が示す抽出方式に対応した属性情報の文書データにおける位置を示す位置情報と、複数の抽出方式のうち選択された抽出方式を示す選択情報とを含むものである。
ここで、「抽出方式」とは、文書における属性情報の記載された位置を特定するための方式を指定するものであり、例えば属性情報を含む矩形の領域を、文書の左上を原点としてその矩形の左上の点を示すX座標、Y座標、さらにその矩形の左上の点からのX方向、Y方向の長さを示す幅、高さにより特定するような座標指定方式が該当する。
また、抽出方式に対応した「位置情報」とは、文書に含まれる属性情報がその文書において記載されている位置、領域、及びページ等を指定するための情報であり、例えば上記の座標指定方式の場合には、X座標、Y座標、幅、及び高さが位置情報に該当する。
ネットワーク10は、有線LAN、無線LAN等のローカルエリアネットワークである。また、インターネットに接続されたネットワークであってもよい。
スキャナ2A、2Bは、文書及び属性指示書の原稿を光電変換素子を用いて画像データとして光学的に読み取る読取部と、ネットワーク10を介してその画像データを文書処理サーバ3Aに送信する送信部とから構成されている。なお、図1では、スキャナはスキャナ2A,2Bの2台であるが、1台でもよいし、3台以上であってもよい。
図2は、文書処理サーバ3Aの概略構成の一例を示すブロック図である。この文書処理サーバ3Aは、文書処理サーバ3Aの各部を制御する例えばCPU等からなる演算部30と、文書処理プログラム310及び第1から第4の属性抽出プログラム311A〜311D等の各種のプログラム、及び属性情報を文書データの属性として付与された属性付き文書データ312等の各種のデータを記憶するROM,RAM,HDD等からなる記憶装置31と、ネットワーク10を介してスキャナ2A、2Bから画像データとしての文書データ及び属性指示書データを受信するネットワークインタフェースカード(NIC)等からなる通信部(受信手段)32と、データ入力や操作指示を受け付けるキーボード、マウス等を備えた入力部33と、演算部30による処理結果や記憶装置31に記憶蓄積された文書データ等を表示するLCD(液晶ディスプレイ)等からなる表示部34とから構成されている。このような文書処理サーバ3は、サーバの他に、例えばパーソナルコンピュータ(PC)、ワークステーション(WS)等により構成することができる。
演算部30は、記憶装置31に記憶されている文書処理プログラム310、及び第1から第4の属性抽出プログラム311A〜311Dに従って動作することにより、取得手段300、抽出手段301、及び登録手段302等として機能する。
取得手段300は、スキャナ2A、2Bから属性情報を含む文書データを取得するとともに、その文書データから属性情報を抽出するための属性抽出情報を含む属性指示書の属性指示書データを受信し、属性指示書データから属性情報を抽出するための属性抽出情報を文字認識処理を行って取得する。なお、文字認識処理は、属性指示書データから予め定められた領域の文字パターンを切り出し、その文字パターンと文字認識辞書とを、例えばパターンマッチング法により比較して、最も類似性の高いものを認識結果とするものである。
抽出手段301は、第1から第4の属性抽出プログラム311A〜311Dのうちから取得手段300により取得された属性抽出情報に含まれる抽出方式に対応した属性抽出プログラムを選択する。そして、抽出手段301は、その属性抽出プログラムに対して文書データ及び位置情報を送り、その属性抽出プログラムによる属性抽出結果を受け取ることにより、文書データから属性情報を抽出する。
登録手段302は、抽出手段301により文書データから抽出した属性情報を文書データの属性情報として付与した属性付き文書データ312を生成し、記憶装置31に登録する。なお、登録手段302は、複数の文書データを管理するデータベース等に対して、その文書データをそのデータベース等に登録する際にその属性情報を関連付けて登録するものでもよい。また、登録手段302は、属性付き文書データ312を文書作成ソフトウェア等のアプリケーションソフトウェアにて編集できる所定のファイル形式に変換した状態で記憶装置31に登録してもよい。
第1から第4の属性抽出プログラム311A〜311Dは、抽出手段301を介して文書データ及び位置情報を受け取り、その文書データに対して位置情報に基づいて文字認識処理を行うことにより属性情報を抽出するためのプログラムである。
図3は、第1から第4の属性抽出プログラム311A〜311Dに対応する抽出方式、及び位置情報の一例を表した図である。
第1の属性抽出プログラム311Aは、座標指定方式で指定された文書内の領域、すなわちX座標、Y座標、幅、及び高さの4つパラメータにより指定された領域に対して文字認識処理を行うプログラムである。
第2の属性抽出プログラム311Bは、通常人間の目では視認できないが、スキャナ2A、2Bにより読み取られた画像データには写るような不可視インクを用いた不可視ペンにより文書にマーキングされた領域に対して文字認識処理を行う不可視ペンマーク方式を実行するプログラムである。マーキングは、抽出対象の文字列を囲むように行ってもよいし、抽出対象の文字列に下線を付するように行ってもよいし、抽出手段の文字列上をなぞるように行ってもよいし、これらに限定されない。
第3の属性抽出プログラム311Cは、(,「,{ 等の抽出対象の文字列の先頭に設けられる区切りを示す開始キーワードと、),」,} 等の抽出対象の文字列の最後に設けられる区切りを示す終了キーワードとにより挟まれた領域に対して文字認識処理を行うプログラムである。なお、開始キーワード、及び終了キーワードは、2文字以上の文字列であってもよい。
第4の属性抽出プログラム311Dは、複数ページからなる文書のうち付箋紙が貼り付けられたページを、ページからはみ出した部分(付箋紙に対応する部分)の有無により抽出し、そのページ全体に対して文字認識処理を行うプログラムである。その位置情報は、貼り付けられた付箋紙の数を示す付箋IDにより指定される。
なお、属性抽出プログラムは、上記の4つに限らず、他の抽出方式による属性抽出プログラムを用いてもよく、また5つ以上の属性抽出プログラムから選択するようにしてもよい。さらに、2つ又は3つの属性抽出プログラムから選択してもよい。
(第1の実施の形態の動作)
次に、本発明の第1の実施の形態に係る文書処理システム1Aの動作の一例を図4〜図8を参照して説明する。
図4は、属性抽出情報を含む属性指示書の一例を示す。図4に示す属性指示書11は、文書において属性情報が記載されている位置を指定するための指示書であり、複数の属性名に対してその属性名毎に指定される。
属性指示書11には、複数の属性名を記入する複数の属性名記入枠110A〜110Eと、属性名記入枠110A〜110Eに記入された属性名に対応する属性情報が記載されている位置情報を指示するための座標指定方式、不可視ペンマーク方式、キーワード指定方式、及び付箋指定方式の4つの抽出方式の中から選択された抽出方式を記入するチェック枠111と、その選択された抽出方式に対応する位置情報を記入する複数の下線112とが記載されている。
図5は、属性情報を含む文書の一例を示す。図5に示す文書12は、企業間の物品売買に関して、所定の様式に従って記載された契約書である。
文書12には、この文書のタイトル120と、この契約に関する複数の条項121A〜121Cと、この契約が成立した成立年月日122と、この契約の売主である甲の住所123及び氏名124とが記載されている。
ここでは、文書12の属性情報として、文書12に記載されているタイトル120、条項121A〜121C、成立年月日122、甲の住所123、及び氏名124を抽出し、それらの属性情報を文書データの属性情報として登録する場合について以下に説明する。なお、属性情報は1つであっても複数であってもよい。
(1)属性指示書の記入
図6は、属性指示書11に属性名、及び領域指定を記入した一例を示す。また、図7は、文書12に不可視ペンによるマーキングをした一例を示す。
まず、ユーザは、属性指示書11に必要な事項を記入する。すなわち、ユーザは、タイトル120を属性情報として抽出するため、図6に示すように属性指示書の属性名記入枠110Aの中に「タイトル」と記入する。そして、その文書12における「タイトル」の記載されている位置を指定するため、座標指定方式のチェック枠111Aにチェックを入れ、座標指定方式に対応する下線112上に位置情報としてX座標113A、Y座標113B、幅113C、及び高さ113Dを記入する。なお、抽出方式は、文書12の様式に合わせてユーザの指定しやすいものを選択すればよい。
次に、ユーザは、条項名121A〜121Cを属性情報として抽出するため、図6に示すように属性指示書の属性名記入枠110Bの中に「条項名」と記入する。そして、その文書12における「条項名」の記載されている位置を指定するため、キーワード指定方式のチェック枠111Bにチェックを入れ、キーワード指定方式に対応する下線112上に位置情報として、開始キーワード114A及び終了キーワード114Bに、例えば「墨付き括弧」を記入する。
次に、ユーザは、成立年月日122、甲の住所123、及び氏名124を属性情報として抽出するため、図6に示すように属性指示書の属性名記入枠110C、110D、110Eの中にそれぞれ「成立年月日」、「甲氏名」、「甲住所」と記入する。そして、その文書12における「甲住所」、「甲氏名」、「成立年月日」の記載されている位置を指定するため、不可視ペンマーク方式のチェック枠111C〜111Eにチェックを入れ、不可視ペンマーク方式に対応する下線112上にそれぞれマークID115A〜115Cに「2」、「3」、「1」と記入する。
さらに、ユーザは、図7に示すように、文書12の成立年月日122の記入されている範囲を不可視ペンにより囲み、その枠(第1のマーキング125A)の中に不可視ペンによる丸印126を1つ記入し、同様に、甲の住所123、及び氏名124の記載されている範囲を不可視ペンにより囲み、それらの枠(第2及び第3のマーキング125B、125C)の中に不可視ペンによる丸印126を2つ、3つをそれぞれ記入する。
ここで、図6に示す属性指示書11のマークID115A〜115Cに記入された数字と、図7に示す文書12に記入された第1から第3のマーキング125A〜125Cに記入された丸印126の数とは、文書12において属性指示書11の属性名に対応する属性情報が記載されている位置を特定するように関連付けられている。なお、不可視ペンによるマーキングは、丸印126に限られるものではなく、四角形や三角形等の形状や文字等によって位置を特定するものであってもよい。
(2)属性指示書、及び文書の読み取り
次に、ユーザは、図6、図7に示す記入済みの属性指示書11、及び文書12をスキャナ2A,2Bにより読み取る。ここでは、スキャナ2Aにより読み取るものとする。なお、属性指示書11に対して文書12は1枚に限らず、複数枚でもよい。
すると、スキャナ2Aは、読み取った属性指示書11、及び文書12から、例えばビットマップデータからなる文書データ及び属性指示書データを生成する。そして、スキャナ2Aは、文書データ及び属性指示書データをネットワーク10を介して文書処理サーバ3Aに送信する。
(3)文書処理サーバの動作
図8は、本実施の形態に係る文書処理サーバ3Aの動作の一例を示すフローチャートである。
文書処理サーバ3Aは、スキャナ2Aから文書データ及び属性指示書データを受信すると、取得手段300は、属性指示書データから文字認識処理を行って属性抽出情報を取得する(S1)。
次に、抽出手段301は、属性抽出プログラム311A〜311Dのうちから取得手段300により取得された属性抽出情報の抽出方式に対応する属性抽出プログラムを選択する(S2)。例えば、図6に示す属性指示書11において、属性名「タイトル」の属性情報を抽出する場合には座標指定方式のチェック枠111Aがチェックされているため、図3における座標指定方式に対応する第1の属性抽出プログラム311Aを選択する。また、属性名「甲住所」、「甲氏名」、及び「成立年月日」については、不可視ペンマーク方式に対応する第2の属性抽出プログラム311Bを選択し、属性名「条項名」については、キーワード指定方式に対応する第3の属性抽出プログラム311Cを選択する。
次に、選択した属性抽出プログラムに対して文書データ及び位置情報を送る(S3)。例えば、属性名「タイトル」に対応する第1の属性抽出プログラム311Aに対する位置情報として、属性指示書11に記入されているX座標113A、Y座標113B、幅113C、及び高さ113Dの整数を送る。また、属性名「甲住所」、「甲氏名」、及び「成立年月日」に対応する第2の属性抽出プログラム311Bに対する位置情報として、第1から第3のマーキング125A〜125C、及び丸印126が記入されている文書データ12を送る。また、属性名「条項名」に対応する第3の属性抽出プログラム311Cに対する位置情報として、属性指示書11に記入されている開始キーワード114A、及び終了キーワード114Bの文字列を送る。
選択された第1から第3の属性抽出プログラム311A〜311Cは、文書データから位置情報に対応する領域を切り出して、その領域に対して文字認識処理を行って属性情報を抽出する。例えば、第1の属性抽出プログラム311Aは、X座標113A、Y座標113B、幅113C、及び高さ113Dにより指定された文書データの領域に対して文字認識処理を行い、「物品売買契約書」という文字列を抽出する。また、第2の属性抽出プログラム311Bは、第1から第3のマーキング125A〜125Cが記入された領域をそれぞれ切り出し、それらの領域に対して文字認識処理を行い、「平成17年6月7日」、「東京都○区○町1−2−3」、「○○太郎」という文字列を抽出するとともに、文字列毎に丸印126の数を抽出する。また、第3の属性抽出プログラム311Cは、文書データから開始キーワード114A、及び終了キーワード114Bに囲まれた領域を検索し、その領域に対して文字認識処理を行い、「物品の特定」、「単価及び売買代金総額」、及び「合意管轄」という文字列を抽出する。
次に、抽出手段301は、選択した属性抽出プログラムにより文書データから抽出された属性情報を受け取る(S4)。例えば、第1の属性抽出プログラム311Aからは、属性名「タイトル」の属性情報として、「物品売買契約書」という文字列を受け取る。また、第2の属性抽出プログラム311Bからは、「平成17年6月7日」、「東京都○区○町1−2−3」、「○○太郎」という文字列とその文字列に対応する丸印126の数をそれぞれ受け取り、マークID115A〜115Cに記入された整数と丸印126の数とが一致するように、それらの文字列を属性名「成立年月日」、「甲住所」、「甲氏名」に対応する属性情報とする。また、第3の属性抽出プログラム311Cからは、属性名「条項名」の属性情報として、「物品の特定」、「単価及び売買代金総額」、及び「合意管轄」という文字列を受け取る。
次に、登録手段302は、抽出手段301により文書データから抽出した属性情報を文書データの属性として、例えば属性名「タイトル」に対して属性情報「物品売買契約書」、属性名「氏名」に対して属性情報「○○太郎」、属性名「甲住所」に対して「東京都○区○町1−2−3」、「成立年月日」に対して「平成17年6月7日」、属性名「条項名」に対して「物品の特定」、「単価及び売買代金総額」、及び「合意管轄」という複数の属性情報を付与した属性付き文書データ312を生成し、記憶装置31に登録する(S5)。
その後、ユーザは、文書処理サーバ3Aの入力部33により属性情報や属性名とそれに対応する属性情報等の検索キーを入力し、その検索キーに該当する属性付き文書データ312を表示部34を介して閲覧する。
[第2の実施の形態]
図9は、本発明の第2の実施の形態に係る文書処理システムの概略構成を示す全体図である。第1の実施の形態は、属性指示書を用いて属性抽出情報を入力したのに対し、本実施の形態では、入力部を介して属性抽出情報を入力したものである。すなわち、本実施の形態の文書処理システム1Bは、文書を読み取るスキャナ(文書読取装置)2と、キーボード,マウス等からなる入力部と入力画面等を表示するLCD(液晶ディスプレイ)等からなる表示部とを有する端末4と、文書処理サーバ3Bとを備え、端末4の表示部に表示された画面上で属性抽出情報を入力部により入力し、端末4の表示部により文書処理サーバ(文書処理装置)3Bに記憶蓄積された属性付き文書データ312に対して検索閲覧を行うものである。
文書処理サーバ3Bは、第1の実施の形態の文書処理サーバ3Aと比較して、取得手段300が端末4からネットワーク10を介して属性抽出情報を受け取る点において異なり、その他は同様に構成されている。
端末4は、上記の入力部、及び表示部の他に、この端末4全体を制御するCPUと、CPUにより実行される属性抽出情報を入力、編集するための属性抽出情報入力プログラムや各種のデータを記憶するROM,RAM,ハードディスク等によって構成された記憶部と、ネットワーク10に接続された通信部(例えばネットワークインタフェースカード)とから構成されている。このような端末4は、例えば、パーソナルコンピュータ(PC)、携帯情報端末(PDA)等である。
なお、図9では、スキャナ2、及び端末4は、それぞれ1台を示すが、2台以上であってもよい。
(第2の実施の形態の動作)
次に、本発明の第2の実施の形態に係る文書処理システム1Bの動作の一例を図10を参照して説明する。
図10は、端末4の表示部に表示された属性指示書入力画面の一例である。この属性指示書入力画面13は、端末4のCPUにより属性抽出情報入力プログラムを実行させることにより、端末4の表示部に表示される画面である。
ユーザは、端末4にて属性抽出情報入力プログラムを実行し、端末4の表示部に属性指示書入力画面13を表示する。そして、端末4の表示部に表示された属性指示書入力画面13に対して、属性名をテキストボックス130に入力し、その入力された属性名に対応する抽出方式をチェックボックス131にて指定し、さらにその抽出方式に対応する位置情報を整数入力ボックス132、及び文字列入力ボックス133に入力する。
次に、属性抽出情報を入力したユーザが、「OK」のボタン134Aを押下すると、端末4は、その入力された属性抽出情報をネットワーク10を介して文書処理サーバ3Bに送信する。ユーザが、「キャンセル」のボタン134Bを押下すると、端末4は、属性抽出情報の入力を中断する。
また、ユーザは、その属性抽出情報により属性情報を抽出する文書をスキャナ2により読み取ると、スキャナ2は、その読み取った文書データをネットワーク10を介して文書処理サーバ3Aに送信する。
文書処理サーバ3Bは、端末4から属性抽出情報を受信し、スキャナ2から文書データを受信し、取得手段300に文書データ及び属性抽出情報を渡す。
その後は、第1の実施の形態と同様に、属性情報の抽出、属性付き文書データ312の生成、記憶装置31への登録が行われる。
[第3の実施の形態]
図11は、本発明の第3の実施の形態に係る文書処理システムの概略構成を示す全体図である。第1及び第2の実施の形態は、属性付き文書データ312を文書処理サーバ3A,3Bの記憶装置31に登録したのに対し、本実施の形態では、属性付き文書データ312をネットワーク10を介して文書蓄積サーバ5に登録したものである。すなわち、本実施の形態の文書処理システム1Cは、属性付き文書データ312を記憶するROM,RAM,HDD等からなる記憶部とネットワーク10に接続された通信部(例えばネットワークインタフェースカード)とを有する文書蓄積サーバ5をさらに備えたものである。
文書処理サーバ3Cは、第2の実施の形態の文書処理サーバ3Bと比較して、登録手段302がネットワーク10を介して属性付き文書データ312を文書蓄積サーバ5の記憶部に登録する点において異なり、その他は同様に構成されている。
端末4は、第2の実施の形態の端末4と比較して、ネットワーク10を介して文書蓄積サーバ5に記憶蓄積された属性付き文書データ312に対して検索閲覧を行う点において異なり、その他は同様に構成されている。
文書蓄積サーバ5は、上記の記憶部と通信部との他に、文書蓄積サーバ5の各部を制御するCPUと、データ入力や操作指示を受け付けるキーボード、マウス等を備えた入力部と、入力画面等を表示するLCD(液晶ディスプレイ)等からなる表示部とから構成されている。このような文書蓄積サーバ5は、サーバの他に、例えばパーソナルコンピュータ(PC)、ワークステーション(WS)等により構成することができる。
[第4の実施の形態]
図12は、本発明の第4の実施の形態に係る文書処理システムの概略構成を示す全体図である。この文書処理システム1Dは、文書、及び属性指示書を光学的に読み取って、その文書に含まれる属性情報を文書データの属性情報として登録する複合機(文書処理装置)6と、ネットワーク10を介して複合機6に接続され、複合機6に登録されている文書データの検索閲覧等を行う端末4とから構成されている。
なお、図12では、複合機6、及び端末4は、それぞれ1台を示すが、2台以上であってもよい。
図13は、複合機6の概略構成を示すブロック図の一例である。この複合機6は、この複合機6の各部を制御するCPU60と、文書処理プログラム610及び第1から第4の属性抽出プログラム611A〜611D等の各種のプログラム、及び属性情報を文書データの属性として付与された属性付き文書データ612等の各種のデータを記憶するROM,RAM,HDD等からなる記憶装置61と、光電変換素子により文書及び属性指示書から画像データとしての文書データ及び属性指示書データを読み取るデータ読取部(読取手段)62と、文書データの出力を行う電子写真方式やインクジェット方式等の印刷部63と、ディスプレイの表面にタッチパネルを重畳して構成されたタッチパネルディスプレイや、スタートキー等のハードキーを備えた操作表示部(入力手段)64と、ネットワーク10に接続されたネットワーク通信部(例えばネットワークインタフェースカード)65と、電話回線網14等に接続されたファクシミリ通信部66とを備え、これらがバス67を介して互いに接続されている。
CPU60は、記憶装置61に記憶されている文書処理プログラム610、及び第1から第4の属性抽出プログラム611A〜611Dに従って動作することにより、第1の実施の形態の文書処理サーバ3Aと同様の、取得手段600、抽出手段601、及び登録手段602等として機能する。
(第4の実施の形態の動作)
次に、本発明の第4の実施の形態に係る文書処理システム1Dの動作の一例を説明する。
まず、ユーザは、第1の実施の形態と同様の記入済みの属性指示書11、及び文書12を複合機6のデータ読取部62により読み取る。なお、ユーザは、記入した属性指示書11をデータ読取部62により読み取る代わりに、端末4の表示部、または複合機6の操作表示部64に表示された属性指示書入力画面13に対して属性抽出情報を入力してもよい。
複合機6は、データ読取部62により読み取った文書データ及び属性指示書データを取得手段600に渡す。
次に、取得手段300は、属性指示書データから属性情報を抽出するための属性抽出情報を文字認識処理を行って取得する。
次に、抽出手段601は、第1から第4の属性抽出プログラム311A〜311Dのうちから取得手段600により取得された属性抽出情報に含まれる抽出方式に対応した属性抽出プログラムを選択する。
続けて、抽出手段601は、その選択した属性抽出プログラムに対して文書データ及び位置情報を送り、その選択した属性抽出プログラムによって文書データから抽出された属性情報を受け取る。
次に、登録手段602は、その属性情報を文書データの属性として付与した属性付き文書データ612を生成し、記憶装置61に登録する。
その後、ユーザは、端末4により属性情報や属性名とそれに対応する属性情報等を検索キーとして文書データの検索を行い、その検索キーに該当する属性付き文書データ612の閲覧を行う。また、複合機6の操作表示部64により検索閲覧を行ってもよい。
[他の実施の形態]
なお、本発明は、上記各実施の形態に限定されず、本発明の趣旨を逸脱しない範囲内で種々な変形が可能である。例えば、第1から第3の実施の形態では、文書処理サーバ3A〜3Cは、ネットワーク10を介してスキャナ2A、2Bにより読み取った文書データ及び属性指示書データを受信したが、電話回線網14を介して画像データを受信したものでもよいし、ネットワーク10を介して一部の画像データを受信し、電話回線網14を介して残りの画像データを受信したものでもよい。
また、各実施の形態では、文書処理サーバ3A〜3C、及び複合機6の取得手段、抽出手段、及び登録手段を、演算部又はCPUと、文書処理プログラムと、属性抽出プログラムとによって実現したが、それらの一部または全部を特定用途向け集積回路(ASIC:Application Specific IC)等のハードウェアによって実現してもよい。
また、各実施の形態で使用される文書処理プログラムは、CD−ROM等の記録媒体から装置内の記憶部に読み込んでもよく、インターネット等のネットワークに接続されているサーバ等から装置内の記憶部にダウンロードしてもよい。
また、各実施の形態で使用される文書処理プログラムは、第1から第4の属性抽出プログラム311A〜311Dを含むものでもよいし、そのうちの一部の属性抽出プログラムを含むものでもよい。
また、本発明の趣旨を逸脱しない範囲内で上記各実施の形態の構成要素を任意に組み合わせることができる。
図1は、本発明の第1の実施の形態に係る文書処理システムの概略構成を示す全体図である。 図2は、本発明の第1の実施の形態に係る文書処理サーバの概略構成の一例を示すブロック図である。 図3は、本発明の第1の実施の形態に係る第1から第4の属性抽出プログラムに対応する抽出方式、及び位置情報の一例を表した図である。 図4は、本発明の第1の実施の形態に係る属性指示書の一例を示す図である。 図5は、本発明の第1の実施の形態に係る文書の一例を示す図である 図6は、本発明の第1の実施の形態に係る文書に不可視ペンによるマーキングをした一例を示す図である。 図7は、本発明の第1の実施の形態に係る属性指示書に属性名、及び領域指定を記入した一例を示す図である。 図8は、本発明の第1の実施の形態に係る文書処理サーバの動作の一例を示すフローチャートである。 図9は、本発明の第2の実施の形態に係る文書処理システムの概略構成を示す全体図である。 図10は、本発明の第2の実施の形態に係る端末の表示部に表示される属性指示書入力画面の一例を示す図である。 図11は、本発明の第3の実施の形態に係る文書処理システムの概略構成を示す全体図である。 図12は、本発明の第4の実施の形態に係る文書処理システムの概略構成を示す全体図である。 図13は、本発明の第4の実施の形態に係る複合機の概略構成の一例を示すブロック図である。
符号の説明
1A〜1D 文書処理システム
2,2A,2B スキャナ
3A〜3C 文書処理サーバ
4 端末
5 文書蓄積サーバ
6 複合機
10 ネットワーク
11 属性指示書
12 文書
13 属性指示書入力画面
14 電話回線網
30 演算部
31 記憶装置
32 通信部
33 入力部
34 表示部
60 CPU
61 記憶装置
62 データ読取部
63 印刷部
64 操作表示部
65 ネットワーク通信部
66 ファクシミリ通信部
67 バス
110A〜110E 属性名記入枠
111,111A〜111E チェック枠
112 下線
113A X座標
113B Y座標
113C 幅
113D 高さ
114A 開始キーワード
114B 終了キーワード
120 タイトル
121A-121C 条項名
122 成立年月日
123 住所
124 氏名
125A〜125C マーキング
126 丸印
130 テキストボックス
131 チェックボックス
132 整数入力ボックス
133 文字列入力ボックス
134A,134B ボタン
300 取得手段
301 抽出手段
302 登録手段
310 文書処理プログラム
311A〜311D 属性抽出プログラム
312 属性付き文書データ
600 取得手段
601 抽出手段
602 登録手段
610 文書処理プログラム
611A〜611D 属性抽出プログラム
612 属性付き文書データ

Claims (8)

  1. 属性情報を含む文書データを取得するとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を取得する取得手段、
    前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段として、コンピュータを機能させるための文書処理プログラム。
  2. 前記抽出方式が、不可視ペンマーク方式のとき、前記位置情報は、前記文書データに含まれる不可視ペンによる像である請求項1に記載の文書処理プログラム。
  3. 前記取得手段は、前記属性抽出情報を属性名毎に取得し、
    前記登録手段は、前記属性情報を前記属性名毎に登録する請求項1または2に記載の文書処理プログラム。
  4. 前記抽出方式情報は、複数の抽出方式のうち選択された抽出方式を示す選択情報を含む請求項1から3のいずれか1項に記載の文書処理プログラム。
  5. 属性情報を含む文書データを取得するとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を取得する取得手段と、
    前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
  6. 文書データを属性情報を含む文書から読み取るとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を属性指示書から読み取る読取手段と、
    前記読取手段により読み取られた前記属性抽出情報に基づいて前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
  7. 属性情報を含む文書から文書データを読み取る文書読取手段と、
    前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を入力する入力手段と、
    前記入力手段により入力された前記属性抽出情報に基づいて前記文書読取手段により読み取られた前記文書データから抽出された前記属性情報を前記文書データの属性情報として登録する登録手段とを備えた文書処理装置。
  8. 文書データを属性情報を含む文書から読み取るとともに、前記文書データから前記属性情報を抽出する抽出方式を示す抽出方式情報とその抽出方式情報が示す抽出方式に対応した前記属性情報の前記文書データにおける位置を示す位置情報とを含む属性抽出情報を属性指示書から読み取る読取手段、及び前記読取手段により読み取られた前記文書データ及び前記属性抽出情報を送信する送信手段を有する文書読取装置と、
    前記送信手段から送信された前記文書データ及び前記属性抽出情報を受信する受信手段、前記受信手段により受信された前記属性抽出情報に基づいて前記文書データから前記属性情報を抽出する抽出手段、及び前記抽出手段により抽出された前記属性情報を前記文書データの属性情報として登録する登録手段を有する文書処理装置とを備えた文書処理システム。
JP2007118957A 2007-04-27 2007-04-27 文書処理プログラム、文書処理装置及び文書処理システム Withdrawn JP2008276487A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007118957A JP2008276487A (ja) 2007-04-27 2007-04-27 文書処理プログラム、文書処理装置及び文書処理システム
US12/060,538 US20080270879A1 (en) 2007-04-27 2008-04-01 Computer-readable medium, document processing apparatus and document processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007118957A JP2008276487A (ja) 2007-04-27 2007-04-27 文書処理プログラム、文書処理装置及び文書処理システム

Publications (1)

Publication Number Publication Date
JP2008276487A true JP2008276487A (ja) 2008-11-13

Family

ID=39888499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007118957A Withdrawn JP2008276487A (ja) 2007-04-27 2007-04-27 文書処理プログラム、文書処理装置及び文書処理システム

Country Status (2)

Country Link
US (1) US20080270879A1 (ja)
JP (1) JP2008276487A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5569520B2 (ja) * 2009-04-16 2014-08-13 日本電気株式会社 手書き入力装置
JP2015126486A (ja) * 2013-12-27 2015-07-06 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2015226247A (ja) * 2014-05-29 2015-12-14 京セラドキュメントソリューションズ株式会社 原稿読取装置及び画像形成装置
JP2016082428A (ja) * 2014-10-17 2016-05-16 富士ゼロックス株式会社 画像処理装置およびシステム
JP2017046086A (ja) * 2015-08-25 2017-03-02 沖電気工業株式会社 スキャナ装置、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886436B2 (en) * 2014-11-06 2018-02-06 Accenture Global Services Limited Conversion of documents of different types to a uniform and an editable or a searchable format
JP7243286B2 (ja) * 2019-02-25 2023-03-22 コニカミノルタ株式会社 画像形成装置及び文書管理システム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58197957A (ja) * 1982-05-14 1983-11-17 Fuji Xerox Co Ltd 画情報処理装置
US4777510A (en) * 1986-12-11 1988-10-11 Eastman Kodak Company Copying apparatus and method with editing and production control capability
US5140650A (en) * 1989-02-02 1992-08-18 International Business Machines Corporation Computer-implemented method for automatic extraction of data from printed forms
US5075787A (en) * 1989-09-14 1991-12-24 Eastman Kodak Company Reproduction apparatus and method with alphanumeric character-coded highlighting for selective editing
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5438430A (en) * 1992-09-25 1995-08-01 Xerox Corporation Paper user interface for image manipulations such as cut and paste
US6646765B1 (en) * 1999-02-19 2003-11-11 Hewlett-Packard Development Company, L.P. Selective document scanning method and apparatus
US7403313B2 (en) * 2001-09-27 2008-07-22 Transpacific Ip, Ltd. Automatic scanning parameter setting device and method
US6970607B2 (en) * 2001-09-05 2005-11-29 Hewlett-Packard Development Company, L.P. Methods for scanning and processing selected portions of an image
US20030063136A1 (en) * 2001-10-02 2003-04-03 J'maev Jack Ivan Method and software for hybrid electronic note taking
US7131061B2 (en) * 2001-11-30 2006-10-31 Xerox Corporation System for processing electronic documents using physical documents
JP2004062350A (ja) * 2002-07-26 2004-02-26 Fujitsu Ltd 文書情報入力プログラム、文書情報入力装置、および文書情報入力方法
US7236653B2 (en) * 2003-03-27 2007-06-26 Sharp Laboratories Of America, Inc. System and method for locating document areas using markup symbols
US8161409B2 (en) * 2004-03-31 2012-04-17 Ricoh Co., Ltd. Re-writable cover sheets for collection management
JP4081056B2 (ja) * 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
US7496832B2 (en) * 2005-01-13 2009-02-24 International Business Machines Corporation Web page rendering based on object matching

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5569520B2 (ja) * 2009-04-16 2014-08-13 日本電気株式会社 手書き入力装置
US9213446B2 (en) 2009-04-16 2015-12-15 Nec Corporation Handwriting input device
JP2015126486A (ja) * 2013-12-27 2015-07-06 京セラドキュメントソリューションズ株式会社 画像処理装置
JP2015226247A (ja) * 2014-05-29 2015-12-14 京セラドキュメントソリューションズ株式会社 原稿読取装置及び画像形成装置
JP2016082428A (ja) * 2014-10-17 2016-05-16 富士ゼロックス株式会社 画像処理装置およびシステム
JP2017046086A (ja) * 2015-08-25 2017-03-02 沖電気工業株式会社 スキャナ装置、及びプログラム

Also Published As

Publication number Publication date
US20080270879A1 (en) 2008-10-30

Similar Documents

Publication Publication Date Title
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
US9223763B2 (en) Document generation apparatus, method, and storage medium
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
JP2008276487A (ja) 文書処理プログラム、文書処理装置及び文書処理システム
US20090019010A1 (en) Document Search Device, Imaging Forming Apparatus, and Document Search System
JP5938393B2 (ja) 画像処理装置
US20150169510A1 (en) Method and system of extracting structured data from a document
JP2007108889A (ja) 知的財産管理システム、知的財産管理方法およびプログラム
JP2021114224A (ja) ファイル検索システム、ファイル検索方法及びプログラム
JP2009093389A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4747828B2 (ja) 履歴管理装置
US20220107971A1 (en) Information processing apparatus and non-transitory computer readable medium
US8422055B2 (en) Computer readable medium, image processing apparatus, image processing system and image processing method
JP5163448B2 (ja) 検査データ生成プログラム、検査データ生成装置及び印刷システム
JP2004157668A (ja) 検索システム、検索方法および検索プログラム
JP2023041243A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
US10664211B2 (en) Image forming apparatus scans document includes images in image areas and using keywords to search images stored in memory similar to scanned images and places in the image areas of scanned document
JP2009048282A (ja) 画像処理プログラム及び画像処理装置
JP2008283314A (ja) 情報出力処理システム、画像形成装置、情報出力処理方法及び情報出力処理プログラム
JP2008108073A (ja) 文献複写処理システム、文献複写処理方法及び文献複写処理プログラム
JP2007110505A (ja) 帳票生成装置及びその制御方法及びコンピュータプログラム及び記憶可読記憶媒体、並びに、帳票システム
JP6897812B2 (ja) 帳票閲覧装置
JP2004220518A (ja) 印刷物作成支援システム、印刷物作成支援方法、およびプログラム
JP5870036B2 (ja) ページの遷移管理システム、遷移管理用サーバ装置および遷移管理用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100312

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20111107