JP2010146123A - 文書処理装置、文書処理方法、及びプログラム - Google Patents

文書処理装置、文書処理方法、及びプログラム Download PDF

Info

Publication number
JP2010146123A
JP2010146123A JP2008320261A JP2008320261A JP2010146123A JP 2010146123 A JP2010146123 A JP 2010146123A JP 2008320261 A JP2008320261 A JP 2008320261A JP 2008320261 A JP2008320261 A JP 2008320261A JP 2010146123 A JP2010146123 A JP 2010146123A
Authority
JP
Japan
Prior art keywords
processing
area
keyword
character recognition
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008320261A
Other languages
English (en)
Inventor
Masashi Kawasaki
真史 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Original Assignee
Murata Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd filed Critical Murata Machinery Ltd
Priority to JP2008320261A priority Critical patent/JP2010146123A/ja
Publication of JP2010146123A publication Critical patent/JP2010146123A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能な文書処理装置を提供する。
【解決手段】 文書処理装置が組み込まれたネットワーク複合機1は、キーワード、該キーワードに対応する処理コマンド、文字認識処理を行う第1領域、及び処理対象となる文字列の抽出を行う第2領域を予め設定する操作部11と、キーワード、処理コマンド、第1領域、及び第2領域を記憶する記憶部16と、定型文書の文書画像データに対して第1領域について文字認識処理を行う文字認識部20と、認識された文字の中からキーワードを検索するキーワード検索部21と、キーワードに対応する処理コマンドを抽出するコマンド抽出部22と、処理コマンドの処理の対象となる文字列を第2領域の中から抽出するデータ抽出部23と、抽出された文字列を処理コマンドに従って処理するIFAX制御部19等とを備える。
【選択図】図1

Description

本発明は、文書処理装置、文書処理方法、及びプログラムに関する。
企業などではその活動に伴って、例えば会議資料や保存資料等の多くの定型書類が大量に作成される。従来、このような会議資料をその会議の出席者宛に送付したり、保存資料を分類毎に分けて保存したりする作業は、事務スタッフによる手作業で行われていた。ここで、特許文献1には、文書の予め定められた箇所あるいは付箋に処理命令、識別子を記述し、それを認識させることによって、処理対象となる文書画像毎にそれぞれ異なる処理(コピー、OCR、FAX送信、メール送信等)を自動的に行うことを可能とする文書処理装置が記載されている。この文書処理装置は、画像入力部から文書画像を入力し、入力された文書画像に対して、文書画像の予め定められた箇所あるいは付箋に処理命令の内容が記載されている情報を文字認識部で抽出して認識する。そして、認識された認識結果と命令データベース部に予め記憶されている処理命令の内容とを比較して、入力された文書画像に記載されている処理命令の内容を判断し、この判断された処理命令に従って文書画像毎の処理を実行する。
特開2002−218125号公報
上述した文書処理装置では、機能を実現するためには、文書画像の予め定められた箇所あるいは付箋に処理命令の内容を記載する必要がある。そのため、文書の予め定められた箇所に処理命令の内容を記載するか、あるいは処理命令の内容が記載された付箋を文書に貼り付けなければならない。すなわち、従来から使用されている定型文書をそのまま用いることができなかった。よって、上述した文書処理装置では、文書処理プロセスにおける事務スタッフによる手作業の大幅な工数削減は難しかった。
本発明は、上記問題点を解消する為になされたものであり、従来から用いられている定型文書をそのまま用いて(すなわち、文書画像の予め定められた箇所あるいは付箋に処理命令の内容を記載することなく)、従来手作業で行われていた文書処理プロセスを自動化することが可能な文書処理装置、文書処理方法、及びプログラムを提供することを目的とする。
本発明に係る文書処理装置は、予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶手段と、文書画像データに対して文字認識処理を行う文字認識手段と、文字認識手段により認識された文字の中からキーワードを検索する検索手段と、検索手段により検索されたキーワードに対応する処理コマンドを記憶手段から抽出するコマンド抽出手段と、コマンド抽出手段により抽出された処理コマンドの処理の対象となる文字列を文字認識手段により認識された文字の中から抽出するデータ抽出手段と、データ抽出手段により抽出された文字列を処理コマンドに従って処理する処理手段とを備えることを特徴とする。
また、本発明に係る文書処理方法は、予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶ステップと、文書画像データに対して文字認識処理を行う文字認識ステップと、文字認識ステップで認識された文字の中からキーワードを検索する検索ステップと、検索ステップで検索されたキーワードに対応する処理コマンドを記憶ステップで記憶された処理コマンドの中から抽出するコマンド抽出ステップと、コマンド抽出ステップで抽出された処理コマンドの処理の対象となる文字列を文字認識ステップで認識された文字の中から抽出するデータ抽出ステップと、データ抽出ステップで抽出された文字列を処理コマンドに従って処理する処理ステップとを備えることを特徴とする。
本発明に係る文書処理装置又は文書処理方法によれば、キーワード及び該キーワードに対応する処理コマンド(すなわち処理内容)が、予め設定され、記憶される。また、認識された文字の中からキーワードが検索されるとともに、検索されたキーワードに対応する処理コマンドが抽出される。さらに処理の対象となる文字列(処理データ)が抽出されるとともに、抽出された文字列が処理コマンドに従って処理される。そのため、例えば、従来から用いられている定型文書で用いられているキーワード(例えば、会議資料、MEMORANDUM、保存資料など)、及び該キーワードに対応する処理コマンド(例えば、送付、保存など)を予め設定して記憶させておき、処理を行う際に、定型文書の中から処理の対象となる文字列(例えば、出席者:XX、TO:YY、技術文書など)を抽出することにより、従来から用いられている定型文書を利用して、自動的に、例えば出席者XX宛に会議資料を送付したり、YY宛にMEMORANDUMを送付したり、保存資料を技術文書の保管場所に保存したりすることが可能となる。よって、従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能となる。
本発明に係る文書処理装置では、記憶手段が、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、文字認識手段が、第1領域に対して文字認識処理を行い、データ抽出手段が、第2領域の中から文字列の抽出を行うことが好ましい。
また、本発明に係る文書処理方法では、記憶ステップにおいて、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、文字認識ステップにおいて、第1領域に対して文字認識処理を行い、データ抽出ステップにおいて、第2領域の中から文字列の抽出を行うことが好ましい。
この場合、予め定められた第1領域内で文字認識処理が行われるとともに、予め定められた第2領域内で文字列の抽出が行われる。よって、文書画像データ全体について処理する必要がないため、認識精度を向上させることができるとともに、処理効率の向上・処理時間の短縮が可能となる。
本発明に係る文書処理装置は、上記キーワード、処理コマンド、第1領域、及び、第2領域を設定する設定手段を備えることが好ましい。
また、本発明に係る文書処理方法は、上記キーワード、処理コマンド、第1領域、及び、第2領域を設定する設定ステップを備えることが好ましい。
このようにすれば、抽出するキーワード、該キーワードに対応する処理コマンドを、用いる定型文書に合わせてユーザが自由に設定することができる。そのため、例えば、従来から用いられているキーワード(例えば、会議資料、MEMORANDUM、保存資料など)を含む定型文書をそのまま利用することができる。また、用いる定型文書に合わせて、文字認識処理を行う第1領域、及び処理の対象となる文字列の抽出を行う第2領域を設定することができるため、認識精度の向上、処理効率の向上・処理時間の短縮が可能となる。
本発明に係るプログラムは、コンピュータを、予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶手段、文書画像データに対して文字認識処理を行う文字認識手段、文字認識手段により認識された文字の中からキーワードを検索する検索手段、検索手段により検索されたキーワードに対応する処理コマンドを記憶手段から抽出するコマンド抽出手段、コマンド抽出手段により抽出された処理コマンドの処理の対象となる文字列を文字認識手段により認識された文字の中から抽出するデータ抽出手段、データ抽出手段により抽出された文字列を処理コマンドに従って処理する処理手段として機能させることを特徴とする。
本発明に係るプログラムが実行されることにより、コンピュータが、記憶手段、文字認識手段、検索手段、コマンド抽出手段、データ抽出手段、及び処理手段として機能する。その結果、上述したように、従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能となる。
本発明に係るプログラムでは、記憶手段が、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、文字認識手段が、第1領域に対して文字認識処理を行い、データ抽出手段が、第2領域の中から文字列の抽出を行うことが好ましい。
この場合、予め定められた第1領域内で文字認識処理が行われるとともに、予め定められた第2領域内で文字列の抽出が行われる。よって、文書画像データ全体について処理する必要がないため、認識精度を向上させることができるとともに、処理効率の向上・処理時間の短縮が可能となる。
本発明に係るプログラムは、コンピュータを、上記キーワード、処理コマンド、第1領域、及び、第2領域を設定する設定手段として機能させることが好ましい。
この場合、本発明に係るプログラムが実行されることにより、コンピュータが、設定手段として機能する。その結果、上述したように、抽出するキーワード、該キーワードに対応する処理コマンドをユーザが自由に設定することができる。そのため、例えば、従来から用いられているキーワード(例えば、会議資料、MEMORANDUM、保存資料など)を含む定型文書をそのまま利用することができる。また、用いる定型文書に合わせて、文字認識処理を行う第1領域、及び処理の対象となる文字列の抽出を行う第2領域を設定することができるため、認識精度の向上、処理効率の向上・処理時間の短縮が可能となる。
本発明によれば、従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能となる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、各図において、同一要素には同一符号を付して重複する説明を省略する。また、ここでは、実施形態に係る文書処理装置が組み込まれたネットワーク複合機(MFP:Multi Functional Peripheral)を例にして説明する。
まず、図1を用いて、ネットワーク複合機1の全体構成について説明する。なお、図1は、ネットワーク複合機1の全体構成を示すブロック図である。
ネットワーク複合機1は、ネットワーク対応されたスキャナ、コピー、プリンタ、及びファクシミリ(FAX)の各機能に加え、インターネットFAX(以下「IFAX」ともいう)、Webサーバなどの機能を有するものである。また、ネットワーク複合機1は、スキャンして生成した文書画像データ、又はパーソナルコンピュータなどの外部機器から入力された文書画像データを送付(配布)したり保存したりする文書処理機能を有している。より具体的には、例えば、会議資料や保存資料などの定型文書(”会議資料””保存資料”等といったキーワードが書面の予め定められた領域に記載されている文書)を、会議資料であれば、その会議の出席者宛に送付(配布)したり、保存資料であれば、分類毎に分けて保存したりする作業(文書処理プロセス)を自動的に行う文書処理機能を有している。これらの各機能を実現するためにネットワーク複合機1は、制御部10、操作部11、表示部12、読取部13、記録部14、コーデック15、記憶部16、モデム17、NCU18、IFAX制御部19、文字認識部20、キーワード検索部21、コマンド抽出部22、データ抽出部23、Webサーバ24、LANインターフェース25などを備えている。なお、各部は信号線26で相互に通信可能に接続されている。
制御部10は、演算を行うマイクロプロセッサ、マイクロプロセッサに各処理を実行させるためのプログラム等を記憶するROM、演算結果などの各種データを一時的に記憶するRAM、及びデータがバックアップされているバックアップRAM等により構成されている。制御部10は、ROMに記憶されているプログラムを実行することにより、以下に説明するネットワーク複合機1を構成する各部の機能を実現するとともに、ネットワーク複合機1を構成する他のハードウェアを統合的に制御する。
操作部11は、ユーザからの入力を受け付ける部分であり、ネットワーク複合機1の各機能を利用したり、各種設定の登録を行うために用いられるタッチパネル及び複数の入力キー、例えば、各種のファンクションキー、スタートキー、ストップキー、テンキー、及び短縮キー等を備えている。操作部11が有するこれらのキーがユーザにより操作されることにより、定型文書に含まれ、文書処理が実行される際に検索されるキーワード、該キーワードに対応した処理コマンド(処理命令)、文字認識処理が行われる書面上の第1領域、及び、文書処理の対象となる文字列の抽出が行われる書面上の第2領域などが設定される(詳細は後述する)。すなわち、操作部11は、特許請求の範囲に記載の設定手段として機能する。また、操作部11は、ユーザによる文書処理の実行を要求する操作を受け付ける。
表示部12は、LCD等を用いた表示装置であり、ネットワーク複合機1の動作状態及び/又は上述した各種設定情報等を表示する。読取部13は、光源及びCCD(Charge Coupled Device)ラインセンサ等によって構成されており、定型文書等の原稿を設定された副走査線密度に応じてライン毎に読み取り、文書画像データを生成する。なお、読取部13で生成された文書画像データは、実行される処理に応じて、記録部14、コーデック15、又は文字認識部20に出力される。記録部14は、電子写真方式のプリンタであり、印刷データ、読取部13により生成された文書画像データ、及びFAX、IFAX等で受信された画像データを用紙にプリントアウトする。
コーデック15は、読取部13で読み取られた文書画像データを符号化圧縮するとともに符号化圧縮されている文書画像データを復号する。記憶部16は、例えばDRAM等で構成されており、コーデック15で符号化された文書画像データ、及びファクシミリ受信された画像データ等を記憶する。また、記憶部16は、操作部11を用いて予め設定された検索用のキーワード、該キーワードと対応した処理コマンド、文字認識処理が行われる書面上の第1領域、及び、文書処理の対象となる文字列の抽出が行われる書面上の第2領域を記憶する。すなわち、記憶部16は、特許請求の範囲に記載の記憶手段として機能する。
モデム(変復調器)17は、ディジタル信号とアナログ信号との間の変復調を行う。また、モデム17は、ディジタル命令信号(DCS)等の各種機能情報の発生及び検出を行う。NCU(Network Control Unit)18は、モデム17と接続されており、モデム17と公衆交換電話網(PSTN)50との接続を制御する。また、NCU18は、送信先のファクシミリ番号に対応した呼出信号の送出、及びその着信を検出する機能を備えている。
IFAX制御部19は、インターネット環境を利用したIFAX機能を司る。IFAX制御部19は、SMTP(Simple Mail Transfer Protocol)に従って電子メールを送信する機能、及び、POP(Post Office Protocol)に従って電子メールを受信する機能を有している。IFAX制御部19は、送信原稿をTIFF形式等の文書画像データとして電子メールに添付し、メールアドレス宛てに送信する。また、IFAX制御部19は、設定された時間毎にPOPサーバから電子メールを受信して添付ファイルをプリントアウトする。
文字認識部20は、読取部13により生成された文書画像データ、又はパーソナルコンピュータなどの外部機器から入力された文書画像データの第1領域に対して文字認識(以下「OCR(Optical Character Recognition)」ともいう)処理を行い文字データ(テキストデータ)を生成する。すなわち、文字認識部20は、特許請求の範囲に記載の文字認識手段として機能する。ここで、図3,4,5に、定型文書の例を示す。図3は会議資料の定型文書例を示し、図4はMEMORANDUMの定型文書例を示し、図5は保存資料の定型文書例を示す。図3に示された会議資料では、書面の上側に位置する第1領域200に、”会議資料”の文字の他、出席者名、開催日が記載されている。なお、上述したように、文字認識部20は、この第1領域200について文字認識処理を実行して文字データ(この場合には”会議資料:ZZZZ””出席者:AAA、BBB、CCC””開催日:平成20年10月17日”)を生成する。
図4に示されたMEMORANDUM(例えば社内文書のメモ用紙及び議事録)では、書面の上側に位置する第1領域300に、”MUMORANDUM”の文字の他、TO:、CC:、RE:が記載されている。なお、上述したように、文字認識部20は、この第1領域300について文字認識処理を実行して文字データ(この場合には”MEMORANDUM””TO:AAAA””CC:BBBB,CCCC,DDDD””RE:ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ”)を生成する。同様に、図5に示された保存資料では、書面の上側に位置する第1領域400に、”保存資料”の文字の他、分類、作成年月日、作成者が記載されている。なお、上述したように、文字認識部20は、この第1領域400について文字認識処理を実行して文字データ(この場合には”保存資料:技術文書 XXXX””平成20年10月17日””作成書:YYYY”)を生成する。なお、文字認識部20により生成された文字データは、キーワード検索部21、データ抽出部23に出力される。
キーワード検索部21は、文字認識部20により生成された文字データの中から、予め設定され記憶部16に記憶されているキーワード(上述した例では”会議資料””MEMORANDUM””保存資料”)を検索する。すなわち、キーワード検索部21は、特許請求の範囲に記載の検索手段として機能する。なお、キーワード検索部21による検索結果はコマンド抽出部22に出力される。
コマンド抽出部22は、キーワード検索部21により検索されたキーワードに対応する処理コマンドを記憶部16から抽出する。例えば、キーワード”会議資料””MEMORANDUM”に対しては「配布(配信)」、キーワード”保存資料”に対しては「保存」といった処理コマンドが抽出される。すなわち、コマンド抽出部22は、特許請求の範囲に記載のコマンド抽出手段として機能する。
データ抽出部23は、コマンド抽出部22により抽出された処理コマンドの処理の対象となる文字列(処理データ)を文字認識部20により認識された文字の中から抽出する。すなわち、データ抽出部23は、特許請求の範囲に記載のデータ抽出手段として機能する。ここで、データ抽出部23は、予め設定され記憶部16に記憶されている第2領域の中から文字列を抽出する。上述した会議資料では、キーワード”会議資料”の下側が第2領域202として設定されている。また、上述したMEMORANDUMでは、キーワード”MEMORANDUM”の下側が第2領域302として設定されている。さらに、上述した保存資料では、キーワード”保存資料”の右側が第2領域402として設定されている。よって、上述した会議資料の例では、データ抽出部23により、会議資料を配布する宛先となる出席者(上述した例では、AAA、BBB、CCC)が抽出される。また、MEMORANDUMの例では、配信先となるTO:及びCC:に記載された名前(上述した例では、AAAA、BBBB,CCCC,DDDD)が抽出され、保存資料の例では、保存分類(上述した例では技術文書 XXXX)が抽出される。
そして、データ抽出部23により抽出された文字列(処理データ)が、コマンド抽出部22により抽出された処理コマンドに従って処理される。すなわち、上述した例では、会議資料が、この会議の出席者:AAA、BBB、CCC宛にFAX又はIFAXで配信される。また、MEMORANDUMが、宛先TO:AAAA、及びCC:BBBB,CCCC,DDDDにFAX又はIFAXで配信される。また、保存資料が、技術文書を格納するフォルダに保存される。すなわち、上述したコーデック15、モデム17、NCU18、及びIFAX制御部19は、特許請求の範囲に記載の処理手段として機能する。なお、文書処理の内容によっては、表示部12、記録部14が処理手段として機能する場合もある。
その他、Webサーバ24は、例えばHTMLで記述されたホームページ、ログインページ、及びファクシミリ操作ページ等のデータに対して、クライアント端末からアクセスして所定のHTTPタスクを実行することを可能にする。LANインターフェース25は、ルータ53等が接続されたLAN51に接続され、インターネット52からの信号をルータ53を介して受信するとともに、LAN51に対して信号やデータを送信する。LANインターフェース25は、信号変換及びプロトコル変換等のインターフェース処理を実行するとともに、データ通信中の通信エラーを検出する。
次に、ネットワーク複合機1の動作、及び文書処理プロセスについて説明する。まず、図2を参照しつつ、上述したキーワード、処理コマンド、第1領域、及び第2領域などの設定方法について説明する。なお、図2は、キーワード、処理コマンド、第1領域、及び第2領域などの設定方法を説明するための図である。図2に示された設定方法では、5段階の階層に分けて各種設定を行うことができるように構成されている。また、ネットワーク複合機1では、文字認識(OCR)処理の内容(操作方法)を設定でき、その設定を簡単に呼び出せるように、操作部11(タッチパネル)上の指定したボタン又はメニュー(機能)に割り付けることができるようになっている。まず、第1段目の階層では、OCRカスタマイズ設定ボタン100が表示される。このOCRカスタマイズ設定ボタン100を選択すると、第2段目の階層として、OCR領域設定ボタン110、キーワード設定ボタン111、アクション設定ボタン112、オリジナル原稿有無ボタン113、及び、ボタン又はメニュー登録ボタン114が表示される。
OCR処理を行う定型文書中の領域(第1領域)を設定するときには、OCR領域設定ボタン110を選択する。このOCR領域設定ボタン110を選択すると、第3段目の階層として、全頁OCR処理ボタン120、及び指定ページOCR処理実行ボタン121が表示される。ここで、全頁OCR処理ボタン120を選択すると、定型文書の全体(全文)に対してOCR処理が行われる。一方、指定ページOCR処理実行ボタン121を選択すると、第4段目の階層において、定型文書の上端から何cmのところまでOCR処理を行うか(すなわち第1領域)を設定することができる。
次に、OCR化した文書画像データ内で検索する文字列(キーワード)を設定するときには、第2段目の階層において、キーワード設定ボタン111を選択する。このキーワード設定ボタン111を選択すると、第3段目の階層として、Noneボタン122、及びキーボタン123が表示される。ここで、Noneボタン122を選択した場合には、特定のキーワードは設定されない。一方、キーボタン123を選択すると、第4段目の階層において、検索するキーワード(文字列)を設定することができる。例えば、キーワードに”会議資料”と設定する際には、”キーワード”入力欄141に”会議資料”と入力する。なお、キーワードは複数設定することができる。
続いて、OCR処理及びキーワード検索の結果、抽出されたキーワードに対する処理コマンド(アクション)を設定するときには、第2段目の階層において、アクション設定ボタン112を選択する。なお、この設定はキーワード毎に行う(すなわち、例えばキーワードが3つあれば3組設定する)。このアクション設定ボタン112を選択すると、第3段目の階層において、抽出ボタン124、デリミタボタン125、スキップボタン126、ロケーションボタン127、及び、宛先ボタン128が表示される。
ここで、抽出する文字列の内容を設定するときには、抽出ボタン124を選択する。この抽出ボタン124を選択すると、第4段目の階層において、全てボタン144、E−Mailボタン145、又は数字ボタン146を選択することにより、全ての文字列、電子メールアドレス、又は数字を抽出することができる。また、第3段目の階層において、デリミタボタン125を選択し、第4段目の階層において”;”を選択することにより、例えばどこまでが宛名の名前を示すのか等を表すデータの区切りとしてカンマを登録することができる。なお、カンマの他、スペースなどを登録することもできる。同様に、第3段目の階層において、スキップボタン126を選択し、第4段目の階層において”:”を選択することにより、スキップする(読み飛ばす)データを登録することができる。すなわち、その文字列をコードとして解析するのか、余分なデータとして解析するのかを登録することができる。
また、抽出したい文字列がキーワードから見て何処の領域にあるのか(第2領域)を設定するときには、第3段目の階層において、ロケーションボタン127を選択する。このロケーションボタン127を選択すると、第4段目の階層において、Noneボタン149、Rightボタン150、及びUnderボタン152が表示される。ここで、Noneボタン149を選択したときには、キーワードの位置に対する抽出領域(第2領域)は登録されない。Rightボタン150を選択し、第4段目の階層において、右側全部ボタン151を選択したときには、キーワードの右側全体が抽出領域(第2領域)として登録される。一方、Underボタン152を選択するとともに、X−Y座標値欄153にX−Y座標値を入力したときには、キーワードの下側で、かつ入力されたX−Y座標の範囲が抽出領域(第2領域)として設定される。また、第4段目の階層で10digitsボタン154を選択することにより、例えば入力データとして数字しか入らないところに数字以外の文字が入っていた場合はエラーであると検出するように設定することもできる。
また、抽出した文字列(処理データ)から宛先を設定するときには、宛先ボタン128を選択する。この宛先ボタン128を選択すると、電話帳検索ボタン155、及び直接入力ボタン157が表示される。ここで、電話帳検索ボタン155を選択し、第4段目の階層において、本体電話帳ボタン156を選択すると、電話帳からその宛先に対する実際の実アドレスが取得されるように設定される。ただし、自動宛先挿入に関しては、社内会議資料に限るとか、自機設定ドメイン宛先に制限する等がセキュリティ上必要である。ドメインが異なる宛先を抽出した場合は手動の介入等により確認する必要がある。一方、直接入力ボタン157を選択すると、電話帳に載っていない宛先をオペレータに入力させることができる。
次に、生成された文書画像データに対する保存/破棄処理を指定するときには、第2段目の階層において、オリジナル原稿有無ボタン113を選択する。このオリジナル原稿有無ボタン113を選択すると、第3段目の階層において、スキャンイメージ保存ボタン129、スキャンイメージ不要ボタン130が表示される。ここで、スキャンイメージ保存ボタン129を選択することにより、スキャンされて生成された文書画像データを保存しておくことができる。一方、スキャンイメージ不要ボタン130を選択したときには、文書処理終了後、文書画像データが破棄される。
最後に、上述した設定をタッチパネルのボタン又はメニューに登録するときには、ボタン又はメニュー登録ボタン114を選択する。以上のようにして、キーワード、処理コマンド、第1領域、及び第2領域などが設定登録されるとともに、記憶部16に記憶される。
上述したようにキーワード、処理コマンド、第1領域、及び第2領域などが予め設定され記憶された後、文字認識(OCR)処理が実行されることによって、その後の文書処理プロセスが自動的に行われる。例えば、図3に示される会議資料を出席者に自動的に配布する場合には、まず、キーワードとして”会議資料”、キーワードに対応する処理コマンドとして「配布」を設定するとともに、文字認識を行う第1領域200、及び配布先(宛先)を抽出する第2領域202を設定する。
その後、スキャンされて生成された、又はパーソナルコンピュータなどの外部機器から入力された会議資料の文書画像データに対して文字認識(OCR)処理を実行する。その場合、まず、文字認識部20により、文書画像データの上側に位置する第1領域200に対して文字認識処理が行われ、文字データ(この場合には”会議資料:ZZZZ””出席者:AAA、BBB、CCC””開催日:平成20年10月17日”)が生成される。続いて、キーワード検索部21により、文字認識部20により生成された文字データの中から、予め設定され記憶部16に記憶されているキーワード(この場合には”会議資料”)が検索される。
次に、コマンド抽出部22により、検索されたキーワード”会議資料”に対応する処理コマンド(この場合には「配布」)が記憶部16から抽出される。また、データ抽出部23により、抽出された処理コマンド「配布」の処理の対象となる文字列(この場合には配布先(宛先)となる文字列”AAA””BBB””CCC”)が第2領域202の中から抽出される。そして、データ抽出部23により抽出された文字列が、処理コマンドに従って処理される。すなわち、会議資料が、この会議の出席者:AAA、BBB、CCCのFAX番号にFAX送信、又は電子メールアドレス宛にIFAX配信される。
また、例えば、図4に示されるMEMORANDUMをTO及びCCに記載されている宛先に自動的に配信する場合には、まず、キーワードとして”MEMORANDUM”、キーワードに対応する処理コマンドとして「配信」を設定するとともに、文字認識を行う第1領域300、及び配信先を抽出する第2領域302を設定する。
その後、スキャンされて生成された、又はパーソナルコンピュータなどの外部機器から入力されたMEMORANDUMの文書画像データに対して文字認識処理(OCR処理)を実行する。その場合、まず、文字認識部20により、文書画像データの上側に位置する第1領域300に対して文字認識処理が行われ文字データ(この場合には”MEMORANDUM””TO:AAAA””CC:BBBB,CCCC,DDDD””RE:ZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZZ”)が生成される。続いて、キーワード検索部21により、文字認識部20により生成された文字データの中から、予め設定され記憶部16に記憶されているキーワード(この場合には”MEMORANDUM”)が検索される。
次に、コマンド抽出部22により、検索されたキーワード”MEMORANDUM”に対応する処理コマンド(この場合には「配信」)が記憶部16から抽出される。また、データ抽出部23により、抽出された処理コマンド「配信」の処理の対象となる文字列(この場合には配信先となる文字列”AAAA””BBBB””CCCC””DDDD”)が第2領域202の中から抽出される。そして、データ抽出部23により抽出された文字列(処理データ)が、コマンド抽出部22により抽出された処理コマンドに従って処理される。すなわち、MEMORANDUMが、配信先TO:AAAA、及びCC:BBBB,CCCC,DDDDにFAX又はIFAXで配信される。
同様に、例えば、図5に示される保存資料を技術文書を格納するフォルダに自動的に保存する場合には、まず、キーワードとして”保存資料”、キーワードに対応する処理コマンドとして「保存」を設定するとともに、文字認識を行う第1領域400、及び保存先を抽出する第2領域402を設定する。
その後、スキャンされて生成された、又はパーソナルコンピュータなどの外部機器から入力された保存資料の文書画像データに対して文字認識(OCR)処理を実行する。その場合、まず、文字認識部20により、文書画像データの上側に位置する第1領域400に対して文字認識処理が行われ文字データ(この場合には”保存資料:技術文書 XXXX””平成20年10月17日””作成書:YYYY”)が生成される。続いて、キーワード検索部21により、文字認識部20により生成された文字データの中から、予め設定され記憶部16に記憶されているキーワード(この場合には”保存資料”)が検索される。
次に、コマンド抽出部22により、検索されたキーワード”保存資料”に対応する処理コマンド(この場合には「保存」)が記憶部16から抽出される。また、データ抽出部23により、コマンド抽出部22により抽出された処理コマンド「保存」の処理の対象となる文字列(この場合には保存分類を示す”技術文書 XXXX”)が第2領域402の中から抽出される。そして、データ抽出部23により抽出された文字列(処理データ)が、コマンド抽出部22により抽出された処理コマンドに従って処理される。すなわち、保存資料が、技術文書を格納するフォルダに保存される。
本実施形態によれば、キーワード及び該キーワードに対応する処理コマンド(すなわち処理内容)が、予め設定され、記憶される。また、認識された文字の中からキーワードが検索されるとともに、検索されたキーワードに対応する処理コマンドが抽出される。さらに処理の対象となる文字列(処理データ)が抽出されるとともに、抽出された文字列が処理コマンドに従って処理される。そのため、例えば、従来から用いられている定型文書で用いられているキーワード(例えば、会議資料、MEMORANDUM、保存資料など)、及び該キーワードに対応する処理コマンド(例えば、送付、保存など)を予め設定して記憶させておき、処理を行う際に、定型文書の中から処理の対象となる文字列(例えば、出席者:XX、TO:YY、技術文書など)を抽出することにより、従来から用いられている定型文書を利用して、自動的に、例えば出席者XX宛に会議資料を送付したり、YY宛にMEMORANDUMを配信したり、保存資料を技術文書の保管場所に保存したりすることが可能となる。よって、従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能となる。
本実施形態によれば、予め定められた第1領域内で文字認識処理が行われるとともに、予め定められた第2領域内で文字列の抽出が行われる。よって、文書画像データ全体について処理する必要がないため、認識精度を向上させることができるとともに、処理効率の向上・処理時間の短縮が可能となる。
本実施形態によれば、抽出するキーワード、該キーワードに対応する処理コマンドを、用いる定型文書に合わせてユーザが自由に設定することができる。そのため、例えば、従来から用いられているキーワード(例えば、会議資料、MEMORANDUM、保存資料など)を含む定型文書をそのまま利用することができる。また、用いる定型文書に合わせて、文字認識処理を行う第1領域、及び処理の対象となる文字列の抽出を行う第2領域を設定することができるため、認識精度の向上、処理効率の向上・処理時間の短縮が可能となる。
次に、コンピュータを、文書処理装置として機能させるプログラムについて説明する。
図6は、プログラムを実行するためのコンピュータ3の構成を示すブロック図である。コンピュータ3は、プログラム32の実行等を制御する制御部(CPU)30と、プログラム32等が記憶されたハードディスク31と、メモリ(RAM)33と、ディスプレイ等から成る表示部34と、キーボード等から成る入力部35と、CD−ROM等の記録媒体に記録されたプログラム等を読み取り可能な読取装置36と、LANボードから成るLANインターフェース37とを備えている。ここで、例えば、読取装置36により読み取られハードディスク31に記憶(インストール)されたプログラム32が実行されることにより、コンピュータ3が、上述したネットワーク複合機1(文書処理装置)を構成する文字認識部20、キーワード検索部21、コマンド抽出部22、データ抽出部23として機能する。なお、コンピュータ3には、SMTP及びPOPに従って電子メールの送受信を行うメーラが搭載されており、この場合、該メーラが特許請求の範囲に記載の処理手段として機能する。
本実施形態によれば、プログラムが実行されることにより、コンピュータが、記憶手段、文字認識手段、検索手段、コマンド抽出手段、データ抽出手段、及び処理手段として機能する。その結果、上述したように、従来から用いられている定型文書をそのまま用いて、従来手作業で行われていた文書処理プロセスを自動化することが可能となる。
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に限定されるものではなく種々の変形が可能である。例えば、上記実施形態では、3つの定型文書の例を示したが、用いることができる定型文書はこれらのものには限られない。例えば、定型の伝票を用いて、文字認識処理を実行することにより、数字、日付、お客様名、電話番号などを認識し、自動的に伝票処理を行うこともできる。
上記実施形態では、文書処理装置がネットワーク複合機に組み込まれた場合について説明したが、要求される文書処理プロセスによっては(例えばFAXが必要ない場合など)、文書処理装置を、例えば単機能のスキャナなどに組み込んでもよい。
上記実施形態では、キーワードなどを設定する際に、操作部11から設定情報を入力したが、ネットワーク複合機1を構成するWebサーバ24を利用し、ブラウザ機能を有する外部のクライアント端末から設定する構成としてもよい。
実施形態に係る文書処理装置が搭載されたネットワーク複合機の全体構成を示すブロック図である。 キーワード、処理コマンド、第1領域、及び第2領域などの設定方法を説明するための図である。 会議資料の定型文書例を示す図である。 MEMORANDUMの定型文書例を示す図である。 保存資料の定型文書例を示す図である。 プログラムを実行するコンピュータの構成を示すブロック図である。
符号の説明
1 ネットワーク複合機
3 コンピュータ
10 制御部
11 操作部
12 表示部
13 読取部
14 記録部
15 コーデック
16 記憶部
17 モデム
18 NCU
19 IFAX制御部
20 文字認識部
21 キーワード検索部
22 コマンド抽出部
23 データ抽出部
24 Webサーバ
25 LANインターフェース
30 制御部
31 ハードディスク
32 プログラム
33 メモリ
34 表示部
35 入力部
36 読取装置

Claims (9)

  1. 予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶手段と、
    文書画像データに対して文字認識処理を行う文字認識手段と、
    前記文字認識手段により認識された文字の中からキーワードを検索する検索手段と、
    前記検索手段により検索されたキーワードに対応する処理コマンドを前記記憶手段から抽出するコマンド抽出手段と、
    前記コマンド抽出手段により抽出された処理コマンドの処理の対象となる文字列を前記文字認識手段により認識された文字の中から抽出するデータ抽出手段と、
    前記データ抽出手段により抽出された前記文字列を前記処理コマンドに従って処理する処理手段と、を備えることを特徴とする文書処理装置。
  2. 前記記憶手段は、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、
    前記文字認識手段は、前記第1領域に対して文字認識処理を行い、
    前記データ抽出手段は、前記第2領域の中から前記文字列の抽出を行うことを特徴とする請求項1に記載の文書処理装置。
  3. 前記キーワード、前記処理コマンド、前記第1領域、及び、前記第2領域を設定する設定手段を備えることを特徴とする請求項2に記載の文書処理装置。
  4. 予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶ステップと、
    文書画像データに対して文字認識処理を行う文字認識ステップと、
    前記文字認識ステップで認識された文字の中からキーワードを検索する検索ステップと、
    前記検索ステップで検索されたキーワードに対応する処理コマンドを前記記憶ステップで記憶された前記処理コマンドの中から抽出するコマンド抽出ステップと、
    前記コマンド抽出ステップで抽出された処理コマンドの処理の対象となる文字列を前記文字認識ステップで認識された文字の中から抽出するデータ抽出ステップと、
    前記データ抽出ステップで抽出された前記文字列を前記処理コマンドに従って処理する処理ステップと、を備えることを特徴とする文書処理方法。
  5. 前記記憶ステップでは、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、
    前記文字認識ステップでは、前記第1領域に対して文字認識処理を行い、
    前記データ抽出ステップでは、前記第2領域の中から前記文字列の抽出を行うことを特徴とする請求項4に記載の文書処理方法。
  6. 前記キーワード、前記処理コマンド、前記第1領域、及び、前記第2領域を設定する設定ステップを備えることを特徴とする請求項5に記載の文書処理方法。
  7. コンピュータを、
    予め設定されたキーワード、及び、該キーワードに対応する処理コマンドを記憶する記憶手段、
    文書画像データに対して文字認識処理を行う文字認識手段、
    前記文字認識手段により認識された文字の中からキーワードを検索する検索手段、
    前記検索手段により検索されたキーワードに対応する処理コマンドを前記記憶手段から抽出するコマンド抽出手段、
    前記コマンド抽出手段により抽出された処理コマンドの処理の対象となる文字列を前記文字認識手段により認識された文字の中から抽出するデータ抽出手段、
    前記データ抽出手段により抽出された前記文字列を前記処理コマンドに従って処理する処理手段、として機能させることを特徴とするプログラム。
  8. 前記記憶手段は、予め設定された文字認識処理を行う第1領域、及び、処理の対象となる文字列の抽出を行う第2領域を記憶し、
    前記文字認識手段は、予め設定された第1領域に対して文字認識処理を行い、
    前記データ抽出手段は、予め設定された第2領域の中から処理の対象となる文字列の抽出を行うことを特徴とする請求項7に記載のプログラム。
  9. コンピュータを、前記キーワード、前記処理コマンド、前記第1領域、及び、前記第2領域を設定する設定手段として機能させることを特徴とする請求項8に記載のプログラム。

JP2008320261A 2008-12-16 2008-12-16 文書処理装置、文書処理方法、及びプログラム Pending JP2010146123A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008320261A JP2010146123A (ja) 2008-12-16 2008-12-16 文書処理装置、文書処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008320261A JP2010146123A (ja) 2008-12-16 2008-12-16 文書処理装置、文書処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2010146123A true JP2010146123A (ja) 2010-07-01

Family

ID=42566531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008320261A Pending JP2010146123A (ja) 2008-12-16 2008-12-16 文書処理装置、文書処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2010146123A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10194851B2 (en) 2013-04-15 2019-02-05 Becton, Dickinson And Company Blood sampling transfer device and blood separation and testing system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10194851B2 (en) 2013-04-15 2019-02-05 Becton, Dickinson And Company Blood sampling transfer device and blood separation and testing system

Similar Documents

Publication Publication Date Title
JP5534666B2 (ja) ドキュメント処理装置およびその制御方法、ドキュメント管理システムおよび該システムにおけるデータ処理方法並びにコンピュータプログラム
JP4066691B2 (ja) プリント制御装置およびプログラム
US20050134903A1 (en) Communication device and data conversion device
US20110019216A1 (en) Network multifunctional peripheral
JP2005244411A (ja) ネットワーク複合機
US20050200906A1 (en) Facsimile machine, facsimile transmission instruction device and facsimile transmission method
JP4657063B2 (ja) ピンポイント検索地図文書入出力装置
JP4860599B2 (ja) 画像処理装置
JP2020184276A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2005327033A (ja) ネットワーク対応型デジタル複合機およびそのプログラム
JP2005267002A (ja) プリントサービスシステムおよび複合機およびプログラムおよび記憶媒体
US20120057186A1 (en) Image processing apparatus, method for managing image data, and computer-readable storage medium for computer program
JP7187145B2 (ja) 画像送信装置、画像送信装置の制御方法、及びプログラム
JP4258666B2 (ja) ネットワーク複合機及びそのアドレス帳データの共有方法
JP2010146123A (ja) 文書処理装置、文書処理方法、及びプログラム
JP2008242820A (ja) ドキュメント処理システム
JP2009086936A (ja) 電子メール配信システム及び電子メール配信方法
JP2008166958A (ja) ドキュメント処理システム及びドキュメント処理装置
JP2005222376A (ja) データ送信システム、データ送信方法、およびプログラム
JP6562689B2 (ja) 通信装置、画像形成装置及び配信システム
JP7422471B2 (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2012156860A (ja) 画像処理装置
JP4360397B2 (ja) ファクシミリ装置
JP2008118489A (ja) ファクシミリ配信システム及びファクシミリ装置
JP2005065067A (ja) 画像処理装置