JP2005339020A - 文書処理装置 - Google Patents
文書処理装置 Download PDFInfo
- Publication number
- JP2005339020A JP2005339020A JP2004154789A JP2004154789A JP2005339020A JP 2005339020 A JP2005339020 A JP 2005339020A JP 2004154789 A JP2004154789 A JP 2004154789A JP 2004154789 A JP2004154789 A JP 2004154789A JP 2005339020 A JP2005339020 A JP 2005339020A
- Authority
- JP
- Japan
- Prior art keywords
- document
- item name
- classification
- classification item
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 分類される文書群に応じて適切な分類項目を決定できるようにする。
【解決手段】 記憶部105に記憶された文書データが表す文書内の単語を認識し、該文書を分類した場合に該文書が分類される分類項目名を、前記単語を用いて特定する。
また、文書データを複合機200から取得し、この取得された文書データが表す文書内の単語を認識し、該文書を分類した場合に該文書が分類される分類項目名を、前記単語を用いて特定する。複合機200から取得した文書について分類項目を特定した後、記憶されていた文書について特定した分類項目名と、複合機200から取得した文書について特定した分類項目名とが識別できるように表示する。
【選択図】 図2
【解決手段】 記憶部105に記憶された文書データが表す文書内の単語を認識し、該文書を分類した場合に該文書が分類される分類項目名を、前記単語を用いて特定する。
また、文書データを複合機200から取得し、この取得された文書データが表す文書内の単語を認識し、該文書を分類した場合に該文書が分類される分類項目名を、前記単語を用いて特定する。複合機200から取得した文書について分類項目を特定した後、記憶されていた文書について特定した分類項目名と、複合機200から取得した文書について特定した分類項目名とが識別できるように表示する。
【選択図】 図2
Description
本発明は、電子化された文書を分類する技術に関する。
業務に大量の文書が用いられる企業や自治体等においては、文書の電子化に関する技術が注目されている。このうち、紙に印刷されて保存されていた文書を電子化する技術は、文書の保存のみに用いられていたオフィス空間を有効に再利用できるようになったり、文書の検索が容易となり文書の再利用性が高まる等、様々な効果を得ることができるため特に注目されており、近年、文書の電子化作業を代行するサービスも表れている。
文書を電子化して保存する手順としては、まず、文書の電子化に係わる作業者が、作業時点においてその部署で使用されている文書の分類項目を参考にして分類項目を作成し、この分類項目に従って文書格納用のディレクトリをコンピュータ装置の記憶部に作成する。そして、文書をスキャナ装置に読み取らせて画像データを生成し、画像データの内容に応じて、作成したディレクトリに各画像データ、即ち、電子化された文書を格納していくというのが一般的である。
ところで、このように文書の電子化に係わる作業者(以下、作業者と称する)が、その都度文書の分類項目を作成していくのは、非常に面倒である。このため、近年、このような作業を軽減する方法が考案されている。例えば、特許文献1や非特許文献1には、Support Vector Machine(以下、SVMと称する)を用いたテキスト分類法が記載されており、この方法によれば、予めサンプルとなる複数の文書をSVMにより学習しておくことにより、文章を自動的に分類することが可能となる。
特開2001−22727号公報
平博順,向内隆文,春野雅彦,「Support Vector Machineによるテキスト分類」,自然言語処理,社団法人情報処理学会,1998年11月,No.128,p173−180
さて、作業時点で使用されている文書に基づいて分類項目が作成された後、紙に印刷されて保存されている古い文書の電子化が行われることとなるが、古い文書を電子化して分類する際には、作業時点で使用されている分類項目に当てはまらない文書がでてくることが多々ある。これは、企業等の職場においては、組織変更や業務の改善等により、使用される文書や文書のフォーマットが替り、常に同じ種類の文書が使用され続けないためである。このように、分類項目に当てはまらない文書がでてくると、結局、人手による分類にたよることとなったり、分類項目を見直す等の手間が発生し、効率良く文書を分類することができなくなる。
また、特許文献1に記載された技術によれば、文書を自動的に分類していくことが可能となるが、分類項目の作成を完全に自動化に頼ってしまうと不具合も生じ得る。例えば、企業等で用いられる文書には、多種多様な文書があるため、自動化に頼ってしまうと、その種類の分だけ分類項目を数多く作成してしまう。分類項目が数多く作成され、細分化されてしまうと、文書を再利用する際に、再利用しようとする文書がどこに分類されたのか検討がつかなくなる虞が生じ得る。
また、特許文献1に記載された技術によれば、文書を自動的に分類していくことが可能となるが、分類項目の作成を完全に自動化に頼ってしまうと不具合も生じ得る。例えば、企業等で用いられる文書には、多種多様な文書があるため、自動化に頼ってしまうと、その種類の分だけ分類項目を数多く作成してしまう。分類項目が数多く作成され、細分化されてしまうと、文書を再利用する際に、再利用しようとする文書がどこに分類されたのか検討がつかなくなる虞が生じ得る。
本発明は、上述した背景の下になされたものであり、分類される文書群に応じて適切な分類項目を決定できるようにする技術を提供することを目的とする。
上述した課題を解決するために本発明は、文書を表す文書データを記憶する記憶手段と、前記記憶手段に記憶された文書データが表す文書を分類し、該文書が分類された分類項目名を特定する第1特定手段と、文書データを外部装置から取得する取得手段と、前記取得手段により取得された文書データが表す文書を分類し、該文書が分類された分類項目名を特定する第2特定手段と、前記第1特定手段により特定された分類項目名と、前記第2特定手段により特定された分類項目名とを識別可能に表示する表示手段とを有する文書処理装置を提供する。
この文書処理装置によれば、記憶されている文書データを分類した場合に該文書が分類される分類項目名と、外部装置から取得した文書データを分類した場合に該文書が分類される分類項目名とが特定され、記憶している文書データについて特定した分類項目名と、外部装置から取得した文書データについて特定した分類項目名とが識別可能に表示される。
この文書処理装置によれば、記憶されている文書データを分類した場合に該文書が分類される分類項目名と、外部装置から取得した文書データを分類した場合に該文書が分類される分類項目名とが特定され、記憶している文書データについて特定した分類項目名と、外部装置から取得した文書データについて特定した分類項目名とが識別可能に表示される。
また本発明は、文書を表す文書データを記憶する記憶手段と、前記記憶手段に記憶された文書データが表す文書を認識し、該文書が有する属性項目名を特定する第1特定手段と、文書データを外部装置から取得する取得手段と、前記取得手段により取得された文書データが表す文書を認識し、該文書が有する属性項目名を特定する第2特定手段と、前記第1特定手段により特定された属性項目名と、前記第2特定手段により特定された属性項目名とを識別可能に表示する表示手段とを有する文書処理装置を提供する。この文書処理装置によれば、記憶されている文書データと、外部装置から取得した文書データから、文書データが表す文書が有する属性項目名が抽出され、記憶している文書データから抽出された属性項目名と、外部装置から取得した文書データから抽出した属性項目名とが識別可能に表示される。
本発明によれば、分類される文書群に応じて適切な分類項目を決定できるようになる。
[A.第1実施形態]
[A−1.構成]
図1は、本発明の実施形態に係わる文書処理システムの構成を例示した図である。
複合機200は、文書の印刷機能や複写機能、文書を光学的に読み取り、文書を表す文書データを生成するスキャン機能等、複数の機能を併せ持つ装置である。複合機200は、LAN(Local Area Netowork)10に接続されており、文書処理装置100など、LAN10に接続されている装置からの要求に応じて、スキャン機能により生成した文書データを出力する。
[A−1.構成]
図1は、本発明の実施形態に係わる文書処理システムの構成を例示した図である。
複合機200は、文書の印刷機能や複写機能、文書を光学的に読み取り、文書を表す文書データを生成するスキャン機能等、複数の機能を併せ持つ装置である。複合機200は、LAN(Local Area Netowork)10に接続されており、文書処理装置100など、LAN10に接続されている装置からの要求に応じて、スキャン機能により生成した文書データを出力する。
文書処理装置100は、電子化された文書を記憶する装置であり、LAN10に接続されている。図2は、本発明の実施形態に係わる文書処理装置100のハードウェア構成を示すブロック図である。図2に示したように、文書処理装置100の各部は、バス101に接続されており、このバス101を介して各部間で通信を行う。
通信部106は、LAN10を介して通信を行うためのインターフェースとして機能する。通信部106は、CPU(Central Processing Unit)102から供給されたデータをLAN10を介して通信相手となる装置へ送出する一方、LAN10を介して入力されたデータをCPU102へ供給する。
U/I(ユーザインターフェース)部107は、キーボードやマウスなどの入力装置を備えており、このキーボードのキーやマウスのボタンが押下されると、押下されたキーを示す信号を、CPU102へ供給する。
I/F(インターフェース)部108は、ディスプレイ装置300へ信号を出力する際のインターフェースとして機能する。I/F部108は、CPU102の制御の下、ディスプレイ装置300に表示させる画像を表す信号を、ディスプレイ装置300へ供給する。
U/I(ユーザインターフェース)部107は、キーボードやマウスなどの入力装置を備えており、このキーボードのキーやマウスのボタンが押下されると、押下されたキーを示す信号を、CPU102へ供給する。
I/F(インターフェース)部108は、ディスプレイ装置300へ信号を出力する際のインターフェースとして機能する。I/F部108は、CPU102の制御の下、ディスプレイ装置300に表示させる画像を表す信号を、ディスプレイ装置300へ供給する。
記憶部105は、例えばハードディスク装置など、データを永続的に記憶する装置(図示略)を具備しており、文書処理装置100の各部を制御する機能を実現するOS(Operating Softwware)ソフトウェアや、文書データを分類する機能を実現する文書処理ソフトウェアなど、各種ソフトウェアを記憶している。また、記憶部105は、図2に示したように、文書データを記憶するための領域として2つの領域を有しており、画像データやテキストデータなど、文書を表す文書データを記憶する。一時格納領域A1は、分類される前の文書データが格納される領域であり、パーソナルコンピュータ400から送られた文書データや、複合機200から取得した文書データであって、後述する分類機能によって分類される前の文書データが格納される。分類領域A2は、後述する分類機能により分類された文書データが格納される領域である。分類領域A2には、文書データを格納する領域として、さらに分類項目名が付されたディレクトリが設けられている。
ROM(Read Only Memory)103は、IPL(Initial Program Loader)と呼ばれるプログラムを記憶している。CPU102は、図示を省略した電源から電力が供給されると、ROM103からIPLを読み出して実行する。CPU102は、IPLを実行すると、記憶部105からOSソフトウェアを読み出し、RAM(Random Access Memory)104を作業エリアとして起動する。CPU102は、OSソフトウェアを起動すると、記憶部105から文書処理ソフトウェアを読出して起動する。CPU102が文書処理ソフトウェアを起動すると、文書データの内容を認識し、文書を分類する分類機能が文書処理装置100において実現する。また、CPU102が文書処理ソフトウェアを起動すると、パーソナルコンピュータ400から送信された文書データを記憶したり、複合機200から文書データを取得して記憶する機能が実現する。このように文書処理装置100は、CPU102がソフトウェアに従って動作することにより種々の機能が実現し、各種処理・制御が行われるという点で、一般的なコンピュータ装置と同様の構成を有していると言える。
[A−2.動作]
次に本実施形態の動作について、図3に示したフローチャートを用いて説明する。なお、以下の説明においては、既に文書処理装置100が、パーソナルコンピュータ400から送信された複数の文書データを一時格納領域A1に複数格納している場合を想定して、動作の説明を行う。また、一時格納領域A1に格納されている文書データはテキストデータであり、複合機200にて生成される文書データは画像データである場合を想定する。なお、以下の説明においては、文書を表しているデータという意味において、このテキストデータおよび画像データのいずれも文書データと称する。
次に本実施形態の動作について、図3に示したフローチャートを用いて説明する。なお、以下の説明においては、既に文書処理装置100が、パーソナルコンピュータ400から送信された複数の文書データを一時格納領域A1に複数格納している場合を想定して、動作の説明を行う。また、一時格納領域A1に格納されている文書データはテキストデータであり、複合機200にて生成される文書データは画像データである場合を想定する。なお、以下の説明においては、文書を表しているデータという意味において、このテキストデータおよび画像データのいずれも文書データと称する。
まず、文書の電子化作業を行う作業者により、文書処理装置100のU/I部107が具備するキーボードおよびマウスが操作され、記憶部105の一時格納領域A1に格納されている複数の文書データが指定された後、指定された文書データの分類を指示する旨の操作が行われる。CPU102は、U/I部107から供給される信号により、作業者の指示を特定し、指定された文書データを記憶部105から読出し(ステップSA1)、読出した文書データを、例えば、特開2001−22727号公報に記載されている、SVMを用いた分類方法などの公知の方法を用いて分類する(ステップSA2)。なお、文書データを分類する方法は、SVMを用いた方法に限定されるものでなく、他の方法であってもよいことは勿論である。
CPU102は、指定された文書データの分類を終えると、分類の項目名を表す分類項目名データを生成する(ステップSA3:第1特定手段)。この後、CPU102は、指定された全ての文書データについて文書の分類と、分類項目名データの生成が終了したか否かを判断する(ステップSA4)。CPU102は、全ての文書データについて分類が終了していないと判断した場合には(ステップSA4:NO)、ステップSA1へ戻り、分類を終了していない文書データを記憶部105から読出した後、読出した文書データの分類を行い、分類項目名データを生成する。
CPU102は、ステップSA4でYESと判断すると、まず、生成した分類項目名データが表す分類項目名と同じ名前を付したディレクトリを、分類領域A2に作成し(ステップSA5)、分類された文書データを、作成されたディレクトリに格納する。次に、CPU102は、I/F部108を介してディスプレイ装置300を制御し、生成したディレクトリ名と共に、各ディレクトリに分類された文書の数を、例えば、図4に例示したようにディスプレイ装置300に表示させる(ステップSA6)。図4に例示したように、分類により生成されたディレクトリ名が表示されると、ディスプレイ装置300に表示された分類項目名による分類が妥当であるか否かが、作業者と、文書の管理を担当している部署の者との間で検討される。
ここで、紙に印刷された文書を読み取って電子化するにあたり、分類項目名として不足している分類項目名がある場合には、分類項目名の追加が行われる。作業者により、U/I部107が操作され、図4に示されている「分類項目名追加」ボタンを押下する旨の操作が行われた後、追加する分類項目名の名称を入力する旨の操作が行われると(ステップSA7:第1入力手段)、CPU102は、U/I部107から供給される信号により作業者の行った操作を解釈し、入力された名称を表す分類項目名データを生成すると共に、入力された名称のディレクトリを分類領域A2に作成する(ステップSA8)。ディレクトリが追加されると、図4と同様に、ディレクトリ名の一覧が表示される。
この後、紙に印刷されて保存されている文書の一部が、作業者により複合機200に載置される。そして、作業者により複合機200が操作され、載置した文書のスキャンを指示する旨の操作が行われると、複合機200は、載置された文書を読み取り、読み取った文書を表す文書データ(画像データ)を生成する。
複合機200において文書の読み取りが終了した後、作業者により、U/I部107が操作され、図4に示されている「OK」ボタンを押下する旨の操作が行われると(ステップSA7:OK)、CPU102は、通信部106を介して複合機200と通信を行い、複合機200に記憶されている文書データを取得する(ステップSA9:取得手段)。
複合機200で生成された文書データは、文書を光学的に読み取ることにより生成された画像データであるため、CPU102は、複合機200から文書データを取得すると、まず、取得した文書データを解析し、文書データ中にある文字を認識する(ステップSA10)。CPU102は、文書データ中にある文字を認識すると、この認識した文字列により表されている文書を、例えば、公知の方法であるSVMを用いた分類方法を用いて分類する(ステップSA11)。
CPU102は、複合機200から取得した文書データの分類を終えると、分類項目名データを生成する(ステップSA12:第2特定手段)。次にCPU102は、この生成された分類項目名データが表す分類項目名が、既に生成されている分類項目名データが表す分類項目名と同じであるか否かを判断する(ステップSA13)。CPU102は、ステップSA13でYESと判断した場合には、複合機200から取得した文書データを、分類項目名データで特定されるディレクトリへ格納する(ステップSA14)。CPU102は、ステップSA13でNOと判断した場合には、文書データをディレクトリに格納せずステップSA15へ処理を進める。
次に、CPU102は、I/F部108を介してディスプレイ装置300を制御し、生成されている分類項目名データが表す分類項目名と共に、この分類項目名で特定されるディレクトリに分類された文書の数を、例えば、図5に例示したようにディスプレイ装置300に表示させる(ステップSA15)。この際、CPU102は、ステップSA11にて新たに生成された分類項目がある場合には、新たに生成された分類項目名の下に線を引き、新たに生成された分類項目名が識別できるようにする。
文書の分類結果が表示された後、複数の紙の文書を読み取らせて分類を続ける場合には、作業者は複合機200を操作し文書を読み取らせる。この後、作業者により図5に示した「次文書分類」ボタンを押下する旨の操作が行われると(ステップSA16:YES)、ステップSA9〜SA16の処理が行われる。複数の文書が読み取られ、この読み取られた文書を表す文書データが、CPU102により分類されると、新たに生成された分類項目名に下線が引かれ、ディスプレイ装置300に表示される(表示手段)。ここで、下線が引かれた分類項目名が表示されている場合、紙に印刷されて保存されている文書を読み取って電子化するにあたり、ディスプレイ装置300に表示された分類項目による分類が妥当であるか否かが、作業者と、文書の管理を担当している部署の者との間で検討され、検討結果に応じて、新たに分類項目名を付したディレクトリが作成される。
以上説明したように、本実施形態によれば、まず、記憶している複数のサンプルとなる文書に対して自動分類が行われ、生成された分類項目が表示される。分類項目の検討が作業者と文書の管理を担当している部署の者との間で行われ、必要に応じて分類項目を追加することができる。また、分類項目が決定された後、文書の分類が行われ、サンプルとなる文書を分類した時に生成された分類項目と異なる分類項目が生成された場合には、その分類項目が表示されるので、分類項目が不足していたことが分かり、電子化して保存しようとする文書に対して適切な分類項目を決めることが可能となる。
また、記憶しているサンプルとなる文書から特定した分類項目と、複合機200から取得した文書から特定した分類項目が識別可能に表示されるので、紙文書をスキャンする前に特定した分類項目が適切な分類項目であったか否かを容易に認識することができる。
また、記憶しているサンプルとなる文書から特定した分類項目と、複合機200から取得した文書から特定した分類項目が識別可能に表示されるので、紙文書をスキャンする前に特定した分類項目が適切な分類項目であったか否かを容易に認識することができる。
[B.第2実施形態]
次に本発明の第2実施形態について説明する。なお、本実施形態において、文書処理装置100のハードウェア構成は、上述した第1実施形態と同じであるため、ハードウェアの構成については、その説明を省略する。本実施形態においては、ソフトウェアに従ってCPU102が行う処理の流れが、第1実施形態と異なり、CPU102は、文書データを解析し、文書名や作成者名、作成部門名や作成日など、文書が有する種々の属性を抽出する。
次に本発明の第2実施形態について説明する。なお、本実施形態において、文書処理装置100のハードウェア構成は、上述した第1実施形態と同じであるため、ハードウェアの構成については、その説明を省略する。本実施形態においては、ソフトウェアに従ってCPU102が行う処理の流れが、第1実施形態と異なり、CPU102は、文書データを解析し、文書名や作成者名、作成部門名や作成日など、文書が有する種々の属性を抽出する。
次に、本実施形態の動作について、図6に示したフローチャートを用いて説明する。なお、以下の説明においては、既に文書処理装置100が、パーソナルコンピュータ400から送信された複数の文書データを一時格納領域A1に複数格納している場合を想定して、動作の説明を行う。
まず、文書の電子化作業を行う作業者により、文書処理装置100のU/I部107が具備するキーボードおよびマウスが操作され、記憶部105の一時格納領域A1に格納されている複数の文書データが指定された後、指定された文書データの分類を指示する旨の操作が行われる。CPU102は、U/I部107から供給される信号により、作業者の指示を特定し、指定された文書データを記憶部105から読出し(ステップSB1)、例えば、特開平10−293811号公報に記載されている技術等の公知の技術により、文書の作成部門や文書の作成年月日など、文書が有する種々の属性項目名を抽出する(ステップSB2:第1抽出手段)。
CPU102は、属性項目名の抽出を終えると、例えば、「作成部門」や「作成年月日」など、この抽出した属性項目名を表す属性項目名データを生成する(ステップSB3)。この後、CPU102は、指定された全ての文書データについて、属性項目名データの生成が終了したか否かを判断する(ステップSB4)。CPU102は、指定された全ての文書データについて、属性項目名データの生成が終了していないと判断した場合には(ステップSB4:NO)、ステップSB1へ戻り、属性項目名データの生成を終了していない文書データを記憶部105から読出した後、読出した文書データが有する属性項目名を抽出し、属性項目名データを生成する。
CPU102は、ステップSB4でYESと判断すると、抽出した属性項目名を、例えば、図7に例示したようにディスプレイ装置300に表示させる(ステップSB5)。図7に例示したように、属性項目名が表示されると、ディスプレイ装置300に表示された属性項目名による分類を行うのが妥当であるか否かが、作業者と、文書の管理を担当している部署の者との間で検討される。
ここで、抽出された属性項目名が妥当であると判断されると、紙に印刷されて保存されている文書の一部が、作業者により複合機200に載置される。そして、作業者により複合機200が操作され、載置した文書のスキャンを指示する旨の操作が行われると、複合機200は、載置された文書を読み取り、読み取った文書を表す文書データ(画像データ)を生成する。
複合機200において文書の読み取りが終了した後、作業者により、U/I部107が操作され、図7に示されている「OK」ボタンを押下する旨の操作が行われると(ステップSB6:YES)、まずCPU102は、生成した属性項目名データが表す属性項目名と同じ名前を付したディレクトリを、分類領域A2に作成する(ステップSB7)。次にCPU102は、通信部106を介して複合機200と通信を行い、複合機200に記憶されている文書データを取得する(ステップSB8:取得手段)。
複合機200で生成された文書データは、文書を光学的に読み取ることにより生成された画像データであるため、CPU102は、複合機200から文書データを取得すると、まず、取得した文書データを解析し、文書データ中にある文字を認識する(ステップSB9)。CPU102は、文書データ中にある文字を認識すると、ステップSB2と同様に、認識された文字から構成される文書が有する種々の属性項目名を抽出し(ステップSB10:第2抽出手段)、この抽出した属性項目名を表す属性項目名データを生成する(ステップSB11)。次にCPU102は、この抽出された属性項目名が、既に抽出されている属性項目名と同じであるか否かを判断する(ステップSB12)。CPU102は、ステップSB12でYESと判断した場合には、複合機200から取得した文書データを、この属性項目名で特定されるディレクトリへ格納する(ステップSB13)。CPU102は、ステップSB12でNOと判断した場合には、文書データをディレクトリに格納せずステップSB14へ処理を進める。
次に、CPU102は、I/F部108を介してディスプレイ装置300を制御し、抽出された属性項目名と共に、この属性項目名で特定されるディレクトリに分類された文書の数を、例えば、図8に例示したようにディスプレイ装置300に表示させる(ステップSB14:表示手段)。この際、CPU102は、ステップSB10にて新たに抽出された属性名項目名がある場合には、新たに抽出された属性項目名の下に線を引き、新たに抽出された属性項目名が識別できるようにする。
文書の分類結果が表示された後、複数の紙の文書を読み取らせて属性項目名の抽出を続ける場合には、作業者は複合機200を操作し文書を読み取らせる。この後、作業者により図8に示した「次文書取得」ボタンを押下する旨の操作が行われると(ステップSB15:YES)、ステップSB8〜SB14の処理が行われる。複数の文書が読み取られ、この読み取られた文書から新たな属性項目名が抽出されると、紙の文書を読み取る前に抽出されていた属性項目名と異なる属性項目名に下線が引かれ、ディスプレイ装置300に表示される。ここで、下線が引かれた属性項目名が表示されている場合、紙に印刷されて保存されている文書を読み取って電子化するにあたり、ディスプレイ装置300に表示された属性項目名による分類が妥当であるか否かが、作業者と、文書の管理を担当している部署の者との間で検討され、検討結果に応じて、新たに属性名を付したディレクトリが作成される。
以上説明したように、本実施形態によれば、まず、複数のサンプルとなる文書に対して文書の属性項目名の抽出が行われ、抽出された属性項目名が表示される。属性項目名の検討が作業者と文書の管理を担当している部署の者との間で行われ、必要に応じて、文書の分類に用いられる属性項目名を追加することができる。また、文書の分類に使用される属性項目名が決定された後、文書の分類が行われ、サンプルとなる文書から抽出された属性項目名と異なる属性項目名が抽出された場合には、その属性項目名が表示されるので、属性項目名が不足していたことが分かり、文書の分類に適切な属性項目名を決めることが可能となる。
また、記憶しているサンプルとなる文書から抽出した属性項目名と、複合機200から取得した文書から抽出した属性項目名が識別可能に表示されるので、紙文書をスキャンする前に抽出した属性項目名が文書を分類するのに適切であったか否かを容易に認識することができる。
また、記憶しているサンプルとなる文書から抽出した属性項目名と、複合機200から取得した文書から抽出した属性項目名が識別可能に表示されるので、紙文書をスキャンする前に抽出した属性項目名が文書を分類するのに適切であったか否かを容易に認識することができる。
[C.変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
上述した第1実施形態において、ステップSA1で読出されるデータは、複合機200から取得されて一時格納領域A1に格納された文書データであってもよい。
上述した第1実施形態において、複合機200から文書データを取得した後、新たに分類項目名データが生成された場合には、この分類項目名データが示す分類項目名を付したディレクトリを生成し、このディレクトリに、文書データを格納するようにしてもよい。
また、上述した第2実施形態において、複合機200から文書データを取得した後、新たに属性項目名データが生成された場合には、この属性項目名データが示す属性項目名を付したディレクトリを生成し、このディレクトリに、文書データを格納するようにしてもよい。
また、上述した第2実施形態において、複合機200から文書データを取得した後、新たに属性項目名データが生成された場合には、この属性項目名データが示す属性項目名を付したディレクトリを生成し、このディレクトリに、文書データを格納するようにしてもよい。
上述した実施形態において、複合機200と文書処理装置100は別体となっているが、複合機200(文書データ生成手段)に文書処理装置100の機能を持たせ、一体化した構成としてもよい。また、文書処理装置100に文書のスキャン機構およびスキャン機能を持たせ(文書データ生成手段)、文書の読み取り手段を一体化した構成としてもよい。
上述した第1実施形態において、複合機200から文書データを取得した後に生成された分類項目名を表示する際には、下線を引くのではなく、文字の色替えや網掛け、フォントの変更等により、紙の文書を読み取る前に生成されていた分類項目名と識別可能に表示するようにしてもよい。また、上述した第2実施形態においても、複合機200から文書データを取得した後に抽出された属性項目名を表示する際には、下線を引くのではなく、文字の色替えや網掛け、フォントの変更等により、紙の文書を読み取る前に抽出されていた属性項目名と識別可能に表示するようにしてもよい。
上述した実施形態においては、分類項目名または属性項目名を削除するためのメニュー画面を設け(第2入力手段)、このメニュー画面に入力された分類項目名または属性項目名を削除するようにしてもよい。この態様によれば、文書を分類するのに不要と考えられる項目または属性を削除することが可能となり、細分化されて文書が分類されるのを防ぐことが可能となる。
10・・・LAN、100・・・文書処理装置、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・通信部、107・・・U/I部、108・・・I/F部、200・・・複合機、300・・・ディスプレイ装置、400・・・パーソナルコンピュータ。
Claims (7)
- 文書を表す文書データを記憶する記憶手段と、
前記記憶手段に記憶された文書データが表す文書を分類し、該文書が分類された分類項目名を特定する第1特定手段と、
文書データを外部装置から取得する取得手段と、
前記取得手段により取得された文書データが表す文書を分類し、該文書が分類された分類項目名を特定する第2特定手段と、
前記第1特定手段により特定された分類項目名と、前記第2特定手段により特定された分類項目名とを識別可能に表示する表示手段と
を有する文書処理装置。 - 前記取得手段により取得される文書データは、文書を表す画像データであり、
前記第2特定手段は、該画像データにより表されている文書を認識し、この文書を分類し、該文書が分類された分類項目名を特定すること
を特徴とする請求項1に記載の文書処理装置。 - 印刷された文書を読み取り、読み取った文書を表す文書データ生成手段を有し、
前記第2特定手段は、前記文書データ生成手段により生成された文書データが表す文書を分類し、該文書が分類された分類項目名を特定すること
を特徴とする請求項1に記載の文書処理装置。 - 前記第1特定手段により特定された分類項目名と、前記第2特定手段により特定された分類項目名毎に、分類項目名の項目に分類された文書を対応付けて記憶することを特徴とする請求項1に記載の文書処理装置。
- 分類項目名が入力される第1入力手段を有し、
前記第1入力手段に入力された分類項目名と、前記第1特定手段により特定された分類項目名と、前記第2特定手段により特定された分類項目名毎に、分類項目名の項目分類された文書を対応付けて記憶し、
前記表示手段は、前記第1入力手段に入力された分類項目名を表示すること
を特徴とする請求項1に記載の文書処理装置。 - 分類項目名が入力される第2入力手段を有し、前記第2入力手段に入力された分類項目名を削除することを特徴とする請求項1に記載の文書処理装置。
- 文書を表す文書データを記憶する記憶手段と、
前記記憶手段に記憶された文書データが表す文書を認識し、該文書が有する属性項目名を特定する第1特定手段と、
文書データを外部装置から取得する取得手段と、
前記取得手段により取得された文書データが表す文書を認識し、該文書が有する属性項目名を特定する第2特定手段と、
前記第1特定手段により特定された属性項目名と、前記第2特定手段により特定された属性項目名とを識別可能に表示する表示手段と
を有する文書処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154789A JP2005339020A (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154789A JP2005339020A (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005339020A true JP2005339020A (ja) | 2005-12-08 |
Family
ID=35492546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004154789A Pending JP2005339020A (ja) | 2004-05-25 | 2004-05-25 | 文書処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005339020A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10293811A (ja) * | 1997-04-21 | 1998-11-04 | Fujitsu Ltd | 文書認識装置及び方法並びにプログラム記憶媒体 |
JPH1166230A (ja) * | 1997-08-11 | 1999-03-09 | Matsushita Electric Ind Co Ltd | 文書認識装置、文書認識方法及び媒体 |
JP2001022727A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 |
JP2003256437A (ja) * | 2002-03-05 | 2003-09-12 | Matsushita Electric Ind Co Ltd | チェックリスト最適化システムおよびチェックリスト最適化方法 |
WO2003096168A2 (en) * | 2002-05-09 | 2003-11-20 | Kavado Inc. | Method for the automatic setting and updating of a security policy |
-
2004
- 2004-05-25 JP JP2004154789A patent/JP2005339020A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10293811A (ja) * | 1997-04-21 | 1998-11-04 | Fujitsu Ltd | 文書認識装置及び方法並びにプログラム記憶媒体 |
JPH1166230A (ja) * | 1997-08-11 | 1999-03-09 | Matsushita Electric Ind Co Ltd | 文書認識装置、文書認識方法及び媒体 |
JP2001022727A (ja) * | 1999-07-05 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 |
JP2003256437A (ja) * | 2002-03-05 | 2003-09-12 | Matsushita Electric Ind Co Ltd | チェックリスト最適化システムおよびチェックリスト最適化方法 |
WO2003096168A2 (en) * | 2002-05-09 | 2003-11-20 | Kavado Inc. | Method for the automatic setting and updating of a security policy |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5061151B2 (ja) | オブジェクト取得装置、オブジェクト管理システム、オブジェクト管理方法 | |
JP2007034847A (ja) | 検索装置及び検索方法 | |
JP5660100B2 (ja) | 文書管理サーバ、文書管理サーバの制御方法、およびそのプログラム、文書管理システム、文書管理システムの制御方法、およびそのプログラム | |
JPH10111871A (ja) | 文書情報管理システム | |
JP2005135211A (ja) | 文書管理方法および文書管理装置 | |
JP2008059157A (ja) | 書類確認支援システム、書類確認支援装置およびプログラム | |
JP4586281B2 (ja) | データ送信管理装置、データ送信管理方法、データ送信管理プログラムおよびデータ送信管理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007036406A (ja) | 画像編集装置 | |
JP2010074290A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP2017126155A (ja) | 情報処理装置、システム、情報処理方法及びプログラム | |
JP2004171304A (ja) | 電子化原稿管理装置及びその制御方法、電子化原稿管理システム、プログラム | |
JP4682747B2 (ja) | 文書処理装置、ルールデータ生成方法およびプログラム | |
JP2013121114A (ja) | Fax送信装置、システム、制御方法、及びプログラム | |
US20060136823A1 (en) | Image processing device | |
JP4874079B2 (ja) | 文書管理システム、サーバ、文書管理方法、文書管理プログラム | |
JP2004171290A (ja) | 文書管理支援装置及びその方法、文書管理支援システム、並びにプログラム | |
JP2007325196A (ja) | 文書管理装置および文書管理方法 | |
JP2005339020A (ja) | 文書処理装置 | |
JP7154982B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
JP2006252455A (ja) | ファイル管理装置、ファイル管理方法及びファイル管理プログラム | |
JPH1125077A (ja) | 文書管理装置及びシステム及び方法 | |
JP2018092569A (ja) | 情報処理システム、情報処理装置、情報処理方法及びプログラム | |
JPH10240724A (ja) | 文書管理装置及びシステム及び方法 | |
JP5708372B2 (ja) | 文書ファイルの差分抽出システム、画像処理装置、文書ファイルの差分抽出方法及びプログラム | |
JP4296855B2 (ja) | 操作画面表示装置、及び操作画面表示プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100824 |