JP2007004429A - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP2007004429A
JP2007004429A JP2005183123A JP2005183123A JP2007004429A JP 2007004429 A JP2007004429 A JP 2007004429A JP 2005183123 A JP2005183123 A JP 2005183123A JP 2005183123 A JP2005183123 A JP 2005183123A JP 2007004429 A JP2007004429 A JP 2007004429A
Authority
JP
Japan
Prior art keywords
document
storage area
period
word
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005183123A
Other languages
English (en)
Inventor
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Tsuguaki Ryu
紹明 劉
Atsushi Ito
篤 伊藤
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005183123A priority Critical patent/JP2007004429A/ja
Publication of JP2007004429A publication Critical patent/JP2007004429A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 文書に対して分類等の学習処理を行う際に、通常の学習処理に影響を与えることなく一時的な使用に対応した学習処理も行うことができる技術を提供する。
【解決手段】 文書処理装置1の記憶部12に、通常の学習処理で用いる標準辞書を記憶させるとともに、臨時の学習処理で用いるための臨時辞書を記憶させる。また、臨時学習を行う臨時学習期間を記憶部12に記憶させる。文書が入力されると、文書処理装置1は、臨時学習期間においては臨時辞書と標準辞書を用いて臨時学習処理を行い、この期間外においては標準辞書を用いて通常学習処理を行う。
【選択図】 図1

Description

本発明は、文書に対して分類等の学習処理を行う技術に関する。
近年、紙に印刷されて保存されていた文書を光学的に読み取って電子化し、電子データとして管理する技術が注目されている。文書を電子化して保存する手順としては、まず、文書の電子化に係る作業者が分類項目を作成し、この分類項目に従って文書格納用のディレクトリをコンピュータ装置の記憶部に作成する。そして、その文書をスキャナ装置に読み取らせて画像データを生成し、画像データの内容に応じて、作成したディレクトリに各画像データ、即ち、電子化された文書を格納していくというのが一般的である。
ところで、このように文書の電子化に係る作業者(以下、作業者と称する)が、その都度文書の分類項目を作成していくのは非常に面倒である。このため、このような作業を軽減する方法が近年考案されている。例えば、特許文献1には、Support Vector Machine(以下、SVMと称する)を用いたテキスト分類法が記載されており、この方法によれば、予めサンプルとなる複数の文書をSVMにより学習しておくことにより、文書を自動的に分類することが可能となる。
また、文書を分類する際の分類項目名称(例えば、ディレクトリ名等)の特定方法としては、文書を光学的に読み取って電子化し、文字認識を行った上で、文書に記されている単語を抽出し、抽出された単語から分類項目名称を特定する方法が用いられている。例えば、特許文献2には、入力された画像情報を文字認識し、文字認識した結果に応じて項目種別を判定する方法が記載されており、この方法によれば、文書に記されている項目名称を抽出することによって分類項目名称を生成することが可能である。
このように文書の分類や分類項目名称の生成等を自動的に行う装置を用いれば、文書の電子化に係る作業者の作業を軽減させることができる。また、このような装置において、入力される文書に応じて分類項目(または分類項目名称)を自動的に更新させていく、つまり入力される文書に応じて分類項目等を装置が学習していくようにすれば、初期設定時において入力が想定されていなかった種類の文書を入力した場合であっても、入力される文書に適した分類を行うことができるようになり、作業者にとってより使い易い環境を自動的に構築することが可能となる。
特開2001−22727号公報 特開平11−110479号公報
特許文献1や特許文献2に記載された技術によれば、入力される文書を自動的に分類していくことが可能になるが、入力される全ての文書について、分類項目(または分類項目名称)学習を行ってしまうと、不具合が生じる場合がある。例えば、企業等で用いられる文書には多種多様な文書があるが、その種類の分だけ分類項目を数多く作成してしまうと、文書の分類が細分化してしまい、文書を再利用する際に再利用しようとする文書がどこに分類されたのか検討がつかなくなる虞がある。また、例えば、企業等の職場において、ある作業者が装置を一時的に使用する場合がある。このような場合に、一時的な使用によって分類項目名称が変更されてしまうと、その後、その装置を継続して使用している作業者にとっては、それまで使用していた分類項目名称が削除されてしまったことになり、作業者にとって混乱が生じる虞がある。
本発明は上述した背景に鑑みてなされたものであり、その目的は、文書に対して分類等の学習処理を行う際に、通常の学習処理に影響を与えることなく一時的な使用に対応した学習処理も行うことができる技術を提供することである。
上記課題を達成するために、本発明は、文書を表す文書データが入力される文書データ入力手段と、期間を指定する期間指定手段と、第1の記憶領域と第2の記憶領域とを有し、これら第1の記憶領域と第2の記憶領域に各々複数の単語を記憶する記憶手段と、前記文書データ入力手段に入力された文書データが表す文書内の各単語を認識する認識手段と、前記期間指定手段によって指定された期間においては、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第1の記憶手段に記憶されていない場合にはその単語を前記第1の記憶領域に記憶させる第1の学習手段と、前記期間指定手段によって指定された期間外においては、前記記憶手段の前記第2の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第2の記憶手段に記憶されていない場合にはその単語を前記第2の記憶領域に記憶させる第2の学習手段と、前記第1の学習手段又は前記第2の学習手段が行った処理結果を出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
また、本発明は、文書を表す文書データが入力される文書データ入力手段と、期間を指定する期間指定手段と、前記文書データ入力手段に入力された文書データから項目名称を抽出する項目名称抽出手段と、第1の記憶領域と第2の記憶領域とを有し、前記第1の記憶領域と前記第2の記憶領域に各々複数の前記項目名称を記憶する記憶手段と、前記文書データ入力手段に入力された文書データが表す文書内の各単語を認識する認識手段と、前記期間指定手段によって指定された期間においては、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第1の記憶手段に記憶されていない場合にはその項目名称を前記第1の記憶領域に記憶させる第1の学習手段と、前記期間指定手段によって指定された期間外においては、前記記憶手段の前記第2の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第2の記憶領域に記憶されていない場合にはその項目名称を前記第2の記憶領域に記憶させる第2の学習手段と、前記第1の学習手段又は前記第2の学習手段によって抽出された項目名称を出力する出力手段とを備えることを特徴とする文書処理装置を提供する。
本発明の好ましい態様において、ユーザを識別するユーザ識別情報と、前記期間とが対応付けて記憶される識別情報記憶手段と、前記ユーザ識別情報が入力される識別情報受付手段とを備え、前記期間指定手段は、前記識別情報受付手段に入力されたユーザ識別情報を前記識別情報記憶手段から検索して、検索されたものと対応する期間を読み出し、読み出した期間を指定するようにしてもよい。
また、本発明の別の好ましい態様において、所定の単語を記憶する単語記憶手段と、前記文書データ入力手段に入力された文書データが表す文書から前記単語記憶手段によって記憶されている単語と一致する単語を抽出し、抽出した単語が前記文書において出現した頻度を算出する出現頻度算出手段とを備え、前記第1の学習手段は、前記期間指定手段によって指定された期間において前記出現頻度算出手段によって算出された出現頻度が閾値を超えた場合には、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第1の記憶手段に記憶されていない場合にはその単語を前記第1の記憶領域に記憶させるようにしてもよい。
また、本発明の更に別の好ましい態様において、所定の単語を記憶する単語記憶手段と、前記文書データ入力手段に入力された文書データが表す文書から前記単語記憶手段によって記憶されている単語と一致する単語を抽出し、抽出した単語が前記文書において出現した頻度を算出する出現頻度算出手段とを備え、前記第1の学習手段は、前記期間指定手段によって指定された期間において前記出現頻度算出手段によって算出された出現頻度が閾値を超えた場合には、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第1の記憶手段に記憶されていない場合にはその項目名称を前記第1の記憶領域に記憶させるようにしてもよい。
また、本発明の別の好ましい態様において、文書の画像を表す画像データを外部装置から取得する取得手段と、前記取得手段によって取得された画像データに含まれる文字を認識して文字の内容を表す文書データを生成し、生成した文書データを前記文書データ入力手段に入力する文書データ生成手段とを備えるようにしてもよい。
また、本発明の別の好ましい態様において、印刷された文書を光学的に読み取り、前記文書の画像を表す画像データを生成する画像読取手段と、前記画像読取手段により生成された画像データに含まれる文字を認識して文字の内容を表す文書データを生成し、生成した文書データを前記文書データ入力手段に入力する文書データ生成手段とを備えるようにしてもよい。
本発明によれば、文書に対して分類等の学習を行う際に、通常の学習処理に影響を与えることなく一時的な使用に対応した学習も可能にすることができる。
<A.第1実施形態>
<A−1.構成>
図1は、本発明の実施形態である文書処理装置1のハードウェア構成を示すブロック図である。文書処理装置1は、印刷された文書を光学的に読み取って電子化するスキャナ機能を備えるとともに、電子化した文書を分類する分類機能を備えた装置である。図において、11は、例えばCPU(Central Processing Unit)等の演算装置を備えた制御部であり、記憶部12に格納されているプログラムを読み出して実行することにより、バス13を介して文書処理装置1の各部を制御する。
14は、印刷された文書を光学的に走査してその画像を読み取る画像読取部である。この画像読取部14は、文書が載置される原稿載置部(図示略)を備えており、この原稿載置部に載置された文書を光学的に走査してその画像を読み取り、画像データを生成する。制御部11は、画像読取部14によって生成された画像データに対して文字認識処理を行い、文字の内容を表すテキストデータを生成する。15は、例えば液晶ディスプレイ等で構成され、制御部11からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する表示部である。16は、テンキー、スタートボタン、ストップボタン、液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する操作部である。ユーザは表示部15に表示された画像やメッセージを見ながら操作部16を操作することにより、文書処理装置1に対して指示入力を行うことができる。
記憶部12は、図1に示すように、揮発性記憶部12aと不揮発性記憶部12bとを含んでいる。揮発性記憶部12aは、例えばRAM(Random Access Memory)であり、各種ソフトウェアプログラムに従って動作している制御部11によってワークエリアとして利用される。一方、不揮発性記憶部12bは、例えばROM(Read Only Memory)やハードディスクであり、画像データやテキストデータなど、文書を表す文書データを分類する機能を実現する文書処理プログラムや、制御プログラムなど、各種プログラムを記憶している。
また、不揮発性記憶部12bは、図示のように、臨時辞書記憶領域A1(第1の記憶領域)と標準辞書記憶領域A2(第2の記憶領域)と分類領域A3とを有している。分類領域A3は、後述する分類機能により分類された文書データが格納される領域である。分類領域A3には、文書データを格納する領域としてさらに分類項目名称が付されたディレクトリが設けられている。臨時辞書記憶領域A1は、後述する分類項目名称の臨時学習処理の際に使用される臨時辞書が記憶される領域であり、標準辞書記憶領域A2は、後述する分類項目名称の標準学習処理の際に使用される標準辞書が記憶される領域である。臨時辞書と標準辞書は、ともに分類領域A3に設けられたディレクトリのディレクトリ名(分類項目名称)の集合体である。本実施形態においては、文書処理装置1は、入力される文書を分類する際に、この臨時辞書または標準辞書を用いて分類項目名称を決定し、その分類項目名称が付されたディレクトリに文書データを格納する。この分類処理において、制御部11は、後述する臨時学習期間においては、臨時辞書または標準辞書を用いて分類項目名称を決定し、臨時学習期間外においては、標準辞書を用いて分類項目名称を決定する。なお、以下の説明においては、説明の便宜上、臨時学習期間における分類項目名称の決定処理を、「臨時学習処理(第1の学習手段)」と称し、臨時学習期間外における分類項目名称の決定処理を、「通常学習処理(第2の学習手段)」と称して説明する。
<A−2.動作>
次に本実施形態の動作について説明する。本実施形態においては、入力される文書を分類するに先立って、臨時学習を行う臨時学習期間を登録し、この期間においては臨時学習処理を行い、この期間外においては通常学習処理を行うことを特徴とする。臨時学習を行う場合とは、例えば、文書処理装置1を通常使用している作業者以外のある作業者が、文書処理装置1を一時的に使用する場合等である。なお、以下の説明においては、文書を表しているデータという意味において、テキストデータおよび画像データのいずれも文書データと称する。
はじめに、臨時学習の期間が登録される動作について説明する。まず、文書の電子化作業を行う作業者により文書処理装置1が操作され、操作部16を介して臨時学習の期間を設定する旨の指示が入力される。この指示には、臨時学習の期間を示す情報が含まれる。
図2は、文書処理装置1の制御部11の処理を示すフローチャートである。文書処理装置1の制御部11は、指示が入力されたことを検知すると(ステップS1;YES)、その指示内容を判定する(ステップS2)。臨時学習の期間の設定を示す旨の指示が入力された場合は、入力された期間を記憶部12に記憶させる(ステップS3)。入力された期間が記憶部12に記憶されることにより、臨時学習を行う期間が指定されることになる。制御部11は、ステップS3の処理を終えると、ステップS1の処理に戻って、次の指示が検知されるまで待機する(ステップS1;NO)。
続けて、文書の分類動作について説明する。まず、文書の電子化作業を行う作業者により、紙に印刷されて保存されている文書が、文書処理装置1の原稿載置台に載置される。そして、作業者により文書処理装置1が操作され、載置した文書のスキャンを指示する旨の操作が行われる。
文書処理装置1の制御部11は、指示が入力されたことを検知すると(ステップS1;YES)、その指示内容を判定する(ステップS2)。分類処理を行う旨の指示が入力された場合は、原稿載置台に載置された文書の画像読取を行う(ステップS4)。すなわち、制御部11は、画像読取部14を制御して文書の画像を光学的に読み取らせ、画像データを生成する。
次に、制御部11は、生成した画像データを、例えば、特開2001−22727号広報に記載されている、SVMを用いた分類方法などの公知の方法を用いて分類する(ステップS5)。次に、制御部11は、生成した画像データに対して所定のアルゴリズムを用いて文書のレイアウト構造を解析する(ステップS6)。続いて、画像データに対して文字認識等を行ってテキスト形式の文書データを生成する(ステップS7)。テキストデータが生成されると、制御部11は、自然言語処理等によって構文解析を行い、文書内の各単語を認識する(ステップS8)。
次に、制御部11は、臨時学習の期間であるか否かを判定する(ステップS9)。この判定は、現在の日時が、ステップS3で記憶部12に記憶された期間に含まれるか否かによって判定する。臨時学習の期間であると判定された場合は(ステップS9;YES)、ステップS10以降に示す臨時学習処理を行い、臨時学習の期間外であると判定された場合は(ステップS9;NO)、ステップS16以降に示す標準学習処理を行う。
ステップS9において、臨時学習の期間であると判定された場合は(ステップS9;YES)、制御部11は、所定のアルゴリズムを用いて文書データの分類項目名称を抽出する(ステップS10)。この分類項目名称の抽出方法の一例を以下に説明する。まず、ステップS8の処理において認識された各単語について、標準辞書または臨時辞書に登録されている分類項目名称と一致するものがあるか否かを検索し、一致するものがあった場合は、その単語を分類項目名称として抽出する。
一致するものがなかった場合は、ステップS4で行ったレイアウト解析と、ステップS6で特定した単語とに基づいて分類項目名称の抽出を行う。具体的には、まず、制御部11は、ステップS4で行ったレイアウト解析の結果から属性名が記されたエリアを特定する。本実施形態においては、「属性名」の語は、文書内に記された単語のうち、例えば文書名、作成日時、作成部門または作成者名等の文書の特徴を示す単語を意味するものとして用いる。
図3は、本実施形態において入力される文書の一例を示す図である。図3に示した文書の例においては、C1〜C5のエリアが、レイアウト解析によって属性名のエリアであると特定され、それぞれのエリアに対して文字認識を行うことによって、属性名が特定される。つまり、図3に示す例においては、「稟議書」、「2005年x月x日」、「○○○部」等が属性名として特定される。そして、特定された属性名から所定のアルゴリズムに基づいて分類項目名称を特定する。なお、どのエリアの単語が分類項目名称として特定されるかについては、設計等によって変更することが可能である。なお、分類項目名称の特定方法は、これに限らず、好適に分類項目名称を抽出できる方法であればどのようなものであってもよい。例えば、文書内の各単語の出現頻度をカウントし、その文書において出現頻度が最も高い単語を分類項目名称として特定するようにしてもよい。
図2の説明に戻る。制御部11は、抽出された分類項目名称が、不揮発性記憶部12bに記憶されている標準辞書または臨時辞書に登録されているか否かを判定する(ステップS11)。登録されている場合は(ステップS11;YES)、その分類項目名称がディレクトリ名であるディレクトリに文書データを出力する(ステップS14)。この処理によって、入力された文書データが所定のディレクトリに分類されて格納されることになる。制御部11は、画像読取部14の原稿載置部に載置されたすべての文書について分類処理が終了したか、即ち次に処理すべき文書があるか否かを判定し(ステップS15)、次に処理すべき文書がある場合は(ステップS15;YES)、ステップS4の処理に戻って文書の画像読取を行い、分類処理を続ける。
ステップS11において、抽出された分類項目名称が標準辞書または臨時辞書に登録されていない場合は(ステップS11;NO)、抽出された分類項目名称を臨時辞書に登録し(ステップS12)、新たな分類項目を生成する(ステップS13)。即ち、抽出された分類項目名称を有するディレクトリを生成する。そして、そのディレクトリに文書データを出力(格納)する(ステップS14)。以上の処理によって、臨時学習の期間における分類処理が行われることになる。
続けて、制御部11が行う標準学習処理について説明する。図2のステップS9の処理において、臨時学習を行う期間外であると判断された場合には(ステップS9;NO)、文書データから分類項目名称を抽出し(ステップS16)、抽出された分類項目名称が、不揮発性記憶部12bに記憶されている標準辞書に登録されているか否かを判定する(ステップS17)。登録されている場合は(ステップS17;YES)、その分類項目名称がディレクトリ名であるディレクトリに文書データを出力する(ステップS20)。この処理によって、入力された文書データが所定のディレクトリに分類されて格納されることになる。制御部11は、次の文書があるか否かを判定し(ステップS15)、次の文書がある場合は(ステップS15;YES)、ステップS4の処理に戻って文書の画像読取を行い、分類処理を続ける。
ステップS17において、抽出された分類項目名称が、標準辞書に登録されていない場合は(ステップS17;NO)、抽出された分類項目名称を標準辞書に登録する(ステップS18)、新たな分類項目を生成する(ステップS19)。即ち、抽出された分類項目名称を有するディレクトリを生成する。そして、そのディレクトリに文書データを出力(格納)する(ステップS20)。
以上説明したように本実施形態においては、分類項目名称の学習処理に先立って、臨時学習を行う臨時学習期間を登録し、この期間においては学習した分類項目名称を、通常の学習処理で用いる標準辞書ではなく、臨時学習用として設けられた臨時辞書に登録する。このようにすることによって、臨時学習期間において、通常の学習処理で用いる標準辞書に対して変更や追加を行うことなく、臨時辞書を用いて一時的な学習処理を行うことができる。より具体的には、分類項目名称の学習処理によって生成される分類項目名称を用いて文書を分類する場合に、通常の分類処理とは別の分類項目(分類カテゴリ)を設けて、一時的に分類を行うことができる。また、臨時学習期間においても標準辞書を利用することができる。
また、臨時学習期間においては、通常の学習処理に用いる標準辞書に対して変更や追加を行わないため、標準辞書に不要な分類項目名称が追加されることがなく、通常学習処理において不要な学習を防ぐことができる。つまり、通常の学習処理を行う場合には、臨時学習処理によって生成された分類項目名称(臨時辞書に登録された分類項目名称)は参照されないため、文書が不必要に細分化されて分類されることを防ぐことができる。
<B.第2実施形態>
次に、本発明の第2実施形態について説明する。
図4は、本実施形態である文書処理装置2のハードウェア構成を示すブロック図である。本実施形態である文書処理装置2が、第1実施形態の文書処理装置1と異なる点は、記憶部12の不揮発性記憶部12bに臨時辞書記憶領域A1が設けられていない点と、不揮発性記憶部12bに臨時学習設定テーブル記憶領域A4が設けられている点であり、その他の構成要素については第1実施形態の文書処理装置1のそれと同様である。そのため、以下の説明においては、第1実施形態の文書処理装置1と同様の構成については、同じ符号を付与して適宜その説明を省略する。
図5は、文書処理装置2の不揮発性記憶部12bの臨時学習設定テーブル記憶領域A4に記憶されている臨時学習設定テーブルのデータ構造を示す図である。このテーブルは、後述する分類項目名称の学習処理で用いられるテーブルである。図示のように、このテーブルには、「単語」と「臨時辞書」の各項目が互いに関連付けられて記憶されている。これらの項目のうち、「単語」には、特定の種類の文書に含まれる単語が記憶されている。「臨時辞書」には、第1実施形態で用いた臨時辞書と同様に、分類領域A3に設けられたディレクトリのディレクトリ名(分類項目名称)の集合体である辞書が記憶される。なお、「単語」と「臨時辞書」は1対1で対応する必要はなく、図5に示すように、複数の単語と1つの臨時辞書とが関連付けられていてもよい。
次に本実施形態の動作について説明する。本実施形態においては、入力される文書を分類するに先立って、臨時学習を行う期間を登録し、その期間においては、所定の単語の出現頻度を算出してその出現頻度が閾値を超えた場合に、その単語と対応する臨時辞書を用いて臨時学習処理を行うことを特徴とする。
まず、文書の電子化作業を行う作業者により文書処理装置2が操作され、操作部16を介して臨時学習の期間を設定する旨の指示が入力される。この指示には、臨時学習の期間を示す情報が含まれる。
図6は、文書処理装置2の制御部11の処理を示すフローチャートである。本実施形態における文書処理装置2の制御部11の処理は、第1実施形態における文書処理装置1の図2に示した処理と大まかな処理の流れは同様であるため、以下の説明においては、図2に示した処理と同様の処理については同じ符号を付与してその説明を省略することとし、第1実施形態と異なる処理を中心に説明する。
第1実施形態では、文書処理装置1の制御部11は、不揮発性記憶部12bに記憶されている臨時学習の期間の値を参照して臨時学習期間であるか否かを判定し(図2のステップS9)、臨時学習期間であると判定された場合は(ステップS9;YES)、臨時学習処理を行い(ステップS10〜ステップS13)、臨時学習期間外であると判定された場合は(ステップS9;NO)、通常学習処理を行う(ステップS16〜ステップS19)ようになっていた。これに対し、本実施形態においては、図6に示すように、臨時学習期間内であると判定された場合に(ステップS9;YES)、単語の出現頻度の算出処理(ステップS21)と出現頻度の判定処理(ステップS22)とを行うようになっている。
制御部11は、図6のステップS9に示す処理において、臨時学習期間内であると判定された場合は(ステップS9;YES)、臨時学習設定テーブルに記憶されている単語を1つずつ読み出し、それぞれの単語について、分類する文書データにおける出現頻度を算出する(ステップS21)。そして、出現頻度が所定の閾値以上である単語があった場合には(ステップS21;YES)、その単語と対応する臨時辞書を臨時学習設定テーブルから参照し、その臨時辞書を用いて臨時学習処理を行う。すなわち、文書データから分類項目名称を抽出し(ステップS10)、抽出した分類項目名称が臨時辞書または標準辞書に登録されていない場合は(ステップS11;YES)、その分類項目名称を臨時辞書に登録する(ステップS12)。
一方、ステップS22において、臨時学習設定テーブルに記憶されている全ての単語について、その単語の出現頻度が所定値未満であった場合には(ステップS22;NO)、ステップS16の処理に進み、通常の学習処理を行う。
以上説明したように本実施形態においては、分類項目名称学習処理を行うに先立って、臨時学習を行う期間を登録し、その期間においては、所定の単語の出現頻度を算出し、その出現頻度が閾値を超えた場合に、その単語と対応する臨時辞書を用いて臨時学習を行う。このようにすることによって、臨時学習の期間において、臨時学習処理を行うか通常の学習処理を行うかを、入力される文書に含まれる単語の出現頻度によって自動的に判定することが可能となる。
また、臨時辞書を標準辞書とは別途設けることによって、通常の学習処理で用いる標準辞書に対して変更や追加を行うことなく、臨時辞書を用いて一時的な学習処理を行うことができる。より具体的には、分類項目名称の学習処理によって生成される分類項目名称を用いて文書を分類する場合に、通常の分類処理とは別の分類項目を設けて、一時的に分類を行うことができる。
また、臨時学習期間においては、通常の学習処理に用いる標準辞書に対して変更や追加を行わないため、標準辞書に不要な分類項目名称が追加されることがなく、通常学習処理において不要な学習を防ぐことができる。つまり、通常の学習処理を行う場合には、臨時学習処理によって生成された分類項目名称(臨時辞書に登録された分類項目名称)は参照されないため、文書が不必要に細分化されて分類されることを防ぐことができる。
<C.変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した第1の実施形態では、臨時学習を行う臨時学習期間を登録し、その期間においては臨時学習を行うようにしたが、文書処理装置を使用するユーザ毎に、臨時学習期間を登録するようにしてもよい。この詳細を以下に説明する。
図7は、本変形例である文書処理装置3のハードウェア構成を示すブロック図である。本実施形態である文書処理装置3が、第1実施形態の文書処理装置1と異なる点は、不揮発性記憶部12bに臨時辞書記憶領域A1を有していない点と、不揮発性記憶部12bにユーザ設定テーブル記憶領域A5が記憶されている点であり、その他の構成については第1実施形態の文書処理装置1のそれと同様である。そのため、以下の説明においては、第1実施形態の文書処理装置1と同様の構成については、同じ符号を付与して適宜その説明を省略する。
図8は、文書処理装置3の不揮発性記憶部12bのユーザ設定テーブル記憶領域A5に記憶されているユーザ設定テーブルのデータ構造を示す図である。このテーブルは、分類項目名称の学習処理で用いられるテーブルであり、図示のように、「ユーザID」と「期間」と「臨時辞書」の各項目が互いに関連付けられて記憶されている。これらの項目のうち、「ユーザID」には、ユーザを識別する識別情報が記憶される。「期間」には、臨時学習を行う期間が記憶される。例えば図8に示す例においては、ユーザIDが「0011」のユーザは、「2005年3月1日〜2005年3月10日」の期間は臨時学習を行うように設定されており、ユーザIDが「0012」のユーザは、「2005年3月2日」の一日の間は臨時学習を行うように設定されている。
なお、「ユーザID」と「期間」と「臨時辞書」はそれぞれ1対1で対応する必要はなく、例えば図8に示すように、ユーザIDが「0014」と「0015」の2以上の複数のユーザと、1つの臨時辞書とが対応するようにしてもよい。
次に本変形例の動作について、図9に示すフローチャートを参照しつつ説明する。本変形例においては、まず、分類項目名称学習を行うに先立って、臨時学習を行う臨時学習期間をユーザ毎に登録しておき、分類項目名称学習を行う際にユーザ認証してユーザを特定し、そのユーザが設定した臨時学習期間においては臨時学習を行うことを特徴とする。
なお、本変形例の処理は、第1実施形態における図2に示す処理と全体の処理の流れは同様であるため、以下の説明においては、第1実施形態と同様の処理については同じ符号を付与してその説明を省略し、第1実施形態と異なる処理(ステップS3´,ステップS31,ステップS9´)を中心に説明を行う。
本実施形態においては、臨時学習期間を設定する際に、期間とユーザIDとを、文書処理装置3の操作部16を用いてユーザが入力するようにする。文書処理装置3の制御部11は、臨時学習期間の設定指示が入力されると(ステップS1;YES)、入力されたユーザIDを臨時学習設定情報テーブルTBLの「ユーザID」の項目を検索し、検索されたものと対応する「期間」の項目に、入力された期間を登録する(ステップS3´)。
次に、分類指示が入力されると、文書処理装置3の制御部11は、ステップS2からステップS8の処理(第1実施形態と同様の処理)を行った後、指示が入力された際にユーザIDが入力されたか否かを判定する(ステップS31)。ユーザIDが入力されなかったと判断した場合は(ステップS31;NO)、ステップS16以降の通常学習処理を行う。ユーザIDが入力されたと判断した場合は(ステップS31;YES)、入力されたユーザIDをユーザ設定テーブルから検索して、検索されたものと対応する期間を読み出し、現在の日時が読み出した期間内であるか否かを判定する(ステップS9´)。期間内であると判断された場合は(ステップS9´;YES)、ステップS10以降の臨時学習処理を行う。逆に、期間外であると判断された場合は(ステップS9´;NO)、ステップS16以降の通常学習処理を行う。
以上説明したように本変形例においては、臨時学習を行う期間をユーザ毎に登録し、項目名称学習を行う際にユーザ認証してユーザを特定し、そのユーザが設定した臨時学習期間においては臨時学習を行う。このようにすることによって、ユーザ毎に臨時辞書を設けることができ、それぞれのユーザに対応した臨時学習を行うことが可能となる。例えば、通常学習処理を行いたい作業者と、臨時学習処理を行いたい作業者が、文書処理装置を交互に使用する場合であっても、適切に通常学習処理と臨時学習処理とを切り替えて処理を実行することが可能となる。
(2)上述した第1乃至第2の実施形態では、1台の文書処理装置が本実施形態に係る処理を行うようになっていた。これに対し、通信ネットワークで接続された2以上の複数の装置が上記実施形態に係る機能を分担し、それら複数の装置を備えるシステムが上記実施形態の文書処理装置として構成されるようにしてもよい。例えば、文書のスキャン機構およびスキャン機能を備える画像形成装置と、標準辞書記憶領域および臨時辞書記憶領域を備える記憶部と分類機能とを備える文書処理装置とが、通信ネットワークで接続されたシステムとして構成され、画像形成装置で読み取った画像データを文書処理装置に送信するようにし、画像データを受信した文書処理装置が分類処理を行うようにしてもよい。または、分類された文書データを記憶するための専用のサーバ装置と、文書の分類機能を備える文書処理装置とが通信ネットワークで接続されたシステムとして構成され、文書処理装置で分類された文書データを記憶用のサーバ装置に送信し、サーバ装置に文書データを記憶させるようにしてもよい。
(3)上記実施形態においては、分類項目名称の学習処理について説明したが、本発明の実施形態はこれに限らず、本発明は様々な学習処理について適応することが可能である。例えば、複数の種類の文書に対して異なる翻訳辞書を設けてそれぞれの文書の種類に対応する翻訳処理を行う、といった翻訳学習であってもよい。このような場合であっても、ある所定の期間外においては、通常用いている翻訳辞書を用いて翻訳処理を行い、所定の期間においては、通常用いている辞書とは異なる翻訳辞書を設けて翻訳処理を行うようにすれば、翻訳辞書を随時更新させて学習していく場合であっても、通常用いている翻訳辞書に影響を与えることなく、一時的な学習処理を行うことが可能となる。
なお、上記実施形態では、分類項目名称を標準辞書または臨時辞書に追加していくことによって分類項目名称を学習する処理について説明したが、分類項目名称(ディレクトリ名)の追加だけではなく分類項目名称の変更を行うという学習処理であっても勿論よい。
本発明の第1実施形態である文書処理装置の構成を示すブロック図である。 同実施形態の処理を示すフローチャートである。 同実施形態に係る文書の一例を示す図である。 本発明の第2実施形態である文書処理装置の構成を示すブロック図である。 同実施形態の臨時学習設定テーブルのデータ構造を示す図である。 同実施形態の処理を示すフローチャートである。 本発明の変形例である文書処理装置の構成を示すブロック図である。 同変形例の臨時学習設定テーブルのデータ構造を示す図である。 同変形例の処理を示すフローチャートである。
符号の説明
1,2,3…文書処理装置、11…制御部、12…記憶部、13…バス、14…画像読取部、15…表示部、16…操作部。

Claims (7)

  1. 文書を表す文書データが入力される文書データ入力手段と、
    期間を指定する期間指定手段と、
    第1の記憶領域と第2の記憶領域とを有し、これら第1の記憶領域と第2の記憶領域に各々複数の単語を記憶する記憶手段と、
    前記文書データ入力手段に入力された文書データが表す文書内の各単語を認識する認識手段と、
    前記期間指定手段によって指定された期間においては、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第1の記憶手段に記憶されていない場合にはその単語を前記第1の記憶領域に記憶させる第1の学習手段と、
    前記期間指定手段によって指定された期間外においては、前記記憶手段の前記第2の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第2の記憶手段に記憶されていない場合にはその単語を前記第2の記憶領域に記憶させる第2の学習手段と、
    前記第1の学習手段又は前記第2の学習手段が行った処理結果を出力する出力手段と
    を備えることを特徴とする文書処理装置。
  2. 文書を表す文書データが入力される文書データ入力手段と、
    期間を指定する期間指定手段と、
    前記文書データ入力手段に入力された文書データから項目名称を抽出する項目名称抽出手段と、
    第1の記憶領域と第2の記憶領域とを有し、前記第1の記憶領域と前記第2の記憶領域に各々複数の前記項目名称を記憶する記憶手段と、
    前記文書データ入力手段に入力された文書データが表す文書内の各単語を認識する認識手段と、
    前記期間指定手段によって指定された期間においては、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第1の記憶手段に記憶されていない場合にはその項目名称を前記第1の記憶領域に記憶させる第1の学習手段と、
    前記期間指定手段によって指定された期間外においては、前記記憶手段の前記第2の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第2の記憶領域に記憶されていない場合にはその項目名称を前記第2の記憶領域に記憶させる第2の学習手段と、
    前記第1の学習手段又は前記第2の学習手段によって抽出された項目名称を出力する出力手段と
    を備えることを特徴とする文書処理装置。
  3. ユーザを識別するユーザ識別情報と、前記期間とが対応付けて記憶される識別情報記憶手段と、
    前記ユーザ識別情報が入力される識別情報受付手段と
    を備え、
    前記期間指定手段は、前記識別情報受付手段に入力されたユーザ識別情報を前記識別情報記憶手段から検索して、検索されたものと対応する期間を読み出し、読み出した期間を指定する
    ことを特徴とする請求項1または2に記載の文書処理装置。
  4. 所定の単語を記憶する単語記憶手段と、
    前記文書データ入力手段に入力された文書データが表す文書から前記単語記憶手段によって記憶されている前記所定の単語と一致する単語を抽出し、抽出した単語が前記文書において出現した頻度を算出する出現頻度算出手段とを備え、
    前記第1の学習手段は、前記期間指定手段によって指定された期間において、前記出現頻度算出手段によって算出された出現頻度が閾値を超えた場合には、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された単語に基づいて前記文書に対して所定の処理を行い、その文書に含まれている単語が前記第1の記憶手段に記憶されていない場合にはその単語を前記第1の記憶領域に記憶させる
    ことを特徴とする請求項1に記載の文書処理装置。
  5. 所定の単語を記憶する単語記憶手段と、
    前記文書データ入力手段に入力された文書データが表す文書から前記単語記憶手段によって記憶されている前記所定の単語と一致する単語を抽出し、抽出した単語が前記文書において出現した頻度を算出する出現頻度算出手段とを備え、
    前記第1の学習手段は、前記期間指定手段によって指定された期間において前記出現頻度算出手段によって算出された出現頻度が閾値を超えた場合には、前記記憶手段の前記第1の記憶領域又は前記第2の記憶領域のうち少なくとも第1の記憶領域に記憶された項目名称と、前記認識手段によって認識された各単語とに基づいて、前記文書に含まれる項目名称を抽出し、抽出した項目名称が前記第1の記憶手段に記憶されていない場合にはその項目名称を前記第1の記憶領域に記憶させる
    ことを特徴とする請求項2に記載の文書処理装置。
  6. 文書の画像を表す画像データを外部装置から取得する取得手段と、
    前記取得手段によって取得された画像データに含まれる文字を認識して文字の内容を表す文書データを生成し、生成した文書データを前記文書データ入力手段に入力する文書データ生成手段と
    を備えることを特徴とする請求項1または2に記載の文書処理装置。
  7. 印刷された文書を光学的に読み取り、前記文書の画像を表す画像データを生成する画像読取手段と、
    前記画像読取手段により生成された画像データに含まれる文字を認識して文字の内容を表す文書データを生成し、生成した文書データを前記文書データ入力手段に入力する文書データ生成手段と
    を備えることを特徴とする請求項1または2に記載の文書処理装置。
JP2005183123A 2005-06-23 2005-06-23 文書処理装置 Withdrawn JP2007004429A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005183123A JP2007004429A (ja) 2005-06-23 2005-06-23 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005183123A JP2007004429A (ja) 2005-06-23 2005-06-23 文書処理装置

Publications (1)

Publication Number Publication Date
JP2007004429A true JP2007004429A (ja) 2007-01-11

Family

ID=37690008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005183123A Withdrawn JP2007004429A (ja) 2005-06-23 2005-06-23 文書処理装置

Country Status (1)

Country Link
JP (1) JP2007004429A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2014229179A (ja) * 2013-05-24 2014-12-08 富士通フロンテック株式会社 文字認識装置、文字認識方法、および文字認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176625A (ja) * 2007-01-19 2008-07-31 Seiko Epson Corp 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2014229179A (ja) * 2013-05-24 2014-12-08 富士通フロンテック株式会社 文字認識装置、文字認識方法、および文字認識プログラム

Similar Documents

Publication Publication Date Title
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
JP2009230498A (ja) 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム
JP2973913B2 (ja) 入力シートシステム
JP2016024488A (ja) 画像処理装置および画像処理装置の制御方法
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2007004429A (ja) 文書処理装置
JP4747828B2 (ja) 履歴管理装置
JP6601143B2 (ja) 印刷装置
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP2006252455A (ja) ファイル管理装置、ファイル管理方法及びファイル管理プログラム
JP5931015B2 (ja) 情報処理装置、システム、サーバ装置、端末及び情報処理方法
JP5959460B2 (ja) データ処理装置、データ処理方法及びプログラム
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
JP2009182530A (ja) 業務処理遂行支援装置
JP6190549B1 (ja) 文書処理システム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2007048061A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP2007334670A (ja) 画像処理装置、方法及びプログラム
JP2020190843A (ja) 文書変換装置
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
JP2007034924A (ja) ネットワークシステム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100315