JP3879810B2 - 読取支援装置 - Google Patents

読取支援装置 Download PDF

Info

Publication number
JP3879810B2
JP3879810B2 JP2000113024A JP2000113024A JP3879810B2 JP 3879810 B2 JP3879810 B2 JP 3879810B2 JP 2000113024 A JP2000113024 A JP 2000113024A JP 2000113024 A JP2000113024 A JP 2000113024A JP 3879810 B2 JP3879810 B2 JP 3879810B2
Authority
JP
Japan
Prior art keywords
document
reference document
work
reading support
support apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000113024A
Other languages
English (en)
Other versions
JP2001297080A (ja
Inventor
千登 林
学 植田
正道 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2000113024A priority Critical patent/JP3879810B2/ja
Publication of JP2001297080A publication Critical patent/JP2001297080A/ja
Application granted granted Critical
Publication of JP3879810B2 publication Critical patent/JP3879810B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ドキュメントを媒介として知識を獲得する場面や作業のための情報を得る場面において、ドキュメントを効率的に読み取ることを支援する読取支援装置等に関する。
【0002】
【従来の技術】
従来、他の人の活動結果を使用して活動を行う場合、例えば企業などの組織内で、複数の人が協調して作業を行う場合等には、その作業の計画や、進捗、経過、結果などに関する情報をドキュメントの形で伝達、共有することが行われている。しかし現在では、協調作業する人の人数が増え、組織の規模が大きくなり、そこで流通するドキュメントの量は、個々のドキュメントの分量という意味でも、ドキュメントの数量という意味でも増大してきている。
【0003】
この結果、作業を行う個々人から見ると、大量のドキュメントの中から各作業における必要な情報を探し出すために必要な時間が増大し、結果、実作業に割ける時間が少なくなってしまうという問題が生じていた。
このような問題に対し、例えば、改定された文書の改定部分を抽出する技術により、改定の前後での比較検討を支援するシステム等が検討されており、例えば特開平10−269205号公報に開示されている。
【0004】
しかし、前記従来例のように、単に登録された文書の版情報と異なる版の前後での比較だけを管理していたのでは、改定されていく規定書や標準書などの承認者等が読解する作業の効率化の効果は期待できるが、その文書を読んで利用する一般の人にとっては、前記従来例だけでは十分な効果が期待できない。
【0005】
その理由は、承認者は常に改定されていく全ての段階を読んでいるため、改定前後の違いに注意を集中することで書類の処理を効率化することができるが、一般の人は改定される文書の全ての段階を読んでいることが必ずしも期待できないため、この効果が得られないということにある。例えば、改定前後の違いを提示されても、その改定の前の前の文書しか読んでいなかった場合、前回の改定によって変更された個所を知らずに行動してしまうという問題が生じる。また、この可能性を回避するためには、結局文書を全て注意深く読む必要が生じてしまう。
【0006】
一方で、前記従来例では特別にデータベースに登録される規定書や標準書などの書類を対象としていたが、現実の作業環境においては事務的な書類や正式でないメモ程度の文書などの書類も流通しており、このような文書を読解するためにもそれなりの時間が割かれている。例えば、セミナーの紹介とその概要が何度も流れてくるような状況があるが、その一部(時間や場所など)が修正されている場合や、正式にデータベースに登録する前に仲間内で議論してその案を相談している場合、また、会議の議事録について出席者間で確認、修正している場合など様々な事例が挙げられる。
【0007】
このような文書においてもやはり、かつて注意して読んだものと同じ部分と違う部分の識別が容易であれば、その文書の内容を理解する効率が向上することが期待できる。このような問題は文書に限らず、データベースに登録されたものや、音声記録や、映像記録などの様々なドキュメントについても同様の問題が指摘される。
【0008】
なお、例えば特開平9−212513号公報には、アクセス回数と閾値とを比較して代表とする話題を抽出し、この話題に関連する情報の構造を決定して書籍形式でまとめて表示する書籍情報表示装置が開示されており、また、例えば特開平10−116296号公報には、文書情報を表すアイコンを類似性尺度を利用した配置でディスプレイ上に表示する情報仕分け装置等が開示されているが、これらの技術においてもドキュメント内容のいずれの部分が変更されているのかがわからなかったため、上記と同様な問題があった。
【0009】
【発明が解決しようとする課題】
上記従来例で示したように、従来では、例えば作業主体となる人や処理装置が作業対象のドキュメントを読み取るに際して、当該ドキュメントのいずれの部分が他の作業主体等によって変更されたのかを把握することが困難である場合が多く発生してしまうといった不具合があった。
【0010】
本発明は、このような従来の事情に鑑みてなされたもので、例えば作業主体となる人や処理装置が自ら読んで作業した体験を有する文書などのドキュメントを基準にして、新たに読む必要のあるドキュメントと比較し、同一である部分と相違のある部分とを識別し易く提示することにより、過去の記憶を基準として当該ドキュメントを理解し、その相違点に集中して読み取ることを支援することができる読取支援装置等を提供することを目的とする。
また、本発明は、例えば新たに読む必要のあるドキュメントに対する作業等の行動を過去の体験を基準として検討することを支援することができる読取支援装置等を提供することを目的とする。
【0011】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る読取支援装置では、参照ドキュメント記憶手段が参照ドキュメントの候補を記憶し、取得手段が作業対象のドキュメントを取得し、参照ドキュメント選択手段が取得された作業対象のドキュメントに基づいて参照ドキュメントの候補の中から比較対象とする参照ドキュメントを選択し、比較手段が選択された参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出し、出力手段が検出された相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力する。
【0012】
従って、作業対象のドキュメントが出力されるに際して、比較対象として選択された参照ドキュメントと作業対象のドキュメントとの相違部分と他の部分(すなわち、一致部分)との出力態様を異ならせることが行われるため、例えば作業主体となる人や処理装置にとってドキュメントの変更箇所等を把握し易くすることができる。
【0013】
なお、作業対象のドキュメントとは例えば作業主体となる人や処理装置が作業の対象とするドキュメントのことを言う。
また、参照ドキュメントの候補とは例えば作業主体となる人や処理装置が過去に作業をしたドキュメント等であって、作業対象のドキュメントの比較対象とする参照ドキュメントとして選択可能に記憶されたドキュメントのことを言う。
【0014】
具体的には、作業対象のドキュメントが作成される基となったドキュメント(つまり、当該ドキュメントに変更が加えられて作業対象のドキュメントが作成された)が比較対象とする参照ドキュメントとして候補の中から選択されるのが好ましい。
また、作業対象のドキュメントや参照ドキュメントとしては、どのような情報を有したドキュメントが用いられてもよく、例えばテキスト情報を有したドキュメントや、音声情報を有したドキュメントや、画像情報を有したドキュメント等が用いられる。
【0015】
また、作業対象のドキュメントを取得する仕方としては、例えば回線を介して外部の装置から取得するような仕方ばかりでなく、例えばフロッピーディスク等の記憶媒体を介して取得するような仕方や、例えば当該読取支援装置により記憶されているドキュメントの中から取得する仕方等が用いられてもよい。
【0016】
また、相違部分と他の部分との出力態様を異ならせる仕方としては、種々な仕方が用いられてもよく、例えば当該相違部分が当該他の部分から識別されるような仕方であればよい。
また、出力手段によりドキュメントを出力する仕方としては、種々な仕方が用いられてもよく、例えば画面に表示出力する仕方や、例えばプリンタにより印刷出力する仕方等を用いることができる。
【0017】
また、本発明に係る読取支援装置では、参照ドキュメント登録手段が参照ドキュメント記憶手段に参照ドキュメントの候補を記憶させる。
従って、参照ドキュメントの候補を随時更新することや増加すること等ができる。
なお、参照ドキュメントの候補を参照ドキュメント記憶手段に記憶させる処理は、例えばユーザからの指示に従って行われてもよく、例えば予め設定された仕方で当該読取支援装置により自動的に行われてもよい。
【0018】
また、本発明に係る読取支援装置では、参照ドキュメント選択手段は第1の選択手段と第2の選択手段とから構成され、第1の選択手段は作業対象のドキュメントの種別や参照ドキュメントの種別を検出して、参照ドキュメントの候補の中から作業対象のドキュメントの種別と一致する種別の参照ドキュメントを選択し、第2の選択手段が所定の比較方式を用いて第1の選択手段により選択された参照ドキュメントと作業対象のドキュメントとを比較して、第1の選択手段により選択された参照ドキュメントの中から作業対象のドキュメントに類似した参照ドキュメントを比較対象として選択する。
【0019】
従って、作業対象のドキュメントの種別と同じ種別であって、作業対象のドキュメントに類似した参照ドキュメントが比較対象として選択されるため、作業対象のドキュメントとの相違部分を示すのに適した参照ドキュメントが選択されることになって好ましい。具体的には、このような選択により、作業対象のドキュメントが作成される基となったドキュメント(対照ドキュメント)を参照ドキュメントとして選択することができる。なお、更に好ましくは、作業対象のドキュメントに最も類似した1つ(最も類似したものが2以上ある場合には、これらの中の一部或いは全部)の参照ドキュメントが選択されるのがよい。
【0020】
また、ドキュメントの種別としては、例えば当該ドキュメントのファイルタイプ等の種別が用いられ、後述する実施例で具体例を示す。
また、後述する実施例で示すように例えば上記した所定の比較方式が作業対象のドキュメントの種別に応じて変更可能な場合には、作業対象のドキュメントの種別に応じた比較方式を複数の比較方式の中から選択する比較方式選択手段を備えて、当該選択された比較方式を前記所定の比較方式として用いる構成とすることもできる。
【0021】
また、本発明に係る読取支援装置では、参照ドキュメント記憶手段は参照ドキュメントの候補と関連付けて当該参照ドキュメントに関して行われた作業に関する情報を記憶し、出力手段は比較対象として選択された参照ドキュメントに関連付けられて記憶された作業に関する情報を出力する。
従って、比較対象として選択された参照ドキュメントに対して過去に行われた作業に関する情報(例えば作業日時や作業内容等の情報)が出力されるため、このような情報が参考となって作業対象のドキュメントの作業を行い易くすることができる。
【0022】
また、本発明に係る読取支援装置では、参照ドキュメント記憶手段は各ユーザ毎の参照ドキュメントの候補を記憶する複数の記憶装置から構成されている。
従って、複数の記憶装置のそれぞれによりユーザ毎の参照ドキュメントの候補が分離して記憶されるため、例えば1つの読取支援装置が複数のユーザによって共用される場合であっても、各ユーザ毎に必要となる参照ドキュメントの候補を記憶しておくことができる。
なお、記憶装置としては、特に限定はなく、参照ドキュメントの候補(及び、必要な場合には、前記作業に関する情報等)を記憶することができるものであればよい。
【0023】
また、本発明に係る読取支援装置では、参照ドキュメント記憶手段は、単体の記憶装置から構成され、各ユーザ毎の参照ドキュメントの候補を識別して記憶する機能を有している。
従って、例えばユーザ毎の識別情報を用いることで、単体の記憶装置がユーザ毎の参照ドキュメントの候補を実質的に分離して管理するような構成であるため、単体の記憶装置で、上記と同様に複数の記憶装置を備えた場合と同様な効果を得ることができる。
【0024】
また、本発明に係る読取支援装置では、前記相違部分と前記他の部分との出力態様を異ならせる仕方の一例として、出力手段は前記相違部分を前記他の部分と比べて強調して出力する。
従って、前記相違部分が強調されることで、当該相違部分に注意を喚起することができる。
なお、強調出力の仕方としては、特に限定はなく、例えば後述する実施例で述べるように色を濃くする仕方や線(文字や図形の線)を太くする仕方等を用いることができる。
【0025】
また、本発明に係る読取支援装置では、前記相違部分と前記他の部分との出力態様を異ならせる仕方の一例として、出力手段は前記他の部分を背景との明度差が小さくなるようにして出力する。
従って、前記他の部分と背景との明度差が小さくなることで、前記相違部分が相対的に強調され、これにより、当該相違部分に注意を喚起することができる。
【0026】
また、本発明に係る読取支援装置では、前記相違部分と前記他の部分との出力態様を異ならせる仕方の一例として、出力手段は前記他の部分を塗りつぶして出力する。
従って、前記他の部分が塗りつぶされることで、前記相違部分の情報のみが認識可能な状態で出力されることになり、当該相違部分に注意を喚起することができる。
【0027】
なお、前記他の部分を塗りつぶす仕方としては、例えば当該他の部分が文字情報部分である場合には当該文字の出力領域を塗りつぶす仕方等を用いることができ、また、例えば当該他の部分が図形情報部分である場合には当該図形の出力領域や、或いは当該図形自体を塗りつぶす仕方等を用いることができる。
また、塗りつぶしの仕方としては、例えば所定のパターンを用いた塗りつぶしの仕方や、所定の色を用いた塗りつぶしの仕方等を用いることができる。
【0028】
また、本発明に係る読取支援装置では、参照ドキュメント特徴量記憶手段が参照ドキュメントの候補のイメージを格子状に区切って複数の格子単位に分割した各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を記憶し、比較手段は作業対象のドキュメントのイメージを比較対象となる参照ドキュメントと同一の格子状に区切って複数の格子単位に分割し、分割した作業対象のドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出し、当該検出した特徴量と参照ドキュメント特徴量記憶手段に記憶された参照ドキュメントの特徴量とを比較する。
【0029】
従って、参照ドキュメントと作業対象のドキュメントとを、それぞれのイメージを複数の格子単位に分割した各格子単位毎の画素値に基づく特徴量の一致度(或いは、相違度でも同様)に基づいて比較するに際して、参照ドキュメントの特徴量が記憶されるため、例えば同一の参照ドキュメントが比較対象として複数回選択されるような場合であっても、当該選択される毎に参照ドキュメントの特徴量を算出するといった無駄な作業を省略することができる。
【0030】
なお、参照ドキュメントのイメージや作業対象のドキュメントのイメージを複数の格子単位に分割する仕方としては、特に限定はなく、例えば格子単位が小さいほど精度のよい比較を行うことができ、例えば格子単位が大きいほどイメージ全体の比較処理に要する労力(例えば処理時間等)を小さくすることができる。また、各格子単位に含まれる画素の数は任意であってもよく、例えば1つの画素のみを含む格子単位が用いられてもよい。
【0031】
また、画素に基づく特徴量としては、例えば参照ドキュメントと作業対象のドキュメントとの一致度(或いは、相違度でも同様)が検出されるようなものであれば、どのようなものが用いられてもよく、具体的には、例えば画素値の総和値や、画素値の平均値や、画素値を変数とした所定の演算式による演算結果値等を用いることができる。
【0032】
また、本発明に係る比較方法では、参照ドキュメントの候補の中から作業対象のドキュメントに類似した参照ドキュメントを選択して当該参照ドキュメントと作業対象のドキュメントとの相違部分を検出するために、次のようにして、参照ドキュメントと作業対象のドキュメントとを比較する。
すなわち、参照ドキュメントのイメージを格子状に区切って複数の格子単位に分割して、分割した参照ドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出するとともに、作業対象のドキュメントのイメージを比較対象となる参照ドキュメントと同一の格子状に区切って複数の格子単位に分割して、分割した作業対象のドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出し、各単位格子毎に検出した特徴量を参照ドキュメントと作業対象のドキュメントとで比較する。
【0033】
従って、このような格子単位毎の比較の結果に基づいて、例えば参照ドキュメントの候補の中から作業対象のドキュメントに類似した参照ドキュメントを選択することや、比較対象として選択された参照ドキュメントと作業対象のドキュメントとの相違部分を検出することができる。
【0034】
また、本発明に係る比較方法では、参照ドキュメントの候補の中から作業対象のドキュメントに類似した参照ドキュメントを選択して当該参照ドキュメントと作業対象のドキュメントとの相違部分を検出するために、次のようにして、参照ドキュメントと作業対象のドキュメントとを比較する。
すなわち、参照ドキュメントのイメージを格子状に区切って複数の格子単位に分割して、分割した参照ドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出するとともに、作業対象のドキュメントのイメージを比較対象となる参照ドキュメントと同一の格子状に区切って複数の格子単位に分割して、分割した作業対象のドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出し、各格子単位毎に検出した特徴量に基づいて、複数の格子単位からなるブロック毎の特徴量を参照ドキュメントと作業対象のドキュメントとで比較する。
【0035】
従って、このように複数の格子単位を集めたブロック毎の比較の結果に基づいて、上記と同様に、例えば参照ドキュメントの候補の中から作業対象のドキュメントに類似した参照ドキュメントを選択することや、比較対象として選択された参照ドキュメントと作業対象のドキュメントとの相違部分を検出することができる。
なお、各ブロックに含まれる格子単位の数としては、特に限定はなく、種々な数であってもよい。
【0036】
また、本発明に係る比較方法では、作業対象のドキュメントの種別を判定し、当該判定結果に応じた描画処理により作業対象のドキュメントの描画領域の少なくとも一部の領域のイメージ情報を作成した後に、上記のように各格子単位毎の特徴量を比較する仕方や各ブロック毎の特徴量を比較する仕方を用いて、作成したイメージ情報の特徴量と参照ドキュメントの対応する領域のイメージ情報の特徴量とを比較する。
【0037】
従って、例えば作業対象のドキュメントがイメージ情報以外の情報(例えばテキスト情報等)から構成されている場合であっても、これをイメージ情報へ変換した形で参照ドキュメントと比較することができるため、全ての作業対象のドキュメントに関して比較の形式をイメージでの比較に統一することができる。
【0038】
なお、上記した描画領域の少なくとも一部の領域とは、イメージ化して比較を行う領域のことであり、例えば当該描画領域の全体の領域であってもよい。
また、例えば作業対象のドキュメントの種別に応じて用いられる描画処理が異なるような状況においては、当該種別の判定結果に応じた描画処理を複数の描画処理の中から選定して、当該選定した描画処理により前記イメージ情報を作成することが行われる。
【0039】
また、以上に示したような本発明に係る各種の処理は、例えば記憶媒体に記憶されたプログラムをコンピュータにより読み取って実行することにより実現することも可能である。
一例として、本発明に係る記憶媒体は、コンピュータに実行させるプログラムを当該コンピュータの入力手段が読取可能に記憶しており、当該プログラムは、作業対象のドキュメントを取得する処理と、取得した作業対象のドキュメントに基づいて、参照ドキュメントメモリに記憶された参照ドキュメントの候補の中から比較対象とする参照ドキュメントを選択する処理と、選択した参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出する処理と、検出した相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力する処理とを当該コンピュータに実行させる。
【0040】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
図1には、本実施例に係る読取支援装置1の構成例を示してあるとともに、当該読取支援装置1の外部に設置されたローカルな記憶装置2や、ネットワークを介して読取支援装置1と接続されて他の筐体を持つ一般的なドキュメントサーバ3やデータベースサーバ4や、そのデータベースの内容を文書化する文書化サーバ5を示してある。
【0041】
同図に示されるように、本実施例の読取支援装置1には、上記したローカルな記憶装置2やドキュメントサーバ3やデータベースサーバ4や文書化サーバ5などと通信するための通信I/F(通信インタフェース)16と、通信I/F16を通じて読みこまれたドキュメントに対して参照ドキュメントを選択する参照ドキュメント選択部13と、その参照ドキュメントやその参照ドキュメントを読み込むための方法などを蓄積しておくデータベースなどの参照ドキュメント蓄積部11と、参照ドキュメントを参照ドキュメント蓄積手段に登録する参照ドキュメント登録管理部12と、参照ドキュメントと読み込まれたドキュメントとを比較する比較部14と、比較部14の比較結果の情報を利用して参照ドキュメントとの共通(一致)点、相違点、類似点などを区別可能な形で表示することを行う表示部15とが備えられている。
【0042】
概略的な動作としては、本実施例の読取支援装置1では、まず、通信I/F16を通じて、ネットワークやローカルなデータベースやファイルから、作業対象となるドキュメントデータ(以降、説明の簡単のために「作業ドキュメント」と言う)を読み込む。ここで、読み込まれたドキュメントデータはRAMなどの半導体記憶装置やハードディスクなどの磁気的な記憶装置や光磁気ディスクなどの様々な記憶装置上に構成される図示しない一時記憶DB(一時記憶データベース)に、一時的に記録される。次に、この作業ドキュメントに対して、参照ドキュメント選択部13が比較対象とするドキュメント(参照ドキュメント)を選択し、比較部14が参照ドキュメント選択部13からの情報を用いて比較方法を選択して参照ドキュメントと作業ドキュメントとの比較を実行し、表示部15が比較部14の比較処理結果の情報を使用して参照ドキュメントとの相違点、類似点、共通点を区別可能なように作業ドキュメントを表示することを行う。
【0043】
以下で、本実施例の読取支援装置1の構成例や動作例を更に詳しく説明する。参照ドキュメント蓄積部11は、参照ドキュメントの候補となるドキュメントのデータやそのデータを読み込むための情報を複数格納してあるドキュメント情報の蓄積手段である。蓄積される参照ドキュメントは,後述のように、システムが自動的に選択したものでもよいし、ユーザが特別に指定したものとしてもよい。また、参照ドキュメント蓄積部11は、参照ドキュメントに対して、その参照ドキュメントを読んだときに実行した対応や処理についての説明情報を参照ドキュメントと関連付けて記憶する機能を有してもよい。
【0044】
参照ドキュメント登録管理部12は、参照ドキュメントの候補に関する情報を、参照ドキュメント蓄積部11に登録することを行う。この登録は、ユーザからの指定を受けて選択的に行う構成も可能であるし、図示しない管理装置により、何らかの基準、例えばドキュメントを開いていた時間、ドキュメントを開いた回数、ドキュメントを開いた期間、ドキュメントを開いて生成された他のドキュメントの量、それら生成されたドキュメントの種類など様々な情報を所定の判定関数やテーブル参照などの技術により加工して利用することにより、自動的に選択させることも可能である。また、読んだドキュメントを全て登録していき、参照ドキュメント蓄積部11の容量等の制限の基準により、例えば古いもの、使われないものなどから破棄していくという登録管理方法を適用することも可能である。
【0045】
参照ドキュメント選択部13は、作業ドキュメントに対して、参照ドキュメントを参照ドキュメント蓄積部11に蓄積されている参照ドキュメントの候補の中から選択することを行う。この参照ドキュメント選択部13は、例えば図2に示されるように、第1選択部21と、第2選択部22と、比較方式選択部23とから構成されている。
【0046】
第1選択部21は、作業ドキュメントの大まかな分類を行う。これは、主に作業ドキュメントのデータの種類を判定することを行う。これは典型的には、ファイルタイプを判別することを行い、アプリケーション・ソフト固有のデータ型である場合には、その作業ドキュメントがどのアプリケーション・ソフトウェアにより作成されたものであるかを判定することなどを行う。これは例えばUnixのファイルなどで用いられているように、ファイルデータの最初の数バイトをMagicナンバーとしてファイルの種別を示す値をいれておく場合などは容易に実現することができる。また、Windowsなどで用いられているように、ファイルの名前の一部を用いる方法もある。
【0047】
なお、上記した第1選択部21の判定結果に応じて比較方式選択部23により第2選択部22で用いられる比較方式を切り替える構成とすることもできる一方、後述のように対象とする全ての作業ドキュメントに対して統一した比較方式を用いることにより、比較方式の切り替えを省略する構成とすることもできる。
【0048】
そして、第2選択部22は、参照ドキュメントの候補を絞って、望ましくは1つの参照ドキュメントを選択する。この選び方としては、例えば作業ドキュメントと参照ドキュメントの候補のそれぞれとを逐次、比較方式選択部23により選択された比較方式が設定された比較部14により比較処理を実行させて比較し、その類似度をスコアリングしてから決定する方法を用いることや、例えば作業ドキュメントや参照ドキュメントから特徴量をいったん抽出してその特徴量の一致を判定しても複数の参照ドキュメントの候補があったときに比較部14を使用して作業ドキュメントと参照ドキュメントの候補との類似度のスコアリングを行う方法を用いることや、例えば参照ドキュメントの候補に不変部分が指定されていたときには、その部分が作業ドキュメントと一致しているものを選んだ後で、前記のような方法で候補を絞る方法を用いることにより実現することができる。
【0049】
また、これらの他にも、例えばMicrosoft社のOffice製品等のようにテンプレートを使用してドキュメントを作成するソフトウェアにより作成されたものでは、そのテンプレートの名前なども参考情報として用いることもできる。また、ドキュメントが単なる文書ではなく例えばデータベースの中のデータのインスタンスである場合には、それぞれの文書のスキーマを持っていることを仮定することができるため、そのスキーマを参考情報として利用することが可能である。このほか、例えば文脈やジャンルの解析技術などさまざまな技術を参照ドキュメントの選択に際して使用することが可能である。
【0050】
比較部14は、作業ドキュメントと比較対象の参照ドキュメントとの相違点を識別して、例えば当該相違点を特定する情報を表示部15などに出力する。この相違点の識別の仕方としては、例えばその処理方式以外にも、扱うドキュメントの性質により様々な変形が存在するので、ここでは一意には限定しないが、いくつかの非常に単純な例を以下に示しておく。
【0051】
まず、例えば対象とするドキュメントがデータベースに保持されたデータで、且つ、スキーマ自体には変化がなかった場合には、スキーマに従って、それぞれの対応するキーの値を比較して相違点を検出するという非常に単純な処理で少なくとも実現可能となる。具体例として、XMLなどの構造化されたデータではDTDの定義を比較し、それぞれ対応するタグに対して値を比較することで実現することができる。DTDの一部が変更されている場合であっても、その識別は対応するタグの定義の比較などにより容易に実現することができるため、相違を識別することが可能である。
【0052】
また、例えば対象とするドキュメントがスプレッドシートなどであった場合には、簡単な方法として、対応するセルの値を比較するなどの実現方法がある。特定のフォーマットに従った注文表などの場合にはこの程度の比較方法でも十分であり、さらに、フォーマットごとに可変部分(情報が書き換え可能な部分)と固定部分(情報が不変に固定されている部分)を指定する情報がドキュメント内部或いはネットワークに接続された図示しないサーバなどから得られれば、より、高速かつ高度な処理を行うさまざまな変形があり得る。
【0053】
また、例えば対象とするドキュメントが通常の文書によるドキュメントであった場合には、その相違点を検出するには比較的高度な処理が必要ではあるが、この目的は、例えば従来公開されているような様々な技術を利用することにより実現可能である。一例として、上記従来例で示した特開平10−269205号公報には、文章を比較して段落ごとに相違の有無を判定する技術が開示されている。本発明においても、作業ドキュメントと比較対象のドキュメントとの相違点を識別する手段として、前記従来例で開示されているような技術を使用することが可能である。また、その他にも様々な技術を適用することが可能である。
【0054】
また、例えば対象とするドキュメントがPDLなどの印刷用データである場合においても、ドキュメントのフォームが同じであるような場合には、単純なデータ列の比較によって相違点を検出することができ、具体例として、例えばテキスト形式のPostScriptファイルのような場合にはUnixなどのOSに付随している“diff”コマンドを用いることで或る程度の相違点を検出することが可能である。なお、ドキュメントが特定のフォーマットに従っている場合には、その固定部分と可変部分を識別する情報をそのドキュメントのデータ内か、ローカルに保存された図示しないファイルか、ネットワークなどで接続された図示しないサーバなどに保存しておいてその情報を適時利用するという形式を採用した方が、より高度な処理を実現することができて好ましい。
【0055】
また、例えば対象とするドキュメントがビットマップやラスタデータになっていた場合においても、例えば公知の様々な文字認識技術や画像認識技術を組み込むことが可能であり、また、ドキュメントが動画であった場合においても、それに対応する技術を採用することにより、採用する相違点識別技術のそれぞれに応じた程度で相違点を識別することが可能である。これらの様々なドキュメントのタイプにおいても、そのフォーマットが決まっている場合には、その固定部分と可変部分を識別する情報をそのドキュメントのデータ内か、ローカルに保存された図示しないファイルか、ネットワークなどで接続された図示しないサーバなどに保存しておいてその情報を適時利用するという形式を採用した方が、より高度な処理を実現することができて好ましい。
【0056】
また、例えばドキュメントがビットマップデータやラスタデータである段階で比較を実現する容易な方法が利用可能であるときには、対象とするドキュメントが他のフォーマットである場合であっても、当該ドキュメントをビットマップデータ化やラスタデータ化した後に比較を行うようにすれば、上記した参照ドキュメント選択部13の比較方式選択部23による比較部14の比較方式14の変更処理が不要となって好ましい。そこで、ドキュメントがビットマップデータやラスタデータである段階において簡単に比較を行う方法の例を以下に示す。
【0057】
まず、一例として、作業ドキュメントと参照ドキュメントとの間で各画素値の比較を行って、例えば同じ画素値の部分、近い画素値の部分、全く異なる画素値の部分などに分けることにより、それぞれの部分を共通部分、類似部分、相違部分などとして特定する情報を表示部15へ提供する構成が可能であり、また、例えばそれぞれのドキュメントのドット数などからスコアの算出方法を規定することもできる。また、固定部分や可変部分を指定する情報を利用することにより、さらに、精度を上げた処理を行うことができる。
【0058】
また、他の例として、上記と同様に画素値を用いた比較処理を画素毎ではなく、いくつかの画素毎にまとめたグループを作って行うこともできる。このグループとしては、例えば描画される画素領域を格子状に区切って生成される桝目(格子単位)が用いられる。そして、個々の格子単位毎に当該格子単位内に含まれる複数の画素値に基づいて所定の計算を行った結果の数値を、作業ドキュメントと参照ドキュメントとで対応する各格子単位毎に比較する構成とすることができる。ここで、所定の計算の簡単な例としては、X=X*5+“画素値”(Xの初期値は例えばゼロ)という計算を格子単位内の全ての“画素値”に対して順番に行う計算などが用いられる。
【0059】
なお、このように格子単位毎に比較を行う方法では画素毎に比較を行う方法と比べれば多少比較精度は落ちるものの、格子単位が十分に小さいものであれば、たとえ或る格子部分で本当は異なるのに計算値がたまたま一致してしまったという場合があっても、その近傍の格子単位で計算値に違いが発生することにより、相違部分の見落としは確率的に非常に小さくなるようにすることができる。また、例えば格子単位毎の計算値を参照ドキュメントの候補毎に予め用意して参照ドキュメント蓄積部11等に記憶しておくことにより、新たな作業ドキュメントが読み込まれる度毎に比較対象の参照ドキュメントに関して当該計算処理を繰り返して行うといったことを防ぐことができる。また、格子単位毎に計算結果を比較する処理を採用した方法では、画素毎に計算結果を比較する処理を採用した方法と比べて、計算量が例えば数分の1から数十分の1に削減される。
【0060】
更に、他の例として、上記した格子単位をいくつかずつまとめてブロック化し、各ブロックの中に含まれる格子単位の所定状態(例えば上記した計算結果の数値が異なる状態、或いは同じ状態)の数や当該格子単位のブロック内での配置位置を判定して、各ブロック毎に、相違ブロック、類似ブロック、一致ブロックを判定することができる。これにより、例えば或るブロック内でたまたま数値が一致してしまった格子単位があった場合であっても、近傍の格子単位が大きく相違しているときには、当該ブロックについては相違していると推定することができ、当該推定結果を表示部15などに送信することができる。
【0061】
また、例えばスキャナを用いてスキャンインされたドキュメントのように、画素値にノイズが乗っているような画像を作業対象のドキュメントや参照ドキュメントとして用いる場合には、比較部14による比較処理を実行する前に、ノイズ除去などの何らかのフィルター処理を当該画像に施すことが望ましい。
以上に示した様々な方法により比較部14による比較処理は実現されるが、当該比較処理の方法として他の方法が用いられても構わない。
【0062】
表示部15は、比較部14の相違点識別手段により得られた情報を用いて作業ドキュメントを表示出力することや、或いは印刷出力することなどの出力を行う。この表示等による出力方法としては様々な方法があり得るが、例えばいずれの参照ドキュメントが選択されたのかがユーザ等にとって把握するのが困難な場合には、当該参照ドキュメントに関する何らかの情報(例えば当該参照ドキュメントを特定する情報)が出力されることが望まれる。この参照ドキュメントに関する情報としては、例えば当該参照ドキュメントを識別する名前や、当該参照ドキュメントを使用して作業がなされた日にちや時間や、当該参照ドキュメントを使用して作業がなされたときの作業手順やメモなどの付随情報など、様々な種類の情報を用いることができる。
【0063】
また、表示部15は、作業対象のドキュメントを出力するに際して、比較部14により識別された作業ドキュメントと参照ドキュメントとの相違点をユーザにより認識可能な形で出力する。このような出力の方法としてはいろいろな方法があり、以下に表示出力を例として具体例を示す。
すなわち、一例として、作業ドキュメントを表示するに際して、参照ドキュメントとの相違点を強調表示(例えば色を変える、フォントの書体を変える、点滅させるなど)する方法を用いることができる。
【0064】
また、他の例として、例えば作業ドキュメントが表示用フォーマットやラスタデータやビットマップデータになっている場合には、相違点として検出された領域に背景色を付ける方法や、或いは、その領域に色付きの図形を下の画素値とXOR演算を行いながら一定時間間隔で塗りつぶし描画を行う(この場合、ブリンクしたように表示される)方法や、或いは、例えばPDLが用いられている場合には、その相違点を描画する部分で描画のスタイルを変える(例えば文字列描画のスタイルを変える)等の処理を行う方法など、様々な方法を用いることができる。
【0065】
また、他の例として、例えば作業ドキュメントが表示用のフォーマットになっていないデータである場合には、そのデータの表示を行う表示プログラムに前記識別された相違部分のデータを強調表示するように指定する方法を用いることができ、また、このような方法ではなく、例えばこのような表示プログラムにより処理された後の出力データ(例えばPDLデータやラスタデータ)などに対して、上記した作業ドキュメントが表示用のデータである場合と同様の処理(例えば背景色を付ける処理や塗りつぶし処理やスタイルを変える処理など)を行うことにより目的を達成することもできる。
【0066】
また、以上に示したのとは逆に、作業ドキュメントと参照ドキュメントとで一致している部分の色の濃さを下げるなど、相違していない部分の見え方を変更することにより、相違部分と一致部分とを識別させることも可能である。具体例として、一致している部分は例えば濃いグレーで覆ってしまい、見えにくくすることで相違点に注意を集めるということも可能である。
【0067】
また、他の例として、例えば作業ドキュメントを(例えば最初に)表示するときには相違部分と一致部分とを特に区別することなく表示するとともに、検出した相違点をリストなどの形で列挙して表示しておき、ユーザ等によって特定の相違点が選択されたときに当該相違点部分を強調表示するなどの変形も実現可能である。また、例えばこのようなリスト表示を一部の相違点に関して行うといったように、最初から相違部分を区別して表示する態様と区別せずにリスト表示する態様とを組み合わせた方法も容易に実現可能である。
【0068】
通信I/F16は、例えば外部の記憶装置2やドキュメントサーバ3やデータベースサーバ4や文書化サーバ5と回線を介して接続されており、これらの記憶装置2等との間でドキュメント等の情報を回線を介して通信する機能を有している。
【0069】
なお、読取支援装置1の他の構成として、例えば当該読取支援装置1やその一部である表示部15としては、現在広がっているWebのブラウザ(Browser)の形態を取ることも可能である。また、参照ドキュメント蓄積部11に参照ドキュメント(例えば参照とする対照ドキュメント)の実体を格納する構成が用いられるばかりでなく、例えば参照ドキュメントの実体は他のファイルやネットワーク接続された他のサーバに格納しておき、その実体へのアクセス方法(例えばURLやファイル名とバージョン番号などの情報)を参照ドキュメント蓄積部11に保存しておく構成を用いることも可能である。
【0070】
また、例えばユーザが直接操作するものがクライアントシステムのユーザインタフェースのみであって、クライアントシステムはそのユーザインタフェースとネットワークを隔てて接続された他のサーバ上で動作するといった構成を用いることも可能である。また、例えばクライアントシステムの一部(例えば参照ドキュメント蓄積部11や、比較部14の相違点識別手段や、参照ドキュメント選択部13など)がネットワークを隔てた他のサーバーに存在するといった構成も現在の技術を用いて容易な変形である。
【0071】
また、例えば参照ドキュメント蓄積部11を単体の記憶装置から構成して、当該記憶装置に記憶された参照ドキュメントの候補の実体を複数のユーザで共有し、いずれの参照ドキュメントの候補をいずれのユーザの参照ドキュメントの候補として管理するかという情報を持つことにより、記憶容量の節約を実現する構成も可能である。また、このような構成が用いられる場合に、例えば参照ドキュメントの候補に対して各ユーザ毎に参照データを設けて、各ユーザ毎の作業体験の情報を当該各ユーザ毎の参照データに格納するといった構成を用いることも可能である。
【0072】
次に、図3には、本実施例の読取支援装置1により作業ドキュメントを表示する際に行われる処理の手順の一例を示してある。
すなわち、最初に、ユーザ等からの指定により、作業ドキュメントが通信I/F16を通して、ローカルな記憶装置2やネットワークを介して接続された他の記憶装置3、4やドキュメントの生成装置5から読み込まれる(ステップS1)。
【0073】
次に、参照ドキュメント選択部13において、第1選択部21による処理、すなわち、作業ドキュメントの種類を判定する処理が行われる(ステップS2)。このドキュメント種類の判定処理では、主に、ドキュメントのデータフォーマットを判別することを行う。従って、統一されたデータ形式(例えばPDFやXDW文書等)でドキュメントが流通しているような組織においては、このステップの処理を簡略化することができる。
【0074】
次に、参照ドキュメント選択部13の比較方式選択部23によりドキュメントの種別に応じた比較方式が選定され(ステップS3)、当該比較方式を用いて第2選択部22により参照ドキュメントの絞込みの処理が行われる(ステップS4)。
この絞込み処理は、例えばドキュメントのデータ形式毎にその特性を利用して行われる。具体的には、例えば登録されている参照ドキュメントの各候補及び作業対象のドキュメントについて、従来例に提示されているような手法等を用いることにより、同一部分、相違している部分を抽出してスコアリングし、そのスコアに基づいて最も類似している候補を比較対象として選択する方法を用いることができる。
【0075】
また、例えば参照ドキュメントの候補に固定部分が指定されている場合には、その固定部分が一致する候補を選んだ後で、可変部分の相違の程度をスコアリングして、そのスコアに基づいて最も類似している候補を比較対象として選択する方法を用いることができる。
また、例えばドキュメントのデータを構成するデータ列の各部分を順に(例えばデータの最初や最後から順に)少しずつ比較してゆき、作業ドキュメントと最も一致する部分が多かった候補を選択するといった方法を用いることができる。また、例えばドキュメントが構造化された文書である場合には、その構造に沿って構造自体と構成要素の比較などによりスコアリングする方法などを用いることができ、このほかにも様々な方法を用いて絞り込み処理を実現することが可能である。
【0076】
次に、上記の絞り込み処理により比較対象となる参照ドキュメントが決定されると、当該参照ドキュメントと作業ドキュメントとの相違部分の情報を抽出する処理が行われる(ステップS5)。この相違部分の抽出処理は、例えば参照ドキュメントに不変部分と可変部分の指定が行われている場合には、可変部分だけを比較することにより容易に実現することができ、前述のように様々な方法を当該処理に適用することが可能である。
【0077】
そして、上記のようにして相違部分が抽出されると、例えば表示出力用の処理が行われる(ステップS6)。ここで、例えば色を変える強調表示が用いられる場合には、相違が検出された部分に所定の色付けを施した表示が行われ、また、他の態様についても、例えば一致部分の色の濃度を下げるなど、前述した様々な方法やそれ以外にも様々な方法で表示を行うことができる。
【0078】
なお、参照ドキュメント蓄積部11に登録(記憶)する参照ドキュメントの候補の指定としては、前述のように、例えばシステムから登録を自動的に指定する構成とすることも可能であり、また、例えばユーザが直接的に参照ドキュメントの候補として登録するドキュメントを指定する構成とすることも可能である。
【0079】
ここで、参照ドキュメントの候補として或るドキュメントを登録することが指定された場合に読取支援装置1により行われる処理の一例を示す。
すなわち、このような指定があると、そのドキュメントについて、まず、参照ドキュメント選択部13の第1選択部21の基準に従って種別が検査され、その検査結果に基づいて当該ドキュメントが参照ドキュメント蓄積部11に登録される。なお、この検査を省略して例えばユーザが種別を判定して入力するようにしてもよく、また、例えば検査結果をユーザにより確認して修正することが可能な構成としてもよい。参照ドキュメント蓄積部11では、検査結果毎(例えば各種別毎)にドキュメントを分類して蓄積しておくことが望ましいが、この分類自体は必ずしも本発明においては必須の要件ではない。
【0080】
また、例えば参照ドキュメント選択部13の第2選択部22により上記のような画素値に基づく計算結果(特徴量)を用いた比較処理が採用される場合には、この段階で、登録する参照ドキュメントの候補の特徴量を抽出して、当該特徴量を当該ドキュメントと関連付けて登録しておくと好ましい。また、この特徴量を関連付けて登録することを、例えば当該特徴量の算出処理が必要になった時に行う構成とすることもできる。
【0081】
また、例えばドキュメントの不変部分としては、各ドキュメントのフォームなどが不変部分を規定(指定)する構成を用いることもでき、また、例えば各参照ドキュメント毎にユーザが不変部分を指定するといった構成も可能である。この不変部分の指定は、ドキュメントを構成する構成要素毎、或いは、その構成要素の集合ごとに設定することもできる。
【0082】
例えば、ワードプロセッサのようなアプリケーションにより作成されたドキュメントでは、どの段落、どのリスト、どのテーブル、どのグラフィックスなどというように、組み込まれたどのオブジェクトが固定部分で、どれが可変部分かを指定することができる。このような指定情報は、例えばドキュメントのデータ内に格納されることによりアプリケーション側で管理されてもよく、また、例えばデータ列のどこからどこまでが固定部分であるなどといった情報をドキュメントのデータとは独立に保持する構成とすることも可能である。
【0083】
また、以上のようにドキュメントを構成するオブジェクト側から可変部分等を指定する構成ばかりでなく、例えば表示されているイメージ側から可変部分等を指定する構成とすることも可能である。例えば、表示されたイメージ上における座標値を用いて、固定部分の領域を座標表現で指定することや、或いは、可変部分の領域を座標表現で指定することなどが可能である。
【0084】
また、参照ドキュメントの候補には、その参照ドキュメントを読んで作業したときの作業履歴や作業時に使用した情報の記録などのように当該ドキュメントに関して行った作業に関する様々な情報をその参照ドキュメントの候補と関連付けて記録しておくことが望ましい。このような記録を行うことにより、例えばユーザは参照ドキュメントに対して行った作業を記憶から取り出し易くなり、また、その時の作業を復元し易くなる。そして、例えばユーザは作業ドキュメントの相違点部分に対する作業の対応を検討することに注意を注ぐことが容易となる。また、例えばユーザは参照ドキュメントに対して行った作業の記録を参照することにより、当該参照ドキュメントを読んだときの記憶が一層呼び起こされるという効果もある。
【0085】
次に、図4及び図5を参照して、本実施例の読取支援装置1を適用した場合における作業の概略を具体的に説明する。
例えば図4に示されるように、フォームDocAAは作業者Aにより作られ、共通のフォームとしてネットワーク上のサーバ装置などを通じて提供される。
また、作業者BはフォームDocAAを使用して、ドキュメントAB1(DocAB1)、ドキュメントAB2(DocAB2)、ドキュメントAB3(DocAB3)の系列を作成し、他の作業者に送り、個々の作業をこなしている。
【0086】
また、作業者CはフォームDocAAを使用して、ドキュメントAC1(DocAC1)、ドキュメントAC2(DocAC2)、ドキュメントAC3(DocAC3)を作成し、他の作業者に送り、個々の作業をこなしている。そして、作業者Cは独自にドキュメントCC1(DocCC1)とそれを改変したドキュメントCC2(DocCC2)、ドキュメントCC3(DocCC3)を作成し、他の作業者に送信している。
【0087】
また、例えば図5に示されるように、作業者DはドキュメントAB1(Doc1B1)とドキュメントAB3(DocAB3)を受け取り、作業を行ったものとする。このとき、作業者DはドキュメントAB1を受け取ったときに参照ドキュメントの候補として当該ドキュメントAB1を登録し、そのドキュメントAB1に対して行った作業を当該読取支援装置1に参照ドキュメントの候補AB1(ドキュメントAB1)と関連付けて保持しているものとする。
【0088】
そして、次に、作業者DがドキュメントAB3を受け取ると、作業者Dの環境下ではドキュメントAB1が参照ドキュメントとして選択され、作業者DはドキュメントAB1を受け取った時の作業の内容を記述したものを見ることができ、また、その作業を行って登録した際のドキュメントAB1と作業ドキュメントAB3との相違点が分かりやすく読取支援装置1により提示される。このため、作業者DはドキュメントAB1を読んだときの作業内容を容易に思い出すことができるとともに、その時の内容から修正しなければならない作業内容部分に集中して作業を検討することが可能となる。そして、提示される作業内容は作業者DがドキュメントAB1を読んだときに体験した作業であるため、共通部分での作業は容易であるうえ、相違のある部分に注意を集中することができるため、作業効率も上がり、且つ、ドキュメントの読解ミスなどによる間違いを削減することができる。
【0089】
また、図示は省略したが、例えば作業者EにはドキュメントAB2とドキュメントAC1、ドキュメントAC2、ドキュメントAC3、そして、ドキュメントCC1、ドキュメントCC2、ドキュメントCC3が「ドキュメントAC1→ドキュメントAB2→ドキュメントAC2→ドキュメントCC1→ドキュメントCC2→ドキュメントAC3→ドキュメントCC3」の順で送られてきたものとする。
【0090】
作業者Eは、例えばドキュメントAC1が送信されてきた時に、その対応する作業の記述と共にドキュメントAC1を参照ドキュメントの候補として登録する。次に、ドキュメントAB2が送信されてきたときには、参照ドキュメントの選択処理が行われるが、登録されているドキュメントAC1と作業ドキュメントAB2とでは種類は同じであるものの、相違点が大きく、あまり参考にならなかったとする。このとき、作業者Eは例えばドキュメントAB2も参照ドキュメントの候補として登録したものとする。
【0091】
次に、ドキュメントAC2が送信されてくると、参照ドキュメントの選択が行われる。第1選択部21による選択処理においてはいずれも同じフォームDocAAから派生しているものであるので、当該フォームDocAA等を扱うことが可能な比較方式が選択される。そして、ドキュメントAC1とドキュメントAC2との間、及びドキュメントAB2とドキュメントAC2との間で比較を行い、比較方式が適切に選択されている場合にはドキュメントAC1が比較対象となる参照ドキュメントとして選択され、以降は上記と同様に、作業者Dは当該ドキュメントAC1を読んだときの作業内容を参考として作業ドキュメントAC2に対する作業を行うことができる。このとき、例えば参照ドキュメントの候補からドキュメントAC1を削除してドキュメントAC2を代わりに登録する。なお、例えばドキュメントAC1とドキュメントAC2との両方を参照ドキュメントの候補として登録することも可能であり、また、例えば参照ドキュメントの候補としてドキュメントAC1のみをそのまま残しておくことも可能である。
【0092】
次に、ドキュメントCC1が送信されてきて、第1選択部21による選択処理の段階で、ドキュメントCC1はいずれの参照ドキュメントの候補AC2、AB2とも種別が異なることが分かったとする。そこで、参照ドキュメント無しの形で作業ドキュメントCC1が表示され、それに基づいて作業者DによりドキュメントCC1に対する作業が行われる。ここで、ドキュメントCC1も参照ドキュメントの候補として登録することにする。
【0093】
次に、ドキュメントCC2が送信されてきたときには、第1選択部21による選択処理の段階で、ドキュメントCC2が参照ドキュメントの候補CC1と同じ種類であるとわかる。そして、第2選択部22による選択処理の段階で、ドキュメントCC1が確かに作業ドキュメントCC2に類似していて参照ドキュメントとして使用することが可能であることが確認され、上記と同様に、作業者DはドキュメントCC1を読んだときの記憶を元に作業ドキュメントCC2に対する作業を行うことができる。
【0094】
次に、ドキュメントAC3が送信されてくると、第1選択部21による選択処理の段階で、参照ドキュメントの候補AC2、AB2と同種であることが識別され、第2選択部22による選択処理によりドキュメントAC2が比較対象となる参照ドキュメントとして選択され、上記と同様に、作業者Dは当該ドキュメントAC2を読んだときの記憶を元に作業を行うことができる。
また、次に、ドキュメントCC3が送信されてきた場合も以上と同様であり、作業者Dは例えば比較対象となる参照ドキュメントとして選択されたドキュメントCC2を読んだときの記憶を元に、作業ドキュメントCC3に対する作業を行うことができる。
【0095】
以上のように、各作業者は各自が読んだり、それに対して作業を行ったりしたドキュメントとの比較で新たに受け取るドキュメントを読むことができ、これにより、かつて読んだときの記憶を頼りに新たな作業ドキュメントを読むことができるとともに、かつて読んだ時に行った作業の記憶を頼りにその作業ドキュメントに対する作業を行うことができる。
【0096】
次に、図6〜図9を用いて、参照ドキュメントや作業ドキュメントの具体例を示す。
図6中の(a)にはHTML形式による参照ドキュメントのデータの一例を示してあり、同図中の(b)には当該参照ドキュメントを表示出力した画面の一例を示してある。
一方、図7中の(a)にはHTML形式による作業ドキュメントのデータの一例を示してあり、同図中の(b)には上記図6に示した参照ドキュメントが比較対象として選択された場合において当該作業ドキュメントを表示出力した画面の一例を示してある。
【0097】
上記図6中の(a)に示したデータと上記7中の(a)に示したデータとの比較からも容易に分かるように、類似なデータ間での一致部分の抽出や、或いは相違部分の抽出は簡単な方法でも容易に行うことが可能である(但し、表示が類似するものの全てがデータ上も似たものになるとは限らない)。しかも、例えば類似したドキュメントを次々と読んで作業を進めることが必要となるような場合には、しばしばドキュメントのテンプレートが作成されて作業が行われたり、或いは作成者が参考となる類似したドキュメントの一部を手直しして新たなドキュメントを作成することが行われるため、簡単な方法でも一致部分や相違部分を切り出すことが可能な場合は多い。
【0098】
上記図7中の(b)では、HTML形式に適合した表示プログラムがあるものとして、一致部分の色の濃度をそのプログラム内で低く変化させたという想定で画面表示例を示してある。なお、同様の効果は、例えばデフォルトの色の設定をデータ中で変更することと、色の設定部分を切り出して色の濃度を変更することと、相違部分に元の指定色或いは更に目立つ色を指定することにより、データ側の操作によっても得ることができる。
【0099】
次に、図8中の(a)にはAdobe社のPostScriptを用いて記述した参照ドキュメントのデータの一例を示してあり、同図中の(b)には当該参照ドキュメントをプリンタにより印刷出力した出力結果の一例を示してある。
一方、図9中の(a)には上記と同様なPostScriptを用いて記述した作業ドキュメントのデータの一例を示してあり、同図中の(b)には上記図8に示した参照ドキュメントが比較対象として選択された場合において当該作業ドキュメントをプリンタにより印刷出力した出力結果の一例を示してある。
【0100】
このように、アプリケーションやプリンタドライバにより自動的に生成されるデータについても、それぞれのアプリケーションやプリンタドライバにはデータを生成する際の特徴点があるため、同じアプリケーションや同じプリンタドライバを使用して生成される場合には、類似の作られ方をしたドキュメントに対しては類似のデータが生成される。このため、ドキュメントがどのフォーマットによるものであるかを判定した後に、どのアプリケーションやどのプリンタドライバから生成されたものかを判定することにより、より容易に且つ高い精度で、一致部分と相違部分を識別することが可能となる。
【0101】
ここで、上記図9中の(b)に示したような相違部分の出力は、一例として、描画するオブジェクトの領域を集計していき、一致部分の領域にパターンで模様をかぶせるという方法で実現することができる。これは、例えば専用のプログラムを用意することによって実現することもでき、また、例えばPostScriptのパーサと領域の管理機構とパターン描画のコードを付け加えるフィルタプログラムによって実現することもできる。
【0102】
また、上記のようにパターン描画のコードを付け加えなくとも、例えば表示されたイメージ上で別の手段によってパターンをかぶせることも可能である。この方法は、例えば上述したように複数の格子単位を集めたブロック毎に相違を判定していくような比較方法との接続性がよい出力方法である。また、例えば各画素毎の色を変換する処理に要する負荷が問題にならない程度に小さい場合には、パターン描画をかぶせるほかに、一致部分の濃度を下げる処理や、相違部分の彩度や濃度を上げる処理などを行うのもよい。なお、バックグラウンドが反転している場合に出力される文字等の見易さを調整するときには、反転していない場合に対して濃度の変更方向を逆にする必要がある。
【0103】
以上のように、本実施例の読取支援装置1では、例えばユーザが自分でかつて読んでそれに基づいて作業を行ったなどの体験を持つドキュメントを基準として、新たなドキュメントなどの他のドキュメントを読解することを支援することができる。また、本実施例の読取支援装置1では、例えば参照に用いたドキュメントを読んだ際の行動のメモなどを付加しておく機能を設けることにより、基準となるドキュメントに対して行った行動を思い出すことを支援することができる。
【0104】
なお、本実施例では、参照ドキュメント蓄積部11により本発明に言う参照ドキュメント記憶手段や参照ドキュメント特徴量記憶手段が構成され、通信I/Fにより本発明に言う取得手段が構成され、参照ドキュメント選択部13により本発明に言う参照ドキュメント選択手段が構成され、比較部14により本発明に言う比較手段が構成され、表示部15により本発明に言う出力手段が構成され、参照ドキュメント登録管理部12により本発明に言う参照ドキュメント登録手段が構成され、第1選択部21により本発明に言う第1の選択手段が構成され、第2選択部22により本発明に言う第2の選択手段が構成される。
【0105】
なお、本例では、本発明の好適な実施形態を示したが、本発明に係る読取支援装置の構成としては、必ずしも本実施例で示したものに限られず、種々な構成が用いられてもよい。
例えば、本実施例では、好ましい態様として、本発明に係る読取支援装置により行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROMに格納された制御プログラムを実行することにより制御される構成としたが、例えば当該処理を実行するための各機能手段を独立したハードウエア回路として構成することも可能である。
【0106】
また、本発明は上記のような制御プログラムを格納したフロッピーディスクやCD−ROM等のコンピュータにより読み取り可能な記憶媒体として把握することもでき、当該制御プログラムを記憶媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0107】
【発明の効果】
以上説明したように、本発明に係る読取支援装置や記憶媒体によると、作業対象のドキュメントを出力するに際して、当該ドキュメントと選択された参照ドキュメントとの相違部分と他の部分とが区別可能な態様で出力されるようにしたため、例えばユーザが自分でかつて読んでそれに基づいて作業を行ったなどの体験を持つドキュメントを基準として、新たなドキュメントなどの他のドキュメントを読解することを支援することができ、これにより、例えばユーザにとって既に記憶しているドキュメント内容を基準として新たなドキュメント内容を理解することが容易となり、また、過去にそのドキュメントを読んだ時の行動の記憶を基準として新たなドキュメントに対する行動を考えることが容易となる。
【0108】
また、本発明に係る読取支援装置では、例えば参照ドキュメントの候補として記憶しておくドキュメントをユーザが読んだ際に行った行動のメモなどを当該ドキュメントに付加して記憶しておくようにしたため、例えばユーザにとって基準となるドキュメントに対して行った行動を思い出すことを支援することができ、これにより、新たなドキュメントに対する対応を効率的にとることを可能にすることができる。
【0109】
また、本発明に係る読取支援装置や比較方法では、例えば参照ドキュメントと作業対象のドキュメントとの相違度や類似度を判定するために行われる比較処理の好ましい一態様として、画素値に基づく特徴量を用いた比較処理が行われ、これにより、例えば作業対象のドキュメントに類似する参照ドキュメントを選択することや、作業対象のドキュメントと参照ドキュメントとの相違部分を検出することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る読取支援装置の構成例を示す図である。
【図2】参照ドキュメント選択部の構成例を示す図である。
【図3】作業ドキュメントの表示時における処理のフローチャート図である。
【図4】ドキュメントを介した作業の一例を示す図である。
【図5】ドキュメントを介した作業の一例を示す図である。
【図6】HTML形式の参照ドキュメントデータ及びその表示の一例を示す図である。
【図7】HTML形式の作業ドキュメントデータ及びその表示の一例を示す図である。
【図8】PostScript形式の参照ドキュメントデータ及びその出力結果の一例を示す図である。
【図9】PostScript形式の作業ドキュメントデータ及びその出力結果の一例を示す図である。
【符号の説明】
1・・読取支援装置、 2・・記憶装置、 3・・ドキュメントサーバ、
4・・データベースサーバ、 5・・文書化サーバ、
11・・参照ドキュメント蓄積部、 12・・参照ドキュメント登録管理部、
13・・参照ドキュメント選択部、 14・・比較部、 15・・表示部、
16・・通信I/F、 21・・第1選択部、 22・・第2選択部、
23・・比較方式選択部、

Claims (13)

  1. 参照ドキュメントの候補を記憶する参照ドキュメント記憶手段と、
    作業対象のドキュメントを取得する取得手段と、
    取得された作業対象のドキュメントに基づいて参照ドキュメントの候補の中から比較対象とする参照ドキュメントを選択する参照ドキュメント選択手段と、
    選択された参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出する比較手段と、
    検出された相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力する出力手段と、を備え、
    参照ドキュメント選択手段は、参照ドキュメントの候補の中から作業対象のドキュメントの種別と一致する種別の参照ドキュメントを選択する第1の選択手段と、所定の比較方式を用いて第1の選択手段により選択された参照ドキュメントと作業対象のドキュメントとを比較して、第1の選択手段により選択された参照ドキュメントの中から作業対象のドキュメントに類似した参照ドキュメントを比較対象として選択する第2の選択手段とから構成されたことを特徴とする読取支援装置。
  2. 請求項1に記載の読取支援装置において、
    参照ドキュメント記憶手段は、参照ドキュメントの候補を記憶するとともに、参照ドキュメントの候補と関連付けて当該参照ドキュメントに関して行われた作業に関する情報を記憶し、
    出力手段は、検出された相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力し、比較対象として選択された参照ドキュメントに関連付けられて記憶された作業に関する情報を出力することを特徴とする読取支援装置。
  3. 請求項2に記載の読取支援装置において、
    作業に関する情報として、参照ドキュメントを識別する名前、或いは、参照ドキュメントを使用して作業がなされた日にちや時間、或いは、参照ドキュメントを使用して作業がなされたときの作業手順、或いは、参照ドキュメントを使用して作業がなされたときのメモが用いられることを特徴とする読取支援装置。
  4. 請求項1乃至請求項3のいずれか1項に記載の読取支援装置において、
    参照ドキュメント記憶手段は、単体の記憶装置から構成され、各ユーザ毎の参照ドキュメントの候補を識別して記憶する機能を有することを特徴とする読取支援装置。
  5. 請求項4に記載の読取支援装置において、
    参照ドキュメント記憶手段は、参照ドキュメントの候補に対して各ユーザ毎に設けられ
    た参照データに各ユーザ毎の作業体験の情報を記憶することを特徴とする読取支援装置。
  6. 請求項1乃至請求項3のいずれか1項に記載の読取支援装置において、
    参照ドキュメント記憶手段は、各ユーザ毎の参照ドキュメントの候補を記憶する複数の記憶装置から構成されたことを特徴とする読取支援装置。
  7. 請求項1乃至請求項6のいずれか1項に記載の読取支援装置において、
    参照ドキュメント選択手段は、作業対象のドキュメントの種別に応じた比較方式を複数の比較方式の中から選択する比較方式選択手段を有し、
    第2の選択手段は、比較方式選択手段により選択された比較方式を用いて第1の選択手段により選択された参照ドキュメントと作業対象のドキュメントとを比較することを特徴とする読取支援装置。
  8. 請求項1乃至請求項7のいずれか1項に記載の読取支援装置において、
    第2の選択手段又は比較手段は、ドキュメントが特定のフォーマットに従っている場合に、その固定部分と可変部分を識別する情報を取得して、比較を行うことを特徴とする読取支援装置。
  9. 請求項1乃至請求項8のいずれか1項に記載の読取支援装置において、
    参照ドキュメントの候補の特徴量を記憶する参照ドキュメント特徴量記憶手段を備え、
    第2の選択手段又は比較手段は、作業対象のドキュメントの特徴量を検出し、当該検出した特徴量と参照ドキュメント特徴量記憶手段に記憶された参照ドキュメントの特徴量とを比較することを特徴とする読取支援装置。
  10. 請求項9に記載の読取支援装置において、
    参照ドキュメント特徴量記憶手段は、参照ドキュメントの候補のイメージを格子状に区切って複数の格子単位に分割した各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を記憶し、
    第2の選択手段又は比較手段は、作業対象のドキュメントのイメージを比較対象となる参照ドキュメントと同一の格子状に区切って複数の格子単位に分割し、分割した作業対象のドキュメントの各格子単位毎に当該格子単位に含まれる画素の値に基づく特徴量を検出し、当該検出した特徴量と参照ドキュメント特徴量記憶手段に記憶された参照ドキュメントの特徴量とを比較することにより相違部分を検出することを特徴とする読取支援装置。
  11. 請求項1乃至請求項9のいずれか1項に記載の読取支援装置において、
    参照ドキュメント選択手段又は比較手段は、作業対象のドキュメントの種別を判定し、当該判定結果に応じた描画処理により作業対象のドキュメントの描画領域の少なくとも一部の領域のイメージ情報を作成し、作業対象のドキュメントのイメージと比較対象となる参照ドキュメントのイメージとを同一の格子状に区切って複数の格子単位に分割した各格子単位毎に比較することにより相違部分を検出することを特徴とする読取支援装置。
  12. 請求項1乃至請求項11のいずれか1項に記載の読取支援装置において、
    参照ドキュメント記憶手段に参照ドキュメントの候補を記憶させる参照ドキュメント登録手段を備えたことを特徴とする読取支援装置。
  13. 読取支援装置の取得手段が作業対象のドキュメントを取得し、
    読取支援装置の参照ドキュメント選択手段が、当該参照ドキュメント選択手段を構成する第1の選択手段により参照ドキュメントメモリに記憶された参照ドキュメントの候補の中から取得された作業対象のドキュメントの種別と一致する種別の参照ドキュメントを選択し、当該参照ドキュメント選択手段を構成する第2の選択手段により所定の比較方式を用いて第1の選択手段により選択された参照ドキュメントと作業対象のドキュメントとを比較して、第1の選択手段により選択された参照ドキュメントの中から作業対象のドキュ
    メントに類似した参照ドキュメントを比較対象として選択し、
    読取支援装置の比較手段が選択された参照ドキュメントと作業対象のドキュメントとを比較して相違部分を検出し、
    読取支援装置の出力手段が検出された相違部分と他の部分との出力態様を異ならせて作業対象のドキュメントを出力する、
    ことを特徴とする読取支援方法。
JP2000113024A 2000-04-14 2000-04-14 読取支援装置 Expired - Fee Related JP3879810B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000113024A JP3879810B2 (ja) 2000-04-14 2000-04-14 読取支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000113024A JP3879810B2 (ja) 2000-04-14 2000-04-14 読取支援装置

Publications (2)

Publication Number Publication Date
JP2001297080A JP2001297080A (ja) 2001-10-26
JP3879810B2 true JP3879810B2 (ja) 2007-02-14

Family

ID=18625070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000113024A Expired - Fee Related JP3879810B2 (ja) 2000-04-14 2000-04-14 読取支援装置

Country Status (1)

Country Link
JP (1) JP3879810B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4089655B2 (ja) * 2003-09-16 2008-05-28 セイコーエプソン株式会社 レイアウトシステムおよびレイアウトプログラム、並びにレイアウト方法
JP2006195575A (ja) * 2005-01-11 2006-07-27 Canon Inc 情報処理装置及びその方法
JP5510221B2 (ja) * 2010-09-14 2014-06-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN107195224A (zh) * 2016-03-14 2017-09-22 丽水学院 一种阅读视野分割系统
JP2018028747A (ja) * 2016-08-16 2018-02-22 富士ゼロックス株式会社 情報処理装置及びプログラム
JP6734171B2 (ja) * 2016-09-29 2020-08-05 グローリー株式会社 紙葉類集計処理システム及び紙葉類集計処理方法

Also Published As

Publication number Publication date
JP2001297080A (ja) 2001-10-26

Similar Documents

Publication Publication Date Title
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US7730104B2 (en) Extraction of information from structured documents
US8520889B2 (en) Automated generation of form definitions from hard-copy forms
US8295590B2 (en) Method and system for creating a form template for a form
CN109101469A (zh) 从数字化文档提取可搜索的信息
US20030145283A1 (en) Customizable information processing apparatus
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
CN112380825B (zh) Pdf文档跨页表格合并方法、装置、电子设备及存储介质
KR20210105764A (ko) 전자문서 내의 텍스트 추출 방법 및 관련 장치
US20040148298A1 (en) Browse information management system and management method
US5950213A (en) Input sheet creating and processing system
CN108038441A (zh) 一种基于图像识别的系统与方法
JP3879810B2 (ja) 読取支援装置
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
WO2007070010A1 (en) Improvements in electronic document analysis
US20070233818A1 (en) Recording medium storing input/output screen generation program, and method for suppressing an unreasonable screen shift
WO2002021331A1 (en) Analysing hypertext documents
JP4952079B2 (ja) 画像処理装置、方法及びプログラム
EP1744271A1 (en) Document processing device
JP4255538B2 (ja) 構造化文書蓄積検索装置
JP5126592B2 (ja) 文書処理装置及び文書処理プログラム
CN112766889B (zh) 一种工作任务动态分类管理方法及装置
CN112541085B (zh) 问卷的结构化方法、问卷的结构化装置及存储介质
JP2005190404A (ja) 学習講座提案システム、学習講座提案方法、および学習講座提案プログラム
JP2000315209A (ja) 画像ファイリング装置、画像ファイリング方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060927

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees