JP2009087037A - 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体 - Google Patents

文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体 Download PDF

Info

Publication number
JP2009087037A
JP2009087037A JP2007255998A JP2007255998A JP2009087037A JP 2009087037 A JP2009087037 A JP 2009087037A JP 2007255998 A JP2007255998 A JP 2007255998A JP 2007255998 A JP2007255998 A JP 2007255998A JP 2009087037 A JP2009087037 A JP 2009087037A
Authority
JP
Japan
Prior art keywords
document
information
stored
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007255998A
Other languages
English (en)
Inventor
Toshikazu Owada
俊和 大和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007255998A priority Critical patent/JP2009087037A/ja
Publication of JP2009087037A publication Critical patent/JP2009087037A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】登録対象の文書が、文書管理装置に登録すべきかどうかを文書管理装置自身が判断して、必要な文書だけを登録する文書管理装置および、この文書管理装置を備えた画像処理装置を提供する。
【解決手段】ネットワークに接続されている端末50に保存されている文書データを探索して、前回の探索以降に作成または更新された文書データを入力する文書探索部11と、このようにして入力した文書データの本文と類似する内容の文書を登録済み文書から検索して類似度を判定する類似度判定部13と、この類似度判定部13が、予め定めた閾値より高い類似度の文書を検索した際に、入力した文書データを登録する文書登録部14と、を備えた。
【選択図】図1

Description

本発明は、文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体に関し、特に所望とする文書と内容的に類似する類似文書の登録に関する。
近年、業務で作成した文書や参考にした資料等を電子化して管理することは日常的に行われている。電子的に登録および管理された文書は、閲覧や検索が容易に行え、文書の共有も効率的に行える。また、特定の研究テーマやトピックに関する文書を集めて関係者に閲覧できるようにしたいという場合にも便利である。
しかし、文書管理装置への文書の登録時には、書誌事項等の帳票入力が必要であり、文書管理装置からの指示に従って入力するにしても、操作に手間がかかり、登録しようとする意欲を減退させる。その結果、登録して欲しい文書が登録されないという問題も起る。
この問題に対して、帳票入力の際、個々の入力項目に対して過去の入力値を保存しておき、新規入力時に入力候補として表示して、表示された候補を入力者が選択することにより入力できるようにした帳票入力装置がある(例えば特許文献1参照)。特許文献1の帳票入力装置においては、表示された候補が入力として選択された回数や最終の入力日時(選択された日時)に基づいて、表示する候補の順序を変更できるようにしてあり、選択される可能性が高い候補が早い時期に表示されるようになっている。
もう一つの問題としては、特定の研究テーマやトピックと無関係な文書が登録されてしまうという問題がある。例えば、上述の従来技術で、帳票入力の煩雑さが軽減されたとしても、登録のために入力された文書すべてを自動的に登録すると、登録すべきでない文書も登録されてしまい、記憶領域の無駄、検索性能の低下、検索適合率の低下などの問題を引き起こす。例えば、研究テーマの一環として施設の見学に行った際の報告書と出張精算書が共に自動登録されると、技術とは無関係な出張精算書まで登録されてしまい具合が悪い。そこで、特定の研究テーマやトピックと関連が深い(類似性が高い)文書だけを判別して登録されるようにしたいという要望が出てくる。
この問題に対しては、ある文書と内容的に類似する文書を検索する先行技術が多く存在する(例えば、特許文献2、特許文献3参照)。特許文献2および特許文献3に記載の類似文書検索装置で採用しているアルゴリズムの概要は共に、次のようなものである。
文書を登録する際に、形態素解析等を行い、文節の係り受け関係を決定して文の構造を明らかにして、索引となるキーワードを抽出して、文書(本文)と共に登録する。そして、検索時は、文書あるいは検索文章を入力して、登録時と同様の解析処理を行い、検索キーワードを抽出して、この検索キーワードを用いて登録してある文書を検索して、入力文書(あるいは検索文章)との類似性を判断する。類似性判断のための重要なポイントの一つは、キーワード包含率である。これは、一致した(両文書に現れる)キーワードの数を、両文書のキーワードの数(重複するものは1と数える)で割った値である。このようにして、キーワードの抽出には、文の構造や係り受けの情報を用いているので、精度の高い類似文書の検索が行えるようになっている。
尚、特許文献2、3に開示されている技術は、文書を登録した後の検索を容易化することを目的とした技術であり、文書の選択的な登録を目的とする本発明とはその要旨が異なる。
特開2002−170071号公報 特開平3−172966号公報 特開平4−182871号公報
しかしながら、特許文献1に記載された帳票入力装置では、文書作成者が入力時に行うキーボード等からの文字の入力作業は軽減されるが、文書作成者に文書の登録を行わせようとする動機付けは弱く、依然として作成文書が登録されないまま残るという問題は解決しない。
また、特許文献2、3において開示された技術では、入力文書と類似する文書を蓄積されている文書から抽出することは可能である。しかしながら、入力文書は、単に検索キーとしてのみ用いられ若しくは全て登録されることが前提である。従って、特定の研究テーマやトピックと関連が深い(類似性が高い)文書だけを判別して登録するような、文書の選択的な登録は不可能である。
本発明は、上記実情を考慮してなされたものであり、登録対象となる文書に対して、その文書を文書管理装置に登録すべきかどうかを判断して、必要な文書だけを登録できるようにすることを目的とする。
また、文書登録に際し、書誌事項等の入力を容易にすることを目的とする。
上記課題を解決するために、請求項1に記載の発明は、文書情報を選択的に格納する文書管理装置であって、格納対象の文書情報を取得する文書情報取得部と、既に格納されている文書情報と前記格納対象の文書情報との類似度を数値化して出力する類似度判定部と、前記格納対象の文書情報の格納可否を決定するための基準となる数値情報を基準情報として記憶している基準情報記憶部と、前記類似度判定部が前記出力した類似度の数値情報と前記基準情報記憶部が記憶している基準情報との比較結果に応じて前記格納対象の文書情報の格納を決定する文書格納決定部とを有することを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の文書管理装置において、前記文書情報取得部は、前記格納対象の文書情報を保持する格納対象文書保持部に保持された当該格納対象の文書情報を取得することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の文書管理装置において、前記格納対象文書保持部は、ネットワークを介して前記文書管理装置に接続された他の装置に含まれることを特徴とする。
また、請求項4に記載の発明は、請求項1乃至3いずれか1項に記載の文書管理装置において、前記基準情報は、前記類似度判定部が出力する類似度の数値情報に対する閾値であり、前記文書格納決定部は、前記出力された類似度の数値情報が前記閾値以上である場合に、前記格納対象の文書情報の格納を決定することを特徴とする。
また、請求項5に記載の発明は、請求項4に記載の文書管理装置において、前記既に格納されている文書情報は、当該文書情報に関する書誌情報と関連付けられて格納されており、前記既に格納されている文書情報のうち、前記格納対象の文書情報との類似度が前記閾値以上であった文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付ける文書情報関連付け部を更に有することを特徴とする。
また、請求項6に記載の発明は、請求項5に記載の文書管理装置において、前記文書情報関連付け部は、前記閾値よりも更に高い類似度を示す第2の基準情報を記憶しており、前記既に格納されている文書情報のうち、前記格納対象の文書情報との類似度が前記第2の閾値以上であった文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付けることを特徴とする。
また、請求項7に記載の発明は、請求項5または6に記載の文書管理装置において、前記文書情報関連付け部は、前記既に格納されている複数の文書情報のうち、前記格納対象の文書情報との類似度が最も高い文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付けることを特徴とする。
また、請求項8に記載の発明は、請求項1乃至7いずれか1項に記載の文書管理装置において、前記基準情報記憶部は、前記文書情報の情報種別に応じた前記基準情報を記憶していることを特徴とする。
また、請求項9に記載の発明は、画像処理装置であって、請求項1乃至8いずれか1項に記載の文書管理装置を備えたことを特徴とする。
また、請求項10に記載の発明は、文書情報を選択的に格納する文書管理方法であって、格納対象の文書情報を取得し、既に格納されている文書情報と前記格納対象の文書情報との類似度を数値化して出力し、前記格納対象の文書情報の格納を決定するための基準となる数値情報である基準情報を取得し、前記類似度判定部が前記出力した類似度の数値情報と前記基準情報記憶部が記憶している基準情報との比較結果に応じて前記格納対象の文書情報の格納を決定することを特徴とする。
また、請求項11に記載の発明は、文書管理プログラムであって、請求項10に記載の文書管理方法を情報処理装置に実行させることを特徴とする。
また、請求項12に記載の発明は、記録媒体であって、請求項11に記載の文書管理プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする。
本発明によれば、特定の研究テーマやトピックに関する文書が容易に登録可能な文書管理装置および、この文書管理装置備えた画像処理装置を提供することができる。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の一実施形態にかかる文書管理装置の要部機能構成を示す図である。同図において、クライアント端末50は、日常的な業務を行うための端末装置で、文書の作成や電子メールの送受信、各種情報の処理や入出力等を行うことができる。同図では、クライアント端末50は、ノート型パソコンの形で示されているが、キーボード、マウス、ディスプレイ等が分離したタイプのパソコンであってもよい。
このクライアント端末50には、ユーザーが作成した文書データも保存されている。また、クライアント端末50と文書管理装置10とは、共にLAN(Local Area Network)に接続されており、文書管理装置10は、クライアント端末50の文書データを探索して、必要に応じて文書データの情報(文書本文や作成日時等)を読み出すことができるようになっている。即ち、クライアント端末50若しくはクライアント端末50に接続された記憶装置が格納対象の文書情報を保持する文書保持部として機能する。なお、LANに接続されたこのようなクライアント端末50は1台とは限らず複数台存在してもよい。
文書管理装置10は、文書探索部11、文書解析部12、類似度判定部13、文書登録部14、文書入力部16、文書登録領域15を備えている。
文書探索部11は、クライアント端末50に所定の期間に作成若しくは更新された文書データが存在しないかどうかを探索する。該当する文書データが発見された場合、その文書データの情報(文書本文や作成日時等)を入力して文書解析部12へ送る。文書解析部12は、文書探索部11から送られてきた本文に対して形態素解析等を施し、検索用のキーワードを抽出した後、結果を類似度判定部13へ送る。
類似度判定部13は、文書解析部12から送られてきたデータ(キーワード)を基に、文書登録領域15に格納されている登録済み文書を検索する。このとき、文書の類似度を算出し、類似度が予め定められた閾値を超えている場合(類似している場合)には、クライアント端末50から入力した文書データの本文と抽出したキーワード等を文書登録部14に送る。
文書登録部14は、類似度判定部13が検索して類似度が一番高かった文書の書誌事項等を基に文書登録用データ項目(書誌情報)のデータを決定して、文書登録領域15に書誌情報、キーワード、本文等を登録して管理対象文書とする。以上の一連の処理は人の手を介さないで行われるので自動登録と呼ぶことにする。
なお、文書登録領域15は、文書を登録するための記憶領域であり、ハードディスクやフラッシュメモリ等の記憶装置で構成してある。また、類似度判定に用いる閾値は、例えば研究テーマ毎、トピック毎に設定でき、文書登録領域15に記憶しておく。
文書入力部16は、クライアント端末50から、ユーザーが文書を登録するためのインターフェースを提供する。
文書管理装置では、最初は登録済み文書が存在しない。このような場合、手動で文書を登録できるようにする必要がある。また、閾値を0にして、探索された文書をすべて自動登録することもできる。そして、登録文書が集まってきたら閾値を再設定すればよい。閾値を設定し直さない場合、クライアント端末50から文書探索部11によって探索された自動登録の文書はすべて登録するという運用になる。文書入力部16は、閾値の設定も行えるようになっている。なお、この人手を介して文書を入力して登録する文書登録の方法を手動登録と呼ぶことにする。
手動で文書を登録する際の処理も、上で述べた自動登録の場合の処理と似ている。即ち、文書入力部16が登録したい文書データの本文を入力して、文書解析部12へ送る。文書解析部12は、文書探索部11から送られてきた本文に形態素解析等を施し、検索用のキーワードを抽出して、結果を文書登録部14へ送る。文書登録部14は、書誌情報、キーワード、本文等を文書登録領域15に登録する。この場合は、書誌情報は入力しておかなければならない。また、研究テーマやトピックに対応付けて類似度の判定基準である閾値も入力しておく。
クライアント端末50は、LANを介して登録したい文書の文書データを文書入力部16がアクセス可能な記憶装置(例えば文書登録領域15と同じハードディスク)の共有フォルダに書き込むことができるので、文書入力部16は、この共有フォルダから文書データを入力することができる。
この手動入力の操作は通常、クライアント端末50から行うが、文書管理装置10の文書入力部16から行ってもよい。その際は、文書媒体17(例えばフレキシブルディスクやCD−ROM、CD−R)などの媒体に文書データを記録して文書入力部16に読ませるか、文書入力部16からLANに接続されているクライアント端末50などにある文書データを入力すればよい。従って、文書入力部16は、キーボード、マウス等の入力装置と、ディスプレイ等の表示装置と、CD−ROM等のドライブを備えている。
なお、文書探索部11がクライアント端末から自動的に文書データを入力する替わりに、文書入力部16へ手動で文書データを入力して、自動登録の際に行う類似度判定を行って、類似度の高い文書が登録済み文書から検索された場合に文書を登録することもできる。この登録方法は、文書データの入力に人手を要するが、登録対象文書を登録すべきかどうかを文書管理装置が判断することから半自動登録と呼ぶ。
図2は、これまで述べた登録方法の種別を説明する図である。同図において、文書データの読み込みは、文書探索部11が自動的に行うか、ユーザーが手動で行うかの別である。自動登録以外はユーザーが手動で行う。
登録のための類似度判定は、類似度の高い文書が登録済み文書から検索された場合に文書を登録するかを判断することを意味する。手動登録の場合は類似度判定を行わずに全件登録する。なお、類似度判定ありの場合は、登録のための書誌情報は、文書管理装置が作成する。
作業場所と文書データは、登録のための操作を何処から行って、何処にある文書データが登録できるかを示すもので、端末はクライアント端末50を示す。自動登録の場合は、登録のための操作は不要であり、クライアント端末50の記憶装置(例えばハードディスク)に文書データがある必要がある。手動登録と半自動登録では、クライアント端末50からも文書管理装置10からも登録操作が行える。
ところで、自動登録の場合は、文書探索部11がクライアント端末50を探索する際は、クライアント端末50の電源をオンにしておく必要があり、防災上、防犯上好ましくない場合もある。半自動登録は、この欠点を解決する。登録の主導権は人間にあり、ユーザーが都合のよい時に登録操作を行える。しかも書誌事項等の入力を大幅に削減できる。また、文書媒体17を使用して文書データを文書管理装置に入力することもできるので、ネットワークを使用しなくても運用できる。
次に、文書管理装置が文書を登録する際のデータ構成を説明する。
図3は、本実施形態における文書管理装置が文書を登録する際のデータ構成の例を説明する図である。同図において、書誌情報には、文書のタイトル、作成者、作成年月日、研究テーマID等の文書の素性を表すデータ(書誌事項)と、付帯項目として、配布先、閲覧範囲、保存期限等の管理や利用上の項目がある。これらの項目は、従来から、文書の作成者(あるいは登録者)が登録に際して記入あるいは入力しているものである。
キーワードは、文書解析部12が本文を解析して抽出したキーワードで、文書の類似度判定だけでなく、通常の文書検索時にも使用するものである。本文は文書本体である。これらのデータは、文書ファイルとして1つのファイルに格納しても、あるいはそれぞれを個別のファイルとして格納してもよい。さらにキーワードを集めた、検索のための転置ファイル(Inverted file)を作成してもよい。転置ファイルは、検索を行う対象となる文書群(登録済み文書)からキーワードの位置情報を格納するための索引構造である。つまり、このキーワードはどの文書に含まれるかを示す索引になっており、転置索引、逆引き索引などとも呼ばれる。この転置ファイルとシソーラス(類似語)辞書を併用すると漏れの少ない類似文書の検索が行える。
次に、本実施形態にかかる文書管理装置の動作を図面を参照して説明する。
図4は、本発明の一実施形態にかかる文書管理装置の文書自動登録の動作を示すフローチャートである。文書管理装置10の文書探索部11は、例えば1日に1回のように定期的に、LANに接続されているクライアント端末50のハードディスクを探索して、新規に格納対象となる文書、即ち、前回の探索時以降に作成または更新された文書がないかを調べる(ステップ101)。文書がなければ(ステップ102がNO)、このクライアント端末50の探索処理を終了して、ほかに探索するクライアント端末50があれば同様に繰り返す。
文書が見つかったら(ステップ102がYES)、文書探索部11が文書データを読み出し、本文を文書解析部12に送って文書解析部12で文書情報を取得する(ステップ103)。即ち、文書探索部11及び文書解析部12が文書情報取得部として機能する。このステップでは、見つかった文書のタイトルと、文書登録領域15に登録されている登録済み文書から類似文書を検索するためのキーワードとを抽出する。キーワードを抽出するために、文法辞書、単語辞書等を用いて、文の一つひとつを言語上で意味を持つ最小単位の形態素列に分割し、それぞれの品詞を判別する。その後係り受け関係を決定して文の構造を明らかにして、索引となる名詞のキーワードを抽出する。抽出されたキーワードは、登録することが決まった際に本文と共に登録されることになる。文書のタイトルも上の文書解析処理の過程で抽出する。抽出された文書タイトルは書誌情報となる。
次に、ステップ103で抽出したキーワードを用いて、登録済み文書、即ち、文書登録領域15に既に格納されている文書情報の検索を行う(ステップ104)。この検索は類似度判定部13が行う。検索に際しては従来技術(例えば特許文献2や特許文献3に記載)の類似文書検索アルゴリズムを用いればよい。類似度判定部13による登録済み文書の検索の結果生成される情報を図5に示す。図5に示すように、類似度判定部13によるステップ104の検索の結果生成される情報は、登録済み文書の文書名と、当該文書情報と格納対象の文書情報との類似度とが関連付けられたテーブルとなっている。尚、図5に示す文書名は、文書情報を識別可能な情報であれば良く、文書名以外にも夫々の文書を個別に識別するID情報等を用いることが可能である。
図5に示すように、本実施形態に係る類似度情報は、“〜%”のようにパーセンテージで示される。類似度の情報形式は、類似度判定部13が採用するアルゴリズムによって異なり、キーワードの一致個数等の数値情報でも良い。いずれの情報形式を採用する場合であっても、類似度は少なくとも一次元の数値情報を含む。図5に示すように、格納対象の文書と登録済み文書との類似度を示すテーブルを生成すると、類似度判定部13は、予め定められた閾値と図5に示す夫々の類似度を比較する。ここで、類似度判定部13に予め定められた閾値とは、入力された文書を文書登録領域15に登録するか否かを判断するための基準となる情報であり、図5に示す類似度に対応した数値情報である。即ち、類似度判定部13が基準情報記憶部として機能する。
図6を参照して、類似度判定部13が有する閾値の情報について説明する。図6に示すように、本実施形態に係る閾値情報は、文書の書誌情報に含まれるテーマIDと、夫々のテーマIDにおける閾値とを含む。即ち、本実施形態において、文書のテーマID毎に、文書の登録可否を判断する基準が設定されている。これにより、夫々のテーマに応じて文書登録の判断基準を変更することが可能となる。即ち、少しでも類似する文書をより多く登録したいテーマについては、図6のテーマID“007”、“008”のように閾値を低く設定し、類似度の高い文書のみ登録したいテーマについては、閾値を高く設定することができる。
上記説明した類似度については、類似する文書ほど数値が高くなるような情報形式の他、中間のある一点を最高値として、その一点に近い程類似度が高く、その一点から遠い程類似度が低いような譲歩形式とすることも可能である。例えば、類似度を1〜100の数値で表し、類似度が最高の数値を50とする。そして、キーワードの一致数が多ければ類似度は1から50に近付くが、キーワードの一致割合が低いと50を超えて100に近付くというような算出方法を用いることも可能である。また、(“キーワード一致数”,“キーワード一致割合”)のように二次元の数値で類似度を示すことも可能である。このような場合、上記説明した閾値に対応する基準情報としては、“45〜55”等のように、数値範囲を指定する。
閾値より大きい類似度を持った文書が見つからなかったら(ステップ105がNO)、この読み出した文書は登録せず、ステップ101戻って、再度クライアント端末50の探索を行う。
閾値より大きい類似度を持った文書が見つかったら(ステップ105がYES)、類似度判定部13は、新規に格納対象となった文書の文書登録領域15への格納を決定する。類似度判定部13による文書の格納決定は文書登録部14に伝えられ、文書登録部14は、格納対象文書の書誌事項等の書誌情報を取得し(ステップ106)、書誌情報、キーワード、本文等を文書登録領域15に登録する(ステップ107)。登録された文書は、文書管理装置の管理対象文書となり、検索、閲覧等に供される。ステップ107で文書登録が終わったら、ステップ101に戻って、再度クライアント端末50の探索を行う。
書誌事項等の入力情報の取得処理(ステップ106)では、ステップ104で検索した類似度が閾値よりも高い文書の中で一番類似度の高い文書の書誌情報の一部を登録する文書の書誌情報としてコピーする。コピーするまでもなく、登録する文書の作成者、所属、作成日等は、クライアント端末50を探索して判明する。尚、一番類似度の高い文書の書誌情報に限らず、類似度が閾値を超えた文書のすべての書誌情報をコピーしても良いし、複数の文書に共通する書誌情報をコピーするようにしても良い。また、図6において説明した閾値よりも更に高い第2の閾値を設定し、その第2の閾値以上の類似度を示す文書の書誌情報をコピーするようにしても良い。これにより、新規に格納する文書の書誌情報をより好適に取得することが可能となる。
また、文書タイトルは、ステップ103で文書を解析したときに判明する可能性が高い。なお、このようにして書誌事項等のデータ(書誌情報)を決定しても、すべて正しいデータである保証はないので、登録後には筆頭作成者等に書誌情報のチェックを依頼するようにしても良い。
図7は、文書の登録に際して本文と共に登録する書誌情報の例を説明する図である。項目としては特別のものはない。なお、ここで挙げた項目は書誌情報の一部である。同図において、注目すべき点は、自動設定の可能性の列で「◎」や「○」の項目である。「◎」の項目は、ほぼ自動設定できる項目であり、「○」の項目は、例えば同じ研究テーマIDやトピックの文書間では共通性が高い項目である。従って、文書作成者が、作成した文書の登録を煩わしく思う書誌事項等の入力も、予め確度の高いデータが入力されていたら、簡単な作業で修正を済ませることができる。
なお、クライアント端末50から入力した文書を登録するかどうかを決定するには、この類似度と、予め設定されている閾値とを比較するが、閾値は状況に応じて任意に設定可能である。例えば、なるべく広い範囲の文書を登録したい場合は閾値を低くする、反対に、なるべく類似度が高い文書に絞って文書を登録したい場合は閾値を高くすればよい。閾値は、2つの文書のキーワードがすべて一致した時を100(%)として、一致したキーワードが1つもない場合は0である。前述したように、閾値は研究テーマID、技術分野、トピック等に対応させて設定可能である。
登録済み文書と登録候補となる文書との類似度を利用することにより、文書管理装置に登録する文書の内容を規定することができる。あるトピックに対する文書を集めたい場合、そのトピックについての文書を一つ登録しておけばよい。反対に、登録が必要ないトピックについては、文書を登録しておかなければよい。
それゆえ、本実施形態の文書管理装置では、手動登録と自動登録(あるいは半自動登録)とを併用して運用するのがもっとも望ましい運用形態となる。文書を手動登録した場合、その文書はある程度の質を持っており、且つ文書の作成者は、そのトピックについて情報を共有したい意思があると考えられる。そのように手動登録された文書を基として、それに類似した文書を自動登録することで、同じトピックの類似した文書を漏れなく登録することが可能となる。
なお、ここでは、手動登録および半自動登録についての処理の説明は省略したが、図1および図2の説明で概説した。手動登録が自動登録と異なる点は、登録する文書と書誌事項等のデータとを用意する点と、登録済み文書からの類似文書を検索しないで、そのまま登録する点である。この手動登録の処理の流れは、従来から行われていた処理と同じである。一方、半自動登録が自動登録と異なる点は、登録対象の文書データをユーザーが文書管理装置に入力する点である。
次に、本発明を実施するためのハードウエアについて具体的に例を挙げて説明する。
図8は、実施例1にかかる文書管理装置のハードウエア構成の例を示す図である。ほぼ同一の構成ではあるが、図1に示したクライアント端末50ではないことに注意されたい。
本発明の機能は、ソフトウェア(コンピュータプログラム)によって実現するものであり、本実施例の文書管理装置は、CPU21、メモリ22、CD−ROMドライブ23、外部記憶装置25(例えばハードディスクやフラッシュメモリ)、入力装置26(例えばキーボードとマウス)、表示装置27、印刷装置28、ネットワークインタフェース29、バスライン30などを備えた汎用の情報処理装置(例えばパーソナルコンピュータ)や同様な構成のハードウエアで実現可能である。
本発明の文書管理装置の機能を複写機や印刷装置、ファクシミリ等の画像処理装置や複合機に組み込む場合は、それらに備わったCPUやメモリ等を利用してもよく、必要に応じて上記のハードウエアとプログラム等を追加すればよい。
本発明の文書管理装置をパーソナルコンピュータで実現する場合は、CD−ROM24などの記録媒体から、本発明の処理機能を実現するためのプログラムを外部記憶装置25にインストールして、CPU21に実行させればよい。本文書管理装置は、クライアント端末50から見ればサーバ装置の位置付けであるが、入力装置26(例えばキーボードとマウス)と表示装置27(例えば液晶ディスプレイ)は、装置の起動やシャットダウンをはじめ、文書データの入力、その他閾値の設定、登録文書にかかる各種データの変更の際に使用する。また、印刷装置28(例えばプリンタ)は、類似文書の検索結果や所望の登録済み文書の印刷出力に使用する。
手動(あるいは半自動)で文書を登録する場合は、入力装置26のキーボードとマウスを使用して登録対象文書を入力するか、CD−ROM24やネットワークインタフェース29を介して他の処理装置から登録対象文書を読み出してもよいが、ネットワークインタフェース29を介して図1で説明したクライアント端末50から登録操作をするほうが、慣れた環境で作業ができてよい。
ネットワークインタフェース29は、パーソナルコンピュータ(本発明の文書管理装置)をLAN(Local Ares Network)に接続するためのインタフェースである。接続のための規格としては、IEEE802.3や無線のIEEE802.11等を用いるが、他の同様な規格でもよい。このLANを用いて、自動登録の場合は、LAN上のクライアント端末50のハードディスクにアクセスして登録候補となる文書データを探索することが可能となる。また、LANを広域ネットワークに接続して、イントラネットを構成し、登録候補となる文書を探索することもできる。
CPU21は、外部記憶装置25から処理に必要な手順を実現するためのプログラムをメモリ22にロードして実行し、文書を外部記憶装置25に登録する。勿論、外部記憶装置25にプログラムをインストールしないで、CPU21がCD−ROM24から直接プログラムを読み出してもよいが、実行速度が遅くなる。
以上は本発明の文書管理装置をパーソナルコンピュータで実現するためのハードウエア構成の例を説明したが、本発明の文書管理装置のプログラムを記録する媒体はCD−ROM24に限らず、外部記憶装置25のハードディスクや、ネットワークインタフェース29を介して取得可能な他の処理装置の記憶装置であってもよい。
本実施例は、本発明の文書管理装置を画像処理装置に内蔵した例である。
図9は、実施例2にかかる画像処理装置の要部構成を示すブロック図である。この実施例では、画像処理装置は複写機、プリンタ、ファクシミリ装置などの機能を備えた複合機であるが、通常の画像処理装置(例えば複写機やプリンタ)であってもよい。
同図において、画像処理装置は、オペレータとのインタフェ−スとなる表示/操作部100、画像処理装置全体の動作を制御するコントローラ110、紙面に画像を形成するエンジン120、原稿をスキャンして画像データに変換するスキャナ部130、印刷のための用紙を供給する給紙部150、用紙の搬送中に用紙紙面の状態を検査するセンサ140、両面印刷あるいは裏面に印刷するために用紙の表裏を反転する反転部160、印刷された用紙を排出する排紙部170等を備えている。また、画像処理装置は、NIC(Network Interface Card)115を介してホストPC190(パーソナルコンピュータ)から印刷データだけでなく、登録候補となる文書データを入力する機能も持っている。ホストPC190は、図1でクライアント端末50として説明したものと同一のものである。
コントローラ110は、CPU111を備え、ホストPC190から送られる印刷データを受信して解析し、メモリ112に画像データを展開し、ビデオデータとして内部インタフェース119を介してエンジン120へ送り、エンジン120側で用紙に画像を形成する。また、スキャナ部130が読み込んだ画像データもコントローラ110からエンジン120に送られ、エンジン120で用紙に画像が形成されたり、外部記憶装置114(例えばハードディスクやフラッシュメモリなど)に保存されたり、あるいは指定したアドレスにメールで送られるようになっている。
コントローラ110での画像データの展開をはじめ、画像変倍、輪郭強調、カラーバランス調整等の画像処理は主にASICによって処理され、画像処理装置全体の動作制御は主にCPU111がプログラムROM113に書き込まれているプログラムを実行することによって実現される。
本発明の文書管理装置は、上記画像処理装置のハードウエアに内蔵可能である。例えば、ユーザーが作成した文書がホストPC190にあれば、文書探索部11は、このホストPC190から登録候補の文書を探索できる。文書解析や類似度判定、文書登録等の処理は、コントローラ110のCPU111でプログラムROM113に格納したプログラムを実行することで実現できる。勿論、プログラムROM113にプログラムを格納しておく替わりに、ASICにプログラムを格納しておいてもよい。また、手動(あるいは半自動)で文書を登録する際も、ホストPC190からNIC115を経由して、登録文書の本文や書誌事項等のデータを画像処理装置に送って文書入力部16に入力すればよい。そして、登録する文書データは、外部記憶装置114に保存する。
以上説明したように、本発明の文書管理装置は、単体の専用装置として実現しても、パーソナルコンピュータにおける一つの機能として実現しても、あるいは複写機や複合機などの画像処理装置に内蔵させて、新たな機能として実現してもよい。本発明の文書管理装置を画像処理装置に内蔵させることにより、ほとんど複写機としてしか使用されなかったような場合でも、文書の保存や検索した文書の印刷出力などが可能となり、画像処理装置の利用範囲が広がり、強力な文書管理機能を提供することが可能となる。
本発明の一実施形態にかかる文書管理装置の要部機能構成を示す図である。 本発明の文書管理装置における登録方法の種類を説明する図である。 本実施形態における文書管理装置が文書を登録する際のデータ構成の例を説明する図である。 本発明の一実施形態にかかる文書管理装置の文書自動登録の動作を示すフローチャートである。 本発明の一実施形態にかかる登録済み文書の検索結果に応じて生成される情報の例を示す図である。 本発明の一実施形態にかかる閾値情報の例を示す図である。 文書の登録に際して本文と共に登録する書誌事項の例を説明する図である。 実施例1にかかる文書管理装置のハードウエア構成の例を示す図である。 実施例2にかかる画像処理装置の要部構成を示すブロック図である。
符号の説明
10 文書管理装置
11 文書探索部
12 文書解析部
13 類似度判定部
14 文書登録部
15 文書登録領域
16 手動登録部
17 文書媒体
21 CPU
22 メモリ
23 CD−ROMドライブ
24 CD−ROM
25 外部記憶装置
26 入力装置
27 表示装置
28 印刷装置
29 ネットワークインタフェース
30 バスライン
50 クライアント端末
100 表示/操作部
110 コントローラ
111 CPU
112 メモリ
113 プログラムROM
114 外部記憶装置
115 NIC
119 内部インタフェース
120 エンジン
130 スキャナ部
140 センサ
150 給紙部
160 反転部
170 排紙部
190 ホストPC

Claims (12)

  1. 文書情報を選択的に格納する文書管理装置であって、
    格納対象の文書情報を取得する文書情報取得部と、
    既に格納されている文書情報と前記格納対象の文書情報との類似度を数値化して出力する類似度判定部と、
    前記格納対象の文書情報の格納可否を決定するための基準となる数値情報を基準情報として記憶している基準情報記憶部と、
    前記類似度判定部が前記出力した類似度の数値情報と前記基準情報記憶部が記憶している基準情報との比較結果に応じて前記格納対象の文書情報の格納を決定する文書格納決定部とを有することを特徴とする、文書管理装置。
  2. 前記文書情報取得部は、前記格納対象の文書情報を保持する格納対象文書保持部に保持された当該格納対象の文書情報を取得することを特徴とする、請求項1に記載の文書管理装置。
  3. 前記格納対象文書保持部は、ネットワークを介して前記文書管理装置に接続された他の装置に含まれることを特徴とする、請求項2に記載の文書管理装置。
  4. 前記基準情報は、前記類似度判定部が出力する類似度の数値情報に対する閾値であり、
    前記文書格納決定部は、前記出力された類似度の数値情報が前記閾値以上である場合に、前記格納対象の文書情報の格納を決定することを特徴とする、請求項1乃至3いずれか1項に記載の文書管理装置。
  5. 前記既に格納されている文書情報は、当該文書情報に関する書誌情報と関連付けられて格納されており、
    前記既に格納されている文書情報のうち、前記格納対象の文書情報との類似度が前記閾値以上であった文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付ける文書情報関連付け部を更に有することを特徴とする、請求項4に記載の文書管理装置。
  6. 前記文書情報関連付け部は、
    前記閾値よりも更に高い類似度を示す第2の基準情報を記憶しており、
    前記既に格納されている文書情報のうち、前記格納対象の文書情報との類似度が前記第2の閾値以上であった文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付けることを特徴とする、請求項5に記載の文書管理装置。
  7. 前記文書情報関連付け部は、前記既に格納されている複数の文書情報のうち、前記格納対象の文書情報との類似度が最も高い文書情報に関連付けられた書誌情報と前記格納対象の文書情報とを関連付けることを特徴とする、請求項5または6に記載の文書管理装置。
  8. 前記基準情報記憶部は、前記文書情報の情報種別に応じた前記基準情報を記憶していることを特徴とする、請求項1乃至7いずれか1項に記載の文書管理装置。
  9. 請求項1乃至8いずれか1項に記載の文書管理装置を備えたことを特徴とする画像処理装置。
  10. 文書情報を選択的に格納する文書管理方法であって、
    格納対象の文書情報を取得し、
    既に格納されている文書情報と前記格納対象の文書情報との類似度を数値化して出力し、
    前記格納対象の文書情報の格納を決定するための基準となる数値情報である基準情報を取得し、
    前記類似度判定部が前記出力した類似度の数値情報と前記基準情報記憶部が記憶している基準情報との比較結果に応じて前記格納対象の文書情報の格納を決定することを特徴とする、文書管理方法。
  11. 請求項10に記載の文書管理方法を情報処理装置に実行させることを特徴とする、文書管理プログラム。
  12. 請求項11に記載の文書管理プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする、記録媒体。
JP2007255998A 2007-09-28 2007-09-28 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体 Pending JP2009087037A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007255998A JP2009087037A (ja) 2007-09-28 2007-09-28 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007255998A JP2009087037A (ja) 2007-09-28 2007-09-28 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2009087037A true JP2009087037A (ja) 2009-04-23

Family

ID=40660375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007255998A Pending JP2009087037A (ja) 2007-09-28 2007-09-28 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2009087037A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248661A (ja) * 2010-05-27 2011-12-08 Sharp Corp データベース制御装置、データベース制御方法、プログラム及び記録媒体
JP2015082151A (ja) * 2013-10-21 2015-04-27 富士ゼロックス株式会社 文書登録装置及びプログラム
JP2020173759A (ja) * 2019-07-02 2020-10-22 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248661A (ja) * 2010-05-27 2011-12-08 Sharp Corp データベース制御装置、データベース制御方法、プログラム及び記録媒体
JP2015082151A (ja) * 2013-10-21 2015-04-27 富士ゼロックス株式会社 文書登録装置及びプログラム
JP2020173759A (ja) * 2019-07-02 2020-10-22 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム

Similar Documents

Publication Publication Date Title
JP4217349B2 (ja) 文書閲覧支援システム、文書閲覧支援方法および記憶媒体
CN101178725B (zh) 用于信息检索的设备和方法
CN102053991B (zh) 用于多语言文档检索的方法及系统
JP2007264992A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP5207688B2 (ja) 画像処理装置および統合ドキュメント生成方法
JP2006243830A (ja) 画像機器を利用したワークフロー支援システム及びワークフロー検索システム
JP2009087037A (ja) 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP2004213091A (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2001256256A (ja) 電子文書検索装置および電子文書検索方法
JP2008020946A (ja) 画像ログ管理システム
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2019160213A (ja) 情報処理システム、情報処理方法及びプログラム
US10990338B2 (en) Information processing system and non-transitory computer readable medium
US20230118845A1 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP2007148925A (ja) 情報処理装置及び情報処理方法
JP2006074123A (ja) 画像処理装置
JP2010211354A (ja) 著作物比較システム