JP6079361B2 - 文書管理装置、文書管理方法および文書管理プログラム - Google Patents

文書管理装置、文書管理方法および文書管理プログラム Download PDF

Info

Publication number
JP6079361B2
JP6079361B2 JP2013065379A JP2013065379A JP6079361B2 JP 6079361 B2 JP6079361 B2 JP 6079361B2 JP 2013065379 A JP2013065379 A JP 2013065379A JP 2013065379 A JP2013065379 A JP 2013065379A JP 6079361 B2 JP6079361 B2 JP 6079361B2
Authority
JP
Japan
Prior art keywords
document
information
important
character string
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013065379A
Other languages
English (en)
Other versions
JP2014191522A (ja
Inventor
源 佐藤
源 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013065379A priority Critical patent/JP6079361B2/ja
Publication of JP2014191522A publication Critical patent/JP2014191522A/ja
Application granted granted Critical
Publication of JP6079361B2 publication Critical patent/JP6079361B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本技術は、文書管理装置、文書管理方法および文書管理プログラムに関する。
近年、多様なプラットフォームから出力される文書を電子化・集約して一元化管理を行い、ネットワーク環境の端末から電子文書の利用を可能とした電子文書管理システムが開発されている。
このようなシステムを導入することにより、ペーパーレス化によるコストダウンが実現される。また、ユーザは、システムを通じて、端末上で紙文書と同様に文書の参照、書き込み、マーキング等の操作を行うことができ、さらに、仕分けや検索など紙文書では困難だった操作が容易となるため、業務の活性化、効率化が可能になる。
一方、近年では、個人データや企業の機密案件などの情報漏洩に対する対策要求が高まっており、電子文書の管理においても高いセキュリティ機能が求められている。
従来の情報漏洩の対策技術としては、例えば、端末のネットワークアドレスと、プリントジョブの送信先プリンタのネットワークアドレスとが同一でないときには端末側で警告を発する技術が提案されている。
また、プリンタの識別情報と宛先情報を保持し、該プリンタに識別情報を問い合わせ、取得した識別情報と保持している識別情報とが一致したときは、該プリンタへ印刷データを送信する技術が提案されている。
さらに、出現位置毎のキーワードを判定対象とし、所定範囲内に他のキーワードがあるか否かを判定し、判定対象のキーワードと他のキーワードを組み合わせた組み合わせ情報のうち、機密文書の組み合わせ情報と一致する数が所定値以上か否かを判定する技術が提案されている。
特開2009−151618号公報 特開2008−152691号公報 特開2010−231766号公報
重要な電子文書には、アクセス権、または重要な内容である旨を示すマーキングなどを付与したりして、重要文書であることを設定して管理している。
しかし、電子文書が重要であるか否かの判断は、従来、人間の作業で行われているため、重要な文書であるにもかかわらず、人為的ミスによって、重要文書と判定されない場合がある。
例えば、文書に記載されている、重要文書判定の指標となる文字列などを見逃してしまうことで、重要文書であるにもかかわらず、非重要文書と判定してしまう可能性がある。このような場合に、重要文書を非重要文書と混在して出力(例えば、印刷)してしまうと、情報漏洩につながってしまう。
1つの側面では、本発明は、重要文書の判定精度の向上を図った文書管理装置、文書管理方法および文書管理プログラムを提供することを目的とする。
1つの案では、文書管理装置が提供される。文書管理装置は、文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出する検索手段と、抽出された所定文字列を集合に追加して蓄積する蓄積手段と、文書が重要であるか否かの重要文書判定処理を行う判定手段とを有する。また、判定手段は、文書に付属するメモ情報の中に、重要文書とみなす重要ワードが含まれるか否かの判定を行うメモ情報検索を行い、メモ情報から重要ワードが検出されない場合は、文書の管理情報の中に、重要ワードが含まれるか否かの判定を行う管理情報検索を行い、管理情報から重要ワードが検出されない場合は、文書のデータ内にキーワードまたは所定文字列の少なくとも一方が含まれるか否かを判定する。
1態様によれば、重要文書の判定精度の向上を図ることが可能になる。
文書管理装置の構成例を示す図である。 電子文書管理システムの構成例を示す図である。 サーバ装置の構成例を示す図である。 帳票管理手段で管理される帳票ファイルのフォーマットを示す図である。 帳票ファイルのデータ構造を示す図である。 メモファイル管理手段で管理されるメモファイルのフォーマットを示す図である。 管理情報DBに格納される管理情報のフォーマットを示す図である。 重要ワード管理手段で管理される重要ワードファイルのフォーマットを示す図である。 蓄積情報のフォーマットを示す図である。 重要文書判定処理の全体動作を示すフローチャートである。 スタンプが付与された帳票の例を示す図である。 メモ情報検索の動作を示すフローチャートである。 管理情報検索の動作を示すフローチャートである。 データ検索の動作を示すフローチャートである。 重要文書判定済み調査の動作を示すフローチャートである。 差分判定項目を用いて判定処理を行う場合の動作を説明するための図である。 差分判定項目を用いて判定処理を行う場合の動作を説明するための図である。 所定文字列抽出処理の動作を説明するための図である。 所定文字列抽出処理の動作を示すフローチャートである。 帳票の出力処理の動作を示すフローチャートである。 本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。
以下、本発明の実施の形態を図面を参照して説明する。図1は文書管理装置の構成例を示す図である。文書管理装置1は、検索手段1a、蓄積手段1bおよび判定手段1cを備える。
検索手段1aは、文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出する。蓄積手段1bは、抽出された所定文字列をキーワードの集合に追加して蓄積する。判定手段1cは、文書が重要文書であるか否かの重要文書判定処理を行う。重要文書判定処理の1つとしては、キーワードまたは所定文字列の少なくとも一方を含む文書を重要文書と判定する。
図1に示す例において、重要文書とみなすキーワードを「住所」とし、文書A、Bには「住所」が記載されている。また、文書Aには「住所」に関連づけられた文字列「東京都AA区」が記載され、文書Bには「住所」に関連づけられた文字列「東京都BB区」が記載されている。
文書Aでは、「住所」をキーワードにしているので、このキーワードに関連づけられる文字列「東京都AA区」は所定文字列となる。したがって、検索手段1aは、文書Aから所定文字列「東京都AA区」を抽出し、蓄積手段1bは、抽出された所定文字列「東京都AA区」をキーワード「住所」の集合に追加して蓄積する。
一方、文書Bでは、「住所」をキーワードにしているので、このキーワードに関連づけられる文字列「東京都BB区」は所定文字列となる。したがって、検索手段1aは、文書Bから所定文字列「東京都BB区」を抽出し、蓄積手段1bは、抽出された所定文字列「東京都BB区」をキーワード「住所」の集合に追加して蓄積する。
このような処理によって、重要文書と判定するための所定文字列が蓄積・更新されていく。また、これらキーワードまたは所定文字列にもとづいて、文書が重要文書であるか否かの判定が行われる。
ここで、従来では、重要文書であるか否かの判断は、主に人間の作業で行われているため、重要文書判定の指標となる文字列などを見逃してしまうなどの人為的ミスによって、重要文書と判定されない場合がある。
例えば、「住所」を重要文字列とした場合、一方の文書(文書Cとする)には「住所」の文字列が記載されており、他方の文書(文書Dとする)には、「住所」の文字列は記載されていないが、「東京都DD区」の文字列が記載されているとする。
このような場合、文書Dは、文字列「住所」の直接の記載はなくても、「東京都DD区」という住所表示がなされているので、文書Cが重要文書であるだけでなく、文書Dも重要文書である。
しかし、従来では、重要文字列である「住所」が直接記載されている文書Cを重要文書と判定することは容易であっても、「住所」という文字列の直接の記載がない文書Dに対しては、重要文書と判定されないおそれがある。
一方、文書管理装置1では、キーワードに関連する所定文字列の抽出、蓄積処理を行う。キーワードとなる「住所」と、このキーワードに関連づけられた所定文字列「東京都DD区」をすでに蓄積しているとする。
文書管理装置1では、キーワードや所定文字列にもとづいて、文書が重要文書であるか否かの判定を行うので、重要文書判定時に、「住所」が文書内に直接記載されていなくても、所定文字列「東京都DD区」が記載されている文書Dを重要文書と判定することになる。このように、キーワードの直接の記載がなくても、キーワードに関連づけられた所定文字列から重要文書を判定することができる。
上記のように、文書管理装置1では、キーワードに関連づけられた所定文字列を文書から抽出し、抽出された所定文字列をキーワード集合に追加していくことで、重要文書か否かを判定する際の所定文字列を自動更新する。これにより、重要文書の判定精度を向上させることが可能になる。
次に文書管理装置1の機能を備える電子文書管理システムの構成について説明する。なお、文書の1つの例として帳票を扱うものとして以降説明する。
図2は電子文書管理システムの構成例を示す図である。電子文書管理システム2は、サーバ装置10、文書作成装置21、クライアント装置22−1、22−2およびプリンタ23−1〜23−3を備える。
サーバ装置10には、文書作成装置21、クライアント装置22−1、22−2およびプリンタ23−1〜23−3が接続されている(図示はしていないが、各装置はネットワークを介在して接続されてもよい)。
サーバ装置10は、図1に示した文書管理装置1の機能を有している。サーバ装置10は、従来、紙で出力されていた帳票を電子化・集約して一元化管理を行い、クライアント側の端末に対して、電子化した帳票を表示して活用させる制御を行う。
文書作成装置21は、帳票を作成し、作成した帳票をサーバ装置10に登録する。クライアント装置22−1、22−2は、帳票を活用可能な端末である。クライアント装置22−1、22−2が例えば、帳票の印刷依頼をサーバ装置10に送信すると、プリンタ23−1〜23−3は、サーバ装置10からの印刷指示にもとづき帳票の印刷を実行する。
次にサーバ装置10の構成について説明する。図3はサーバ装置の構成例を示す図である。サーバ装置10は、制御手段11、文書出力処理手段12および情報管理手段13を備える。
制御手段11は、図1に示した検索手段1a、蓄積手段1bおよび判定手段1cの機能を有し、重要文書判定処理や、装置またはシステムの全体制御を行う。文書出力処理手段12は、帳票の出力処理を行う。出力処理としては例えば、ネットワークへの文書出力処理、またはプリンタへの文書出力処理などを行う。
情報管理手段13は、帳票ファイル管理手段13a、メモファイル管理手段13b、管理情報DB(database)13cおよび重要ワード管理手段13dを備えて、各種情報の管理を行う。
帳票ファイル管理手段13aは、帳票のデータをファイル化して管理する。メモファイル管理手段13bは、帳票に付属するメモ情報をファイル化したメモファイルを管理する。管理情報DB13cは、帳票の管理情報を格納管理する。重要ワード管理手段13dは、重要ワードをファイル化して管理する。
重要ワードとは、後述のメモ検索および管理情報検索において、帳票が重要文書であるか否かを判定する指標となるワードのことである。また、後述のデータ検索では、帳票が重要文書であるか否かを判定する指標に使用するものは、キーワードと所定文字列となる。
次に情報管理手段13内の各構成要素における管理フォーマットについて説明する。図4は帳票管理手段で管理される帳票ファイルのフォーマットを示す図である。帳票ファイルf1は、帳票の出力データ(印刷データ)が格納されるファイルである。帳票ファイルf1では、後述のデータ検索により、帳票ファイルf1の出力データの中から、キーワードまたは所定文字列が存在するか否かの検索が行われる。
図5は帳票ファイルのデータ構造を示す図である。帳票ファイルf1は、“枠組み”と“データ”とで構成され、“枠組み”と“データ”とが結合されたものが帳票となる。なお、サーバ装置10では、“枠組み”か“データ”かを判別することが可能である。
図6はメモファイル管理手段で管理されるメモファイルのフォーマットを示す図である。サーバ装置10は、メモ情報付与機能によって、帳票にメモ情報を付与することができる。
メモ情報は、各種のマーキング情報であって、スタンプ(電子印鑑など)、付箋、ラインマークなどがある。これらメモ情報は、ファイル化されてメモファイルとして管理される。
メモファイルf2は、例えば、ページ、座標、作成者名、日付、メモ種別、フォント、文字色、背景色、枠オプション、影オプション、その他属性情報およびテキスト情報といった属性を含む。
なお、後述のメモ情報検索により、メモファイルf2の属性のテキスト情報の中から、重要ワードが存在するか否かの検索が行われる。メモ情報が付与された帳票については図11で後述する。
図7は管理情報DBに格納される管理情報のフォーマットを示す図である。サーバ装置10では、管理情報を用いて、帳票を管理している。管理情報には例えば、帳票名、コメントまたは備考などが含まれる。また、管理情報DB13c内では、これらの属性の他に、重要フラグおよび蓄積バージョン情報を付与して管理する。
図7に示す管理情報d1では、例えば、帳票名、コメント、重要フラグおよび蓄積バージョン情報の属性を示している。重要フラグは、当該帳票が重要文書である場合はYes、非重要文書の場合はNoと記載される(空白のものは、まだ重要文書判定が実施されていない帳票である)。
また、管理情報DB13cに書き込まれる蓄積バージョン情報は、帳票を蓄積する際に、帳票毎に設定されるバージョン情報である。なお、後述の管理情報検索により、管理情報d1の属性の帳票名、コメントまたは備考などから、重要ワードが存在するか否かの検索が行われる。
図8は重要ワード管理手段で管理される重要ワードファイルのフォーマットを示す図である。重要ワードファイルf3は、重要ワードと、重要文書判定を実施するか否かの設定とが記載される。図8の場合、重要文書判定を実施すること(Yes)、また、重要文書とみなす重要ワードは、「重要」、「秘密」、「ONLY」であることが記載されている。
次に蓄積手段1bに格納される蓄積情報について説明する。図9は蓄積情報のフォーマットを示す図である。蓄積情報d2は、キーワード、所定文字列および蓄積バージョン情報の属性を有する。
図9では、キーワード「郵便番号」に関連づけられた所定文字列が000-0000であり、この情報を蓄積した際の蓄積バージョン情報が20120101135121であることが示されている。
また、キーワード「住所」に関連づけられた所定文字列が東京都XXXであり、この情報を蓄積した際の蓄積バージョン情報が20120101135121であることが示されている。さらに、キーワード「顧客名」に関連づけられた所定文字列が日本であり、この情報を蓄積した際の蓄積バージョン情報が20111213091121であることが示されている。
上記のように、蓄積バージョン情報は、帳票だけでなく、キーワードまたは所定文字列に対しても設定される。すなわち、蓄積手段1bに書き込まれる蓄積バージョン情報は、キーワードまたは所定文字列に対して設定されるバージョン情報である。
次に重要ワードおよびキーワードの設定について説明する。システム管理者は、サーバ装置10に対して、ある帳票が重要文書であるか否かを判定する際の指標となる重要ワードおよびキーワードを、環境設定画面等を通じて設定する。
重要ワードとしては、例えば、「重要」、「秘」、「ONLY」等がある。キーワードとしては「郵便番号」、「住所」、「顧客名」等がある。どちらの場合も任意に変更が可能である。重要ワードは、後述のメモ情報検索および管理情報検索において、重要文書判定指標に使用され、キーワードは、後述のデータ検索において、重要文書判定指標に使用される。
次に帳票が重要文書であるか否かを判定する重要文書判定処理について説明する。サーバ装置10は、保管されている帳票を調査するスレッドを定期的に起動して、該帳票が重要文書であるか否かを判定する。
この場合、重要文書を判定する際の検索処理には、メモ情報検索、管理情報検索およびデータ検索があり、これらの検索を段階的に実行することで、保管している帳票が重要文書であるか否かを判定する。
メモ情報検索とは、帳票に付属するメモ情報にもとづいて、重要文書判定を行うものである。また、管理情報検索とは、帳票を管理する際の管理情報にもとづいて、重要文書判定を行うものである。さらに、データ検索とは、帳票に実際に記載されているデータにもとづいて、重要文書判定を行うものである。
図10は重要文書判定処理の全体動作を示すフローチャートである。
〔S1〕制御手段11は、保管されている帳票に対して、重要文書判定をすでに実施したか否かを判断する。実施済みならば終了し、未実施ならばステップS2へ行く。
〔S2〕制御手段11は、帳票に対してメモ情報検索を行う。
〔S3〕制御手段11は、帳票に付属するメモ情報から重要ワードを検出した場合はステップS10へ行き、重要ワードを検出しない場合はステップS4へ行く。
〔S4〕制御手段11は、帳票に対して管理情報検索を行う。
〔S5〕制御手段11は、帳票の管理情報から重要ワードを検出した場合はステップS10へ行き、重要ワードを検出しない場合はステップS6へ行く。
〔S6〕制御手段11は、帳票に対してデータ検索を行う。
〔S7〕制御手段11は、帳票に記載されるデータの中に、蓄積手段1bに蓄積されているキーワードまたは所定文字列が有るか否かを判定する。キーワードまたは所定文字列の少なくとも一方が有ると判断した場合はステップS10へ行き、キーワードおよび所定文字列のどちらも無いと判断した場合はステップS8へ行く。
〔S8〕制御手段11は、当該帳票を非重要文書と判定する。
〔S9〕制御手段11は、非重要文書のバージョン情報を管理情報DB13cに書き込む。管理情報DB13cに書き込まれたバージョン情報は、蓄積バージョン情報として管理される。
〔S10〕制御手段11は、当該帳票を重要文書と判定する。
〔S11〕制御手段11は、重要文書からキーワードおよび所定文字列を抽出し、蓄積バージョン情報を付して蓄積手段1bに蓄積する。
〔S12〕制御手段11は、重要文書のバージョン情報を管理情報DB13cに書き込む。管理情報DB13cに書き込まれたバージョン情報は、蓄積バージョン情報として管理される。
上記の重要文書判定処理フローは、保管されている帳票に対して定期的に実行される。また、帳票が印刷などによって出力される場合、出力指示が出された帳票に対しても出力時に上記の重要文書判定処理フローが実行される。
なお、メモ情報検索、管理情報検索、データ検索の順で検索処理の負荷が重くなるので、上記のように、最も負荷の軽いメモ情報検索を最初に行い、2番目に管理情報検索を行い、最も負荷の重いデータ検索の順に検索処理を行っている。このように、負荷が軽い処理から順番に検索処理を行うことで、早い段階で重要文書であるか否かを判定することができ、高速検索が可能になる。
次にメモ情報検索について説明する。最初に、メモ情報が付与された帳票について示す。図11はスタンプが付与された帳票の例を示す図である。「重要」のスタンプが付与されている帳票の一部を示している。
図6で上述したように、メモ情報のメモファイルは、メモ種別という属性を有している。メモ種別の項目に「スタンプ」というメモ種別情報が記載されていれば、テキスト情報には、「重要」や「秘」などのスタンプが表すワードが記載されている。
したがって、例えば、メモ種別の項目に「スタンプ」と記載され、テキスト情報の項目に「重要」と記載されていれば、図11に示すように、帳票には「重要」のスタンプが付与されるものとなる。
図12はメモ情報検索の動作を示すフローチャートである。重要文書判定処理では、最初に、帳票に付与されているメモ情報の中に、重要ワードが存在しているか否かの検索処理を実施する。
〔S21〕制御手段11は、帳票に付与されているメモ情報のメモファイルからメモ種別に記載されているメモ種別情報を取得する。
〔S22〕制御手段11は、メモ種別情報が「スタンプ」であるか否かを判定する。「スタンプ」であればステップS23へ行き、「スタンプ」でなければステップS26へ行く。
〔S23〕制御手段11は、メモ種別情報が「スタンプ」であるとき、メモファイルのテキスト情報から文字列を取得する。
〔S24〕制御手段11は、取得した文字列が、重要ワードであるか否かを判定する。取得した文字列が、「重要」または「秘」などの重要ワードの場合は、ステップS25へ行き、重要ワードでない場合は、ステップS26へ行く。
〔S25〕制御手段11は、当該帳票を重要文書と判定する。
〔S26〕制御手段11は、当該帳票のメモ情報には重要ワードが含まれていないと判断して次の処理の管理情報検索へ移行する。
このように、メモ情報検索では、メモ情報の文字列にもとづいて、重要文書判定処理を行う。帳票には、図11に示したようなメモ情報が表示されている場合が多々あり、メモ情報の情報量は、帳票データの情報量と比較して少ない。このため、メモ情報検索から重要文書判定処理を開始することで、簡易にかつ高速に重要文書であるか否かの判定を実行することが可能になる。
次に管理情報検索について説明する。図13は管理情報検索の動作を示すフローチャートである。メモ情報検索を行った結果、重要文書判定対象の帳票のメモ情報に、重要ワードが含まれていない場合は、管理情報の中に重要ワードが含まれているか否かの検索処理が実施される。
〔S31〕制御手段11は、重要文書判定対象の帳票の管理情報の例えば、帳票名、コメント、備考に記載されている文字列を取得する。
〔S32〕制御手段11は、取得した文字列が、重要ワードであるか否かを判定する。取得した文字列が、「重要」、「秘」などの重要ワードの場合は、ステップS33へ行き、重要ワードでない場合は、ステップS34へ行く。
〔S33〕制御手段11は、当該帳票を重要文書と判定する。
〔S34〕制御手段11は、当該帳票の管理情報には重要ワードが含まれていないと判断して次の処理のデータ検索へ移行する。
このように、管理情報検索では、管理情報の文字列にもとづいて、重要文書判定処理を行う。管理情報としては帳票名、コメント、備考等があり、これら管理情報の情報量は、帳票データの情報量と比較して少ない。このため、メモ情報に重要ワードが存在しなかった場合には、管理情報検索を行うことで、簡易にかつ高速に重要文書であるか否かの判定を実行することが可能になる。
次にデータ検索について説明する。図14はデータ検索の動作を示すフローチャートである。メモ情報検索と管理情報検索を行った結果、判定対象の帳票のメモ情報と管理情報に、重要ワードが含まれていない場合には、帳票のデータの中に、蓄積してあるキーワードまたは所定文字列が含まれている否かのデータ検索が実施される。
〔S41〕制御手段11は、重要文書判定対象の帳票のデータを取得する。
〔S42〕制御手段11は、取得した帳票データに、蓄積手段1bに蓄積されているキーワードが存在するか否かを判定する。キーワードが存在する場合はステップS44へ行き、存在しない場合ステップS43へ行く。
〔S43〕制御手段11は、取得した帳票データに、蓄積手段1bに蓄積されている所定文字列が存在するか否かを判定する。所定文字列が存在する場合はステップS44へ行き、存在しない場合ステップS45へ行く。
〔S44〕制御手段11は、当該帳票を重要文書と判定する。
〔S45〕制御手段11は、当該帳票を非重要文書と判定する。
このように、データ検索では、帳票に実際に記載されている文字列にもとづいて、重要文書判定処理を行う。この場合、管理者によって設定されたキーワードだけでなく、キーワードに関連づけられた所定文字列を文書から自動的に抽出してあらかじめ蓄積しておき、この所定文字列からも検索を行っている。これにより、従来、見落とされる可能性があった文字列も精度良く検出されるので、重要文書の判定精度を向上させることが可能になる。
なお、本技術では、帳票にキーワードや所定文字列が記載されている場合、それらキーワードや所定文字列の帳票内での出現位置については問わない。帳票内のどの場所であっても、キーワードまたは所定文字列の少なくとも一方が記載されていれば、当該帳票を重要文書と判定するものである。
次に帳票に対して重要文書判定処理(図10のステップS2以降の処理)をすでに実施したか否かを判断するための重要文書判定済み調査について説明する。
図15は重要文書判定済み調査の動作を示すフローチャートである。
〔S51〕制御手段11は、重要文書判定処理対象の帳票に付されているバージョン情報を取得する。
〔S52〕制御手段11は、管理情報DB13cから蓄積バージョン情報を取得する。なお、管理情報DB13c内において、蓄積バージョン情報はあらかじめソートされている。
〔S53〕制御手段11は、バージョン情報と、蓄積バージョン情報との新旧を比較する。バージョン情報が蓄積バージョン情報よりも新しい場合はステップS54へ行き、バージョン情報が蓄積バージョン情報よりも旧い場合はステップS55へ行く。
〔S54〕制御手段11は、バージョン情報が付されている当該帳票は、重要文書判定処理が未実施であるとして、重要文書判定処理を実行する。
〔S55〕制御手段11は、バージョン情報が付されている当該帳票は、過去に重要文書判定処理を実施済みとして重要文書判定処理を実行しない。
このように、重要文書判定済み調査では、重要文書判定処理対象の帳票のバージョン情報と、すでに管理情報DB13cで管理されている蓄積バージョン情報とを比較する。そして、バージョン情報が蓄積バージョン情報よりも新しい場合は、当該帳票は、重要文書判定処理は未実施であると認識して、重要文書判定処理を実施することとした。
これにより、重要文書判定処理を行う際、蓄積バージョン情報を利用して、重要文書判定処理が実施済みなのか否かを認識することができるので、重要文書判定処理がすでに実施済みの帳票に対しては、重要文書判定の前処理段階で、効率よく除外することが可能になる。
次に帳票内にキーワードまたは所定文字列が存在するか否かの判定処理を行う際に、差分判定項目を見つけ出し、差分判定項目を用いて判定処理を行う場合について説明する。
図16、図17は差分判定項目を用いて判定処理を行う場合の動作を説明するための図である。図16において、蓄積手段1bに格納される蓄積情報d2−1は、キーワード、所定文字列および蓄積バージョン情報を有している。なお、蓄積手段1b内において、蓄積バージョン情報はあらかじめソートされている。
蓄積情報d2−1は具体的に、(キーワード、所定文字列、蓄積バージョン情報)=(郵便番号、000-0000、20120101135121)、(住所、東京都XXX、20120101135121)、(顧客名、日本、20111213091121)となっている。
このとき、重要文書判定処理対象の帳票3に付されているバージョン情報が20110101135121であったとすると、蓄積情報d2−1に示される蓄積バージョン情報20120101135121、20111213091121は、帳票3に付されているバージョン情報20110101135121よりも新しい。
したがって、この場合は、蓄積情報d2−1に記されるキーワードおよび所定文字列のすべてが帳票3に含まれるか否かの判定処理が行われることになる(図16の場合には差分はない)。
図17において、重要文書判定処理対象の帳票3aに付されているバージョン情報が20111213091121であったとする。このとき、蓄積情報d2−1に示される蓄積バージョン情報20120101135121は、帳票3aに付されているバージョン情報20110101135121よりも新しい。また、蓄積情報d2−1に示される蓄積バージョン情報20111213091121は、帳票3aに付されているバージョン情報と等しい。
したがって、この場合は、蓄積情報d2−1に記されるキーワードおよび所定文字列として、“郵便番号”、“000−0000”、“住所”および“東京都XXX”が差分判定項目となり、この差分判定項目が帳票3aに含まれるか否かの判定処理が行われることになる。
このように、帳票に付されているバージョン情報と、キーワードまたは所定文字列に付された蓄積バージョン情報とを比較し、バージョン情報よりも新しい蓄積バージョン情報が付されているキーワードまたは所定文字列を蓄積情報内から差分判定項目として抽出する。そして、差分判定項目が帳票内に存在するか否かの判定を行う。
これにより、帳票に付されているバージョン情報と等しい、または旧い蓄積バージョン情報が付されているキーワードまたは所定文字列の判定処理は省くことができ、新しいバージョンのキーワードまたは所定文字列の判定処理が実行できるので、高速処理が可能になる。
次に所定文字列の抽出処理について説明する。図18は所定文字列抽出処理の動作を説明するための図である。制御手段11は、キーワードおよびキーワードに関連づけられた所定文字列を抽出し蓄積する。
この場合、制御手段11は、帳票の出力データから「〜様・郵便番号(〒)・住所」等のキーワードを抽出し、抽出した情報の座標から顧客の名前や住所情報を採取して、これらの情報を蓄積する。また、蓄積時には蓄積バージョン情報を設定して更新する。
図18の場合、制御手段11は、まず、キーワード検索により、情報D1(郵便番号(〒)・住所)を抽出する。そして、制御手段11は、情報D1の座標情報(座標情報P1とする)を取得し、座標情報P1と枠組みから、情報D2の座標情報(座標情報P2とする)を取得する。その後、制御手段11は、座標情報P2から郵便番号や住所、顧客名の所定文字列を取得し、取得した所定文字列を蓄積し、重要文書判定処理にて使用する。
図19は所定文字列抽出処理の動作を示すフローチャートである。
〔S61〕制御手段11は、帳票に記載されるキーワードを抽出する。例えば、「郵便番号の記号(〒)」、「住所」、「〜様」といったキーワードを帳票から抽出する。
〔S62〕制御手段11は、抽出したキーワードの座標情報(第1の座標情報)を取得する。
〔S63〕制御手段11は、抽出したキーワードの横隣のデータ構造が、データか枠組みかを判別する。データの場合はステップS64へ行き、枠組みの場合はステップS65へ行く。
〔S64〕制御手段11は、抽出したキーワードの座標情報と、データを含む枠領域の座標情報(第2の座標情報)とにもとづき、当該枠領域に記載されているデータ(所定文字列)の座標情報(第3の座標情報)を取得する。
〔S65〕制御手段11は、抽出したキーワードの縦隣のデータ構造が、データか枠組みかを判別する。データの場合はステップS66へ行き、枠組みの場合は終了する。
〔S66〕制御手段11は、抽出したキーワードの座標情報(第1の座標情報)と、データを含む枠領域の座標情報(第2の座標情報)とにもとづき、当該枠領域に記載されているデータ(所定文字列)の座標情報(第3の座標情報)を取得する。
〔S67〕制御手段11は、座標情報(第3の座標情報)から所定文字列を抽出して、蓄積手段1b内のキーワード集合に対して蓄積する。
〔S68〕制御手段11は、当該帳票に対して、重要文書である旨を示すフラグを設定する。このような処理によって所定文字列が抽出されることにより、キーワードに関連づいた所定文字列を精度よく抽出することが可能になる。
次に帳票の出力処理について説明する。なお、出力処理としては印刷する場合を例にして説明する。図20は帳票の出力処理の動作を示すフローチャートである。
〔S71〕制御手段11は、クライアント端末から印刷依頼を受信する。
〔S72〕制御手段11は、重要文書判定処理が実施済みか否かを判断する。実施済みならばステップS74へ行き、未実施ならばステップS73へ行く。
〔S73〕制御手段11は、重要文書判定処理を実施する。
〔S74〕制御手段11は、印刷依頼を受けた帳票に重要フラグが設定されているか否かを判断する。重要フラグが設定されている場合はステップS75へ行き、未設定の場合はステップS77へ行く。
〔S75〕制御手段11は、警告アラームを発出する。
〔S76〕制御手段11は、警告アラームを発した後、印刷許可を受けた場合はステップS77へ行き、印刷許可を受けない場合はステップS78へ行く。
〔S77〕制御手段11は、帳票出力指示を文書出力処理手段12に与える。文書出力処理手段12は、印刷依頼を受けた帳票の印刷指示をプリンタに送信して印刷を実行する。
〔S78〕制御手段11は、帳票出力指示を出さず、印刷を実行せずに処理を終了する。
次に従来生じていた問題ケースと、問題ケースに本技術を適用して解決した場合の効果について説明する。
(問題ケース1)重要の捺印がある印刷禁止の帳票が多数存在するが、管理者のミスでいくつかの帳票に印刷禁止のアクセス権が設定されないなどの理由により、印刷禁止の帳票と気付かず印刷してしまう。
(効果)本技術では、印刷時に重要文書かどうか判別して警告アラームを出力するので、重要文書の軽率な印刷を防止することが可能になる。
(問題ケース2)重要な文字列と判別しにくい機密情報(顧客名等)が含まれた帳票が存在する場合、管理者が設定する重要文字列では、重要文書と判断できないおそれがあり、重要な帳票を軽率に印刷してしまう。
(効果)本技術では、重要文書と判定する際の所定文字列を更新・蓄積していくことで、重要文字列と判別しにくい機密情報も判別することが可能になるので、軽率な印刷を防止することが可能になる。
(問題ケース3)大量の帳票を一度に印刷を行う場合、迅速な印刷処理が必要であるが、印刷時に帳票内のデータ検索等を行うと、印刷処理に多くの時間がかかる。
(効果)本技術では、帳票が保管されている間(印刷前)に、重要文書の判定処理を実施し、さらに重要文書判定処理を行う場合もメモ情報検索、管理情報検索、データ検索という処理負荷の軽い順に実行する。これにより、印刷開始時の判定処理の時間を軽減することが可能になる。さらに、バージョン情報を利用して差分事項に対して、重要文書の判定処理を実施するので、判別処理の時間を短縮することが可能になる。
次に本技術の制御をコンピュータによって実現する場合について説明する。上記に示した処理機能は、コンピュータによって実現可能である。図21は本実施の形態に用いるコンピュータのハードウェアの一構成例を示す図である。サーバ装置10内のコンピュータ100は、CPU101によって装置全体が制御されている。CPU101には、バス108を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
バス108に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、および通信インタフェース107がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、コンピュータ100の二次記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することもできる。
グラフィック処理装置104には、モニタ104aが接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ104aの画面に表示させる。モニタ104aとしては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード105aとマウス105bとが接続されている。入力インタフェース105は、キーボード105aやマウス105bから送られてくる信号をCPU101に送信する。なお、マウス105bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク106aに記録されたデータの読み取りを行う。光ディスク106aは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク106aには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)などがある。
通信インタフェース107は、ネットワーク110に接続されている。通信インタフェース107は、ネットワーク110を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。また、コンピュータで本実施の形態の処理機能を実現する場合、サーバ装置10が有する機能の処理内容を記述したプログラムが提供される。
そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM/RWなどがある。光磁気記録媒体には、MO(Magneto Optical disk)などがある。なおプログラムを記録する記録媒体には、一時的な伝搬信号自体は含まれない。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
また、上記の処理機能の少なくとも一部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)などの電子回路で実現することもできる。
以上説明したように、本技術では、文書からキーワードを検索し、キーワードに関連づけられた所定文字列を抽出し、抽出された所定文字列をキーワードに追加し、キーワードまたは所定文字列の少なくとも一方を含む文書を重要文書と判定する。これにより、重要文書の判定精度の向上を図ることができ、重要文書の流出を防止することが可能になる。また、重要文書判定処理を高速に行うことが可能になる。
以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。
1 文書管理装置
1a 検索手段
1b 蓄積手段
1c 判定手段
A、B 文書

Claims (9)

  1. 文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出する検索手段と、
    抽出された所定文字列を前記集合に追加して蓄積する蓄積手段と、
    文書が重要であるか否かの重要文書判定処理を行う判定手段と、
    を備え、
    前記判定手段は、
    文書に付属するメモ情報の中に、前記重要文書とみなす重要ワードが含まれるか否かの判定を行うメモ情報検索を行い、
    前記メモ情報から前記重要ワードが検出されない場合は、文書の管理情報の中に、前記重要ワードが含まれるか否かの判定を行う管理情報検索を行い、
    前記管理情報から前記重要ワードが検出されない場合は、文書のデータ内にキーワードまたは所定文字列の少なくとも一方が含まれるか否かを判定する、
    とを特徴とする文書管理装置。
  2. 前記判定手段は、重要文書判定処理を実施した文書には蓄積バージョン情報を付し、判定処理対象の文書に付されているバージョン情報と、前記蓄積バージョン情報とを比較し、前記バージョン情報が前記蓄積バージョン情報よりも新しい場合は、前記バージョン情報が付されている文書に対して、重要文書判定処理を実施することを特徴とする請求項記載の文書管理装置。
  3. 前記蓄積手段は、キーワードまたは所定文字列に蓄積バージョン情報を付して蓄積し、
    前記判定手段は、判定処理対象の文書に付されているバージョン情報と、前記蓄積バージョン情報とを比較して、前記バージョン情報よりも新しい前記蓄積バージョン情報が付されているキーワードまたは所定文字列を用いて、重要文書判定処理を実施することを特徴とする請求項記載の文書管理装置。
  4. 前記検索手段は、
    キーワードの第1の座標情報と、キーワードに隣接する枠領域であって所定文字列を含む前記枠領域の第2の座標情報とから、前記枠領域に含まれる所定文字列の第3の座標情報を取得し、
    前記第3の座標情報にもとづき、所定文字列を抽出する、
    ことを特徴とする請求項1記載の文書管理装置。
  5. 前記判定手段は、前記メモ情報が有する属性のメモ種別がスタンプである場合に、前記メモ情報が有する属性のテキスト情報から文字列を抽出し、該文字列が前記重要ワードであるか否かを判定することを特徴とする請求項記載の文書管理装置。
  6. 前記判定手段は、前記管理情報の帳票名、コメントまたは備考の少なくとも1つに記載される文字列を抽出し、該文字列が前記重要ワードであるか否かを判定することを特徴とする請求項記載の文書管理装置。
  7. 文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出し、
    抽出された所定文字列を前記集合に追加して蓄積
    文書が重要であるか否かの重要文書判定処理を行い、
    文書に付属するメモ情報の中に、前記重要文書とみなす重要ワードが含まれるか否かの判定を行うメモ情報検索を行い、
    前記メモ情報から前記重要ワードが検出されない場合は、文書の管理情報の中に、前記重要ワードが含まれるか否かの判定を行う管理情報検索を行い、
    前記管理情報から前記重要ワードが検出されない場合は、文書のデータ内にキーワードまたは所定文字列の少なくとも一方が含まれるか否かを判定する、
    ことを特徴とする文書管理方法。
  8. コンピュータに、
    文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出し、
    抽出された所定文字列を前記集合に追加して蓄積
    文書が重要であるか否かの重要文書判定処理を行い、
    文書に付属するメモ情報の中に、前記重要文書とみなす重要ワードが含まれるか否かの判定を行うメモ情報検索を行い、
    前記メモ情報から前記重要ワードが検出されない場合は、文書の管理情報の中に、前記重要ワードが含まれるか否かの判定を行う管理情報検索を行い、
    前記管理情報から前記重要ワードが検出されない場合は、文書のデータ内にキーワードまたは所定文字列の少なくとも一方が含まれるか否かを判定する、
    処理を実行させる文書管理プログラム。
  9. 文書が重要か否かの判定に用いるキーワードの集合に含まれるキーワードを文書から検索し、キーワードに関連づけられた所定文字列を抽出する検索手段と、
    抽出された所定文字列を前記集合に追加して蓄積する蓄積手段と、
    を備え、
    前記検索手段は、
    キーワードの第1の座標情報と、キーワードに隣接する枠領域であって所定文字列を含む前記枠領域の第2の座標情報とから、前記枠領域に含まれる所定文字列の第3の座標情報を取得し、
    前記第3の座標情報にもとづき、所定文字列を抽出する、
    ことを特徴とする文書管理装置。
JP2013065379A 2013-03-27 2013-03-27 文書管理装置、文書管理方法および文書管理プログラム Expired - Fee Related JP6079361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013065379A JP6079361B2 (ja) 2013-03-27 2013-03-27 文書管理装置、文書管理方法および文書管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013065379A JP6079361B2 (ja) 2013-03-27 2013-03-27 文書管理装置、文書管理方法および文書管理プログラム

Publications (2)

Publication Number Publication Date
JP2014191522A JP2014191522A (ja) 2014-10-06
JP6079361B2 true JP6079361B2 (ja) 2017-02-15

Family

ID=51837735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013065379A Expired - Fee Related JP6079361B2 (ja) 2013-03-27 2013-03-27 文書管理装置、文書管理方法および文書管理プログラム

Country Status (1)

Country Link
JP (1) JP6079361B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63158663A (ja) * 1986-12-23 1988-07-01 Toshiba Corp 文書機密保護装置
JP4773003B2 (ja) * 2001-08-20 2011-09-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP3553543B2 (ja) * 2001-11-30 2004-08-11 三菱スペース・ソフトウエア株式会社 関連語自動抽出装置、複数重要語抽出プログラムおよび重要語の上下階層関係抽出プログラム
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム

Also Published As

Publication number Publication date
JP2014191522A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
CN111753500B (zh) 版式化后的电子表单与ofd合并展现及目录生成的方法
US7614000B2 (en) File formats, methods, and computer program products for representing presentations
US11042689B2 (en) Generating a document preview
JP4682284B2 (ja) 文書差分検出装置
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
US7971135B2 (en) Method and system for automatic data aggregation
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP4959501B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6079361B2 (ja) 文書管理装置、文書管理方法および文書管理プログラム
JP6052801B2 (ja) 文書間における記載事項関連付けシステム、方法、及び、プログラム
JP5929356B2 (ja) 情報処理装置及び情報処理プログラム
JP6028905B2 (ja) 帳票管理装置及び帳票管理方法並びに帳票管理プログラム
JP4747828B2 (ja) 履歴管理装置
JP4828318B2 (ja) 複数様式帳票統合印刷方法、システム及びプログラム
JP5499914B2 (ja) 情報処理プログラム及び情報処理装置
US20130060778A1 (en) Device, method, and program for displaying document list
JP2021144302A (ja) 情報処理装置及び情報処理プログラム
JP2007011777A (ja) 連絡先情報管理装置、連絡先情報提供方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
JP2016126532A (ja) 算出プログラム、情報処理装置、および算出方法
US20240427935A1 (en) Method, electronic apparatus and non-transitory computer readable medium for masking data on electronic document
JP7388176B2 (ja) 情報処理装置及び情報処理プログラム
JP2025056913A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2009003496A (ja) 帳票データ変換装置
KR101965718B1 (ko) 웹 문서에 대한 편집 신뢰성을 보장하는 장치 및 이의 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160923

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170102

R150 Certificate of patent or registration of utility model

Ref document number: 6079361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees