JP2004287907A - 公開用文書作成装置 - Google Patents

公開用文書作成装置 Download PDF

Info

Publication number
JP2004287907A
JP2004287907A JP2003079802A JP2003079802A JP2004287907A JP 2004287907 A JP2004287907 A JP 2004287907A JP 2003079802 A JP2003079802 A JP 2003079802A JP 2003079802 A JP2003079802 A JP 2003079802A JP 2004287907 A JP2004287907 A JP 2004287907A
Authority
JP
Japan
Prior art keywords
character string
data
pdf data
document
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003079802A
Other languages
English (en)
Inventor
Yoshikazu Mori
義数 守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2003079802A priority Critical patent/JP2004287907A/ja
Publication of JP2004287907A publication Critical patent/JP2004287907A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】公開用文書を作成する際の担当者の負担を軽減することができる公開用文書作成装置を提供する。
【解決手段】中央処理装置15のPDFデータ変換手段15bは、文書作成用ソフトウェアで作成された文書データをPDFデータに変換する。文書データを作成する際、不開示部分の文字列には、予め定められた文字属性を付与している。文字列検出手段15cは、そのPDFデータ内で、当該文字属性を有する文字列を検出し、その検出した文字列のページ上の位置情報を取得する。公開用PDFデータ作成手段15dは、その取得された文字列のページ上の位置情報に基づき当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、第三者に開示してはいけない部分が文書データに含まれている場合に、その不開示部分にマスキングが施された公開用文書データを作成する公開用文書作成装置に関するものである。
【0002】
【従来の技術】
例えば、企業や役所等では、顧客からの要求に応じ、所定の文書を顧客に提出することが行われている。しかし、その文書中に、第三者に開示してはいけない部分が含まれていることがある。かかる場合、担当者は、不開示部分にマスキングが施された公開用の文書を別途作成する必要がある。従来、文書を紙で管理している場合には、担当者は、文書を複写機で複写し、その複写した文書中の不開示部分を、墨等でベタ塗りすることにより、第三者に提出する公開用文書を作成していた。また、文書を電子データで管理している場合には、担当者は、当該文書データの作成に用いた文書作成用ソフトウェアの機能を利用して、その文書データ内の不開示部分に黒の塗り潰し図形等を配置した後、その文書データをプリンタ等で紙に印刷することにより、公開用文書を作成していた。
【0003】
また、従来は、文書作成用ソフトウェアにおいて表示/印刷色の設定を行う機能に、「透明」の要素を追加するという仕組みも提案されている(例えば、特許文献1参照。)。かかる「透明」の設定をした部分は、画面表示の際に表示されず、あるいは紙への印刷の際には印刷されない。この仕組みは、文書作成用ソフトウェアに隠蔽機能を付加するものであり、電子データそのものに隠蔽を施すものではない。
【0004】
【特許文献1】
特開平8−137847号公報
【0005】
【発明が解決しようとする課題】
ところで、文書の提出が要求される度に、担当者が、複写した文書中の不開示部分を墨等でベタ塗りしたり、文書データ内の不開示部分に塗り潰し図形等を配置したりするのでは、とても手間がかかり、担当者の負担が大きい。特に、文書を電子データで管理している場合、文書データ内に塗り潰し図形等を配置したまま、当該文書データを保存しておくと、その文書データを再利用するときに、その塗り潰し図形等を取り外さなければならず、手間がかかる。しかも、その文書データを再利用することにより当該文書データが改版された後、再び文書の提出が要求されると、担当者は、新しい版の文書データにおいて、新しい不開示部分だけでなく、前の版で指定した不開示部分にも、塗り潰し図形等を配置する必要がある。
【0006】
本発明は上記事情に基づいてなされたものであり、公開用文書を作成する際の担当者の負担を軽減することができる公開用文書作成装置を提供することを目的とするものである。
【0007】
【課題を解決するための手段】
上記の目的を達成するための請求項1記載の発明に係る公開用文書作成装置は、PDFデータ内で、予め定められた文字属性を有する文字列を検出し、その検出した文字列についてのページ上の位置情報を取得する文字列検出手段と、前記文字列検出手段で検出された文字列についてのページ上の位置情報に基づいて当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成する公開用PDFデータ作成手段と、を備えることを特徴とするものである。
【0008】
上記の目的を達成するための請求項2記載の発明に係る公開用文書作成装置は、文書作成用ソフトウェアで作成された文書データを記憶する記憶手段と、前記文書データをPDFデータに変換するPDFデータ変換手段と、前記PDFデータ変換手段で変換されたPDFデータ内で、予め定められた文字属性を有する文字列を検出し、その検出した文字列についてのページ上の位置情報を取得する文字列検出手段と、前記文字列検出手段で検出された文字列についてのページ上の位置情報に基づいて当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成すると共に、その作成した前記公開用PDFデータを前記記憶手段に記憶させる公開用PDFデータ作成手段と、を備えることを特徴とするものである。
【0009】
請求項3記載の発明は、請求項1又は2記載の公開用文書作成装置において、前記公開用PDFデータ作成手段は、前記公開用PDFデータを作成する際に、前記文字列検出手段で検出された文字列に対応するテキストデータを当該PDFデータから削除すると共に、その削除したテキストデータの位置に、当該検出された文字列の幅分だけ次に続く文字列を後方に移動するための移動コマンドを挿入することを特徴とするものである。
【0010】
請求項4記載の発明は、請求項1、2又は3記載の公開用文書作成装置において、前記文字列検出手段は、所定のスタイルが設定された文字列、所定の種類のフォントが設定された文字列、所定のサイズのフォントが設定された文字列、所定の色のフォントが設定された文字列のうちいずれかの文字列を検出することを特徴とするものである。
【0011】
上記の目的を達成するための請求項5記載の発明に係るコンピュータ読み取り可能な記録媒体は、請求項1、2、3又は4のいずれかに記載の公開用文書作成装置の機能をコンピュータに実現させるためのプログラムを記録したものである。
【0012】
上記の目的を達成するための請求項6記載の発明に係るプログラムは、請求項1、2、3又は4のいずれかに記載の公開用文書作成装置の機能をコンピュータに実現させるためのものである。
【0013】
【発明の実施の形態】
以下に本発明の一実施形態について図面を参照して説明する。図1は本発明の一実施形態である公開用文書作成装置の概略構成図である。
【0014】
本実施形態の公開用文書作成装置は、第三者に開示してはいけない部分が文書データに含まれている場合に、その不開示部分にマスキングが施された公開用文書データを作成するものである。かかる公開用文書作成装置は、図1に示すように、入力装置としてのキーボード11a及びマウス11bと、表示装置12と、出力装置としてのプリンタ13と、記憶手段14と、中央処理装置15とを具備する。この公開用文書作成装置は、例えば、パーソナルコンピュータにより実現される。
【0015】
表示装置12は、文書データや公開用文書データ等を画面に表示するものである。キーボード11a及びマウス11bは、表示装置12の画面上で文字を入力したり、所定の項目やコマンドを選択したりするものである。プリンタ13は、文書データや公開用文書データを紙に印刷して出力するものである。
【0016】
記憶手段14には、各種のアプリケーションソフトが記憶されている。具体的には、文書作成用ソフトウェア、一般の文書データをPDFデータに変換するPDF変換用ソフトウェア等が記憶されている。ここで、文書作成用ソフトウェアとしては、例えば、マイクロソフト社製の「Word」や、ジャストシステム社製の「一太郎」等がある。また、PDF変換用ソフトウェアとしては、例えば、アドビ社製の「Acrobat」がある。
【0017】
中央処理装置15は、担当者からの指示に基づいて、公開用文書データの作成処理を行うものであり、図1に示すように、文書データ作成手段15aと、PDFデータ変換手段15bと、文字列検出手段15cと、公開用PDFデータ作成手段15dとを備える。
【0018】
本実施形態では、公開用文書データとしてPDFデータを用いることにしている。これは次の理由による。すなわち、PDFデータは、フォーマットが公開されており、PDFデータの解析が容易に行えること、PDFデータ用のビューアが無料で提供されており、誰でもPDFデータの内容を容易に見ることができること、現在では、公開用の文書をPDFデータで作成することが一般的になってきていること等の理由による。尚、以下では、公開用文書データとして作成されたPDFデータを、公開用PDFデータとも称する。
【0019】
文書データ作成手段15aは、公開用PDFデータの元となる文書データを作成するものである。この文書データ作成手段15aの機能は、記憶手段14に記憶された文書作成用ソフトウェアを読み出して実行することにより実現される。文書データ作成手段15aで作成された文書データは、記憶手段14に記憶される。本実施形態では、主に、文書データをマイクロソフト社製の「Word」により作成した場合について考えることにする。
【0020】
PDFデータ変換手段15bは、文書データをPDFデータに変換するものである。このPDFデータ変換手段15bの機能は、記憶手段14に記憶されたPDF変換ソフトウェアを読み出して実行することにより実現される。
【0021】
文字列検出手段15cは、PDFデータ変換手段15bにより変換されたPDFデータについて、そのPDFデータ内で、予め定められた文字属性を有する文字列を検出し、その検出した文字列についてのページ上の位置情報を取得するものである。本実施形態では、担当者は、文書データを作成する際に、第三者に開示してはいけない部分(不開示部分)の文字列については、予め定められた文字属性を付与することにしている。このため、文字列検出手段15cは、その文書データを変換して得られたPDFデータ内で、当該文字属性を有する文字列を検出することにより、不開示部分の文字列を抽出することができる。
【0022】
尚、本実施形態では、「文字列」とは、複数の文字の集まりを意味するだけでなく、一文字だけをも意味するものとする。
【0023】
公開用PDFデータ作成手段15dは、文字列検出手段15cで検出された文字列(不開示部分の文字列)についてのページ上の位置情報に基づいて当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成するものである。また、公開用PDFデータ作成手段15dは、こうして作成された公開用PDFデータを記憶手段14に記憶させる。したがって、公開用PDFデータ作成手段15dにより作成された公開用PDFデータを、表示装置12の画面上に表示したり、プリンタ13から出力したりすると、不開示部分の文字列が塗り潰し図形で覆われ、不開示部分の内容を見ることができない。
【0024】
本実施形態では、不開示部分を特定するために、文書データ上で不開示部分の文字列に所定の文字属性を付与することにしている。どの文字属性を、不開示部分を特定するために使用するかは予め決められている。また、文字属性は、当該文書データの作成に用いた文書作成用ソフトウェアの標準機能を用いて、当該文書データ上で不開示部分の文字列に付与される。例えば、文書データをマイクロソフト社製の「Word」で作成する場合は、不開示部分を特定するための文字属性として、「スタイル」、「フォントの種類」、「文字飾り」等を用いることができる。ここで、「スタイル」には「太字」、「斜体」が含まれる。「太字」とは、文字の書体を太くすることであり、「斜体」とは、文字を斜めに傾けて変形することである。「フォントの種類」は、コンピュータで使われる書体であり、例えば明朝体、ゴシック体等がある。また、「文字飾り」には、「囲み線」「網かけ」「下線」等が含まれる。「囲み線」とは、文字を四角形の線で囲むことである。「網かけ」とは、文字を網点のパターンで覆うことであり、「下線」とは、文字の下に直線を引くことである。尚、マイクロソフト社製の「Word」以外の文書作成用ソフトウェアにおいても、上記と同様の文字属性の付与機能が搭載されている。
【0025】
次に、文書データ上で文字列に付与された上記の各文字属性が、当該文書データをPDFデータに変換したときに、そのPDFデータにおいてどのように反映されるかについて説明する。
【0026】
かかる文字属性の反映のされ方は、次の二種類に分けられる。第一は、PDFデータにおいて、そのテキストデータ内に所定のコマンドが挿入されるという反映のされ方である。この第一の種類のような反映がなされる文字属性には、「スタイル」や「フォントの種類」が属する。すなわち、かかる文字属性は、テキストデータと連携して表現されている。第二は、PDFデータにおいて、そのテキストデータとは別個に、図形描画コマンドが挿入されるという反映のされ方である。この第二の種類のような反映がなされる文字属性には、「文字飾り」が属する。すなわち、「囲み線」「網かけ」「下線」等は、テキストデータと連携しているわけではなく、テキストデータとは別に表現されている。
【0027】
PDFデータにおける各文字属性の反映のされ方について、さらに具体的に説明する。文書データ上で所定の文字列のスタイルを太字に設定した場合は、PDFデータのテキストデータにおいて、当該文字列を表すテキストデータの前と後に、テキストのレンダリングモード変更コマンドが挿入される。このレンダリングモード変更コマンドは、当該コマンドが挿入された後の文字列について、文字を所定の太さに変更すべきことを宣言するものであり、そのコマンドの値により文字の太さが指定される。この場合は、当該文字列を表すテキストデータの前に挿入されたレンダリングモード変更コマンドにより、それ以降の文字列について文字を太字に変更するということが宣言され、当該文字列を表すテキストデータの後に挿入されたレンダリングモード変更コマンドにより、それ以降の文字列について文字の太さを元に戻すということが宣言されることになる。
【0028】
文書データ上で所定の文字列のスタイルを斜体に設定した場合は、PDFデータのテキストデータにおいて、当該文字列を表すテキストデータの前と後に、テキストの描画マトリックス変更コマンドが挿入される。この描画マトリックス変更コマンドは、当該コマンドが挿入された後の文字列について、文字を所定の角度だけ斜めに傾けて変形すべきことを宣言するものであり、そのコマンドの値により文字を傾ける角度が指定される。この場合は、当該文字列を表すテキストデータの前に挿入された描画マトリックス変更コマンドにより、それ以降の文字列について文字を斜体に変更するということが宣言され、当該文字列を表すテキストデータの後に挿入された描画マトリックス変更コマンドにより、それ以降の文字列について文字のスタイルを元に戻すということが宣言されることになる。
【0029】
文書データ上で所定の文字列を所定の種類のフォントに設定した場合は、PDFデータのテキストデータにおいて、当該文字列を表すテキストデータの前と後に、テキストの描画フォント変更コマンドが挿入される。この描画フォント変更コマンドは、当該コマンドが挿入された後の文字列について、文字を所定の種類のフォントに変更すべきことを宣言するものであり、そのコマンドの値によりフォントの種類が指定される。この場合は、当該文字列を表すテキストデータの前に挿入された描画フォント変更コマンドにより、それ以降の文字列について文字を所定の種類のフォントに変更するということが宣言され、当該文字列を表すテキストデータの後に挿入された描画フォント変更コマンドにより、それ以降の文字列について文字のフォントを元に戻すということが宣言されることになる。
【0030】
文書データ上で所定の文字列に所定の文字飾りを設定した場合は、PDFデータにおいて、そのテキストデータとは別個に、図形描画コマンドが挿入される。この図形描画コマンドは、ページ上の所定位置に所定の図形を描画すべきことを宣言するものであり、そのコマンドの値により図形の種類、例えば「文字囲み」、「網かけ」、「下線」等が指定される。また、図形描画コマンドには、当該図形についてのページ上の位置情報も含まれている。このように、テキストデータと図形描画コマンドとは連携していないので、かかるPDFデータを表示装置12の画面上に表示すると、テキストをすべて描画した後に、当該文字列に対応する所定の位置に所定の文字飾りが描画される。
【0031】
このように、文書データ上で文字列に付与した各文字属性については、PDFデータにおいてどのように反映されるかが分かっているので、中央処理装置15の文字列検出手段15cは、PDFデータに基づいて所定の文字属性を有する文字列を容易に特定することができる。すなわち、文書データ上で、ある文字列に所定のスタイル又は所定のフォントを設定した場合は、その文書データを変換して得られるPDFデータにおいて、テキストデータ内のコマンドを解析することにより、当該文字属性を有する文字列を検出することができる。また、文書データ上で、ある文字列に所定の文字飾りを設定した場合は、その文書データを変換して得られるPDFデータにおいて、図形描画コマンドを解析することにより、当該文字属性を有する文字列を検出することができる。
【0032】
また、PDFファイル内のテキストデータには、上述したようなスタイルやフォントの変更を宣言するためのコマンドだけでなく、フォントのサイズ、文字間隔や各行の先頭文字の描画原点等を宣言するためのコマンドが含まれている。ここで、描画原点とは、ページ上で当該文字の描画を開始する位置のことである。これらのコマンドは、当該コマンドの後に続くテキストデータに対して有効とされる。文字列検出手段15cは、これらのコマンドを解析することにより、その検出した文字列についてのページ上の位置情報を得ることができる。
【0033】
尚、不開示部分を特定するための文字属性として、上記の第一の種類に属する文字属性を用いた場合の方が、第二の種類に属する文字属性を用いた場合に比べて、不開示部分の文字列の検出及びその文字列についてのページ上の位置情報の取得を容易に行うことができる。第一の種類に属する文字属性を用いた場合は、PDFデータ内のテキストデータに基づいて、当該文字属性を有する文字列を特定し、その文字列についてのページ上の位置情報を抽出すればよい。これに対して、第二の種類に属する文字属性を用いた場合は、まず、当該文字属性に対応する図形描画コマンドを見出し、その図形描画コマンドに基づいて当該図形についてのページ上の描画位置を特定する。次に、テキストデータに基づいて各文字についてのページ上の描画位置を調べた後、各文字のうち、ページ上の描画位置が当該図形についてのページ上の描画位置と合致するものを、当該文字属性を有する文字列として特定する。このように、第二の種類に属する文字属性を用いた場合は、不開示部分の文字列の検出処理が複雑になる。
【0034】
次に、PDFデータから公開用PDFデータを作成する処理について詳しく説明する。図2(a)は所定の種類のフォントを設定することにより不開示部分が特定されたPDFデータの一例を示す図、図2(b)は図2(a)に示すPDFデータにおいて不開示部分の文字列についてのページ上の位置情報をどのように取得するかを説明するための図である。ここで、図2(a),(b)においては、表示装置12の画面上に表示されたPDFデータを示している。
【0035】
いま、フォントをゴシック体に設定することにより、不開示部分を特定する場合を考える。図2(a)の例では、「あいうえおかきくけこさしすせそ」というテキストデータがある。このデータにおいて、「あいうえお」のフォントと「さしすせそ」のフォントが明朝体であり、「かきくけこ」のフォントはゴシック体である。すなわち、文字列「かきくけこ」が不開示部分として特定されている。
【0036】
文字列検出手段15cは、まず、PDFデータ内のテキストデータにおいて、フォントをゴシック体に変更することを宣言している描画フォント変更コマンドを見出す。そして、その描画フォント変更コマンドが有効に働く文字列を調べることにより、不開示部分を特定する。これにより、図2(a)の場合、文字列「かきくけこ」が不開示部分であるとして検出される。次に、文字列検出手段15cは、PDFファイル内のテキストデータに含まれている、フォントのサイズ、文字間隔や各行の先頭文字の描画原点等を宣言するためのコマンドのうち、当該不開示部分の文字列に関連するコマンドに基づいて、当該不開示部分の文字列についてのページ上の位置情報を算出する。ここで算出する不開示部分の文字列についてのページ上の位置情報としては、不開示部分の文字列が含まれている行の先頭文字の描画原点、当該行の先頭文字の描画原点から当該不開示部分の文字列の先頭文字の描画原点までの文字列幅、当該不開示部分の文字列幅、及び当該不開示部分の文字列の高さがある。
【0037】
例えば、図2(a)に示す「あいうえおかきくけこさしすせそ」の場合、図2(b)に示すように、不開示部分の文字列が含まれている行の先頭文字の描画原点は、文字「あ」の描画を開始する位置であり、当該行の先頭文字の描画原点を宣言するコマンドの内容に基づいて取得される。当該行の先頭文字の描画原点から当該不開示部分の文字列の先頭位置の描画原点までの文字列幅は、文字列「あいうえお」の幅であり、文字列「あいうえお」に対する、フォントのサイズや文字間隔を宣言するコマンドの内容に基づいて算出される。また、当該不開示部分の文字列幅は、文字列「かきくけこ」の幅であり、文字列「かきくけこ」に対する、フォントのサイズや文字間隔を宣言するコマンドの内容に基づいて算出される。そして、当該不開示部分の文字列の高さは、文字列「かきくけこ」の高さであり、文字列「かきくけこ」に対する、フォントのサイズを宣言するコマンドの内容に基づいて取得される。こうして得られた不開示部分の文字列についてのページ上の位置情報は記憶手段14に記憶される。
【0038】
公開用PDFデータ作成手段15dは、かかる不開示部分の文字列についてのページ上の位置情報を利用して、公開用PDFデータを作成する。公開用PDFデータ作成手段15dによる公開用PDFデータの作成方法としては、次の二つのアルゴリズムが考えられる。
【0039】
第一のアルゴリズムでは、まず、不開示部分の文字列についてのページ上の位置情報に基づいて、当該不開示部分の文字列がページ上で描画されるべき領域、例えば、当該不開示部分の文字列を囲む四角形の領域を特定する。ここで、四角形の領域は、その各頂点の座標により特定される。次に、その四角形で特定される領域に黒の塗り潰し図形を配置するための図形描画コマンドを当該PDFデータに付加する。かかる図形描画コマンドには、当該図形についてのページ上の位置情報も含まれている。その位置情報は、上記の四角形で特定される領域についての位置情報である。
【0040】
第二のアルゴリズムでは、まず、不開示部分の文字列についてのページ上の位置情報に基づいて、当該不開示部分の文字列を囲む四角形の座標を特定する。次に、当該不開示部分の文字列に対応するテキストデータを当該PDFデータから削除する。そして、その削除したテキストデータの位置に、当該不開示部分の文字列の幅分だけ次に続く文字列を後方に移動するための移動コマンドを挿入する。この移動コマンドには、文字の移動量についての情報も含まれている。その移動量は、当該不開示部分の文字列幅と同じ量である。その後、上記の四角形で特定される領域に黒の塗り潰し図形を配置するための図形描画コマンドを当該PDFデータに付加する。
【0041】
かかる二つのアルゴリズムでは、第二のアルゴリズムが実行可能であれば、第一のアルゴリズムも実行可能である。このため、以下では、公開用PDFデータ作成手段15dは第二のアルゴリズムに従って処理を行う場合を考えることにする。
【0042】
例えば、図2(a)に示す「あいうえおかきくけこさしすせそ」の場合、公開用PDFデータ作成手段15dは、文字列「かきくけこ」を囲む四角形の各頂点の座標を取得する。この四角形の各頂点の座標は、文字列検出手段15cで取得した、不開示部分の文字列についてのページ上の位置情報に基づいて算出される。次に、公開用PDFデータ作成手段15dは、当該PDFデータにおいて、不開示部分の文字列である「かきくけこ」に対応するテキストデータを削除する。そして、その削除したテキストデータの位置に、文字列「かきくけこ」の幅だけ文字「さ」以降の文字列を後方に移動するための移動コマンドを付加する。この移動量は、不開示部分の文字列についてのページ上の位置情報から取得される。その後、上記の四角形で特定される領域に黒の塗り潰し図形(黒の四角形)を配置するための図形描画コマンドを、当該PDFデータに、テキストデータとは別個に付加する。
【0043】
このようにして得られたPDFデータが公開用PDFデータである。公開用PDFデータは記憶手段14に記憶される。例えば、この公開用PDFデータを表示装置12の画面上に表示すると次のようになる。図3は公開用PDFデータを表示装置12の画面上に表示するときの描画動作を説明するための図である。図3では、公開用PDFデータとして図2のデータから作成されたものを用いている。中央処理装置15は、最初に、公開用PDFデータのうちテキストデータの部分を表示装置12の画面上に描画する。具体的には、図3(a)に示すように、まず、文字列「あいうえお」を描画する。次に、テキストデータ内に付加された移動コマンドに従って、不開示部分の文字列「かきくけこ」の幅だけ空白にした後、文字列「さしすせそ」を描画する。したがって、この場合、不開示部分の文字列「かきくけこ」は描画されない。こうして文字列の描画が終了すると、図3(b)に示すように、テキストデータとは別個に付加された図形描画コマンドに従って、不開示部分の文字列「かきくけこ」に対応する領域、すなわち上記の空白の領域に、黒の塗り潰し図形を描画する。
【0044】
次に、本実施形態の公開用文書作成装置において、公開用PDFデータを作成する手順について説明する。図4は本実施形態の公開用文書作成装置において公開用PDFデータを作成する手順を説明するためのフローチャートである。
【0045】
担当者は、市販されている文書作成用ソフトウェアを使って文書データを作成する(S1)。また、担当者は、文書データの作成の際、不開示部分の文字列を、予め定められた文字属性、例えば所定の種類のフォントに変更する(S2)。こうして作成された文書データは記憶手段14に記憶される。
【0046】
例えば、担当者が作成した文書について顧客等から請求があった場合、担当者は、当該文書についての文書データを公開用PDFデータに変換する。具体的には、担当者が、表示装置12の画面上で当該文書データを選択した後、所定のメニュー画面上の変換実行ボタンを押す(S3)。これにより、公開用PDFデータを作成する手順をコンピュータに実行させるためのプログラムが起動する。そして、かかるプログラムにしたがって、PDFデータ変換手段15b、文字列検出手段15c及び公開用PDFデータ作成手段15dは、当該文書データから公開用PDFデータを作成する。具体的には、各手段15b,15c,15dは、以下のステップS4〜S10の処理を行う。
【0047】
まず、中央処理装置15のPDFデータ変換手段15bは、当該文書データをPDFデータに変換する(S4)。次に、文字列検出手段15cは、その変換したPDFデータ内で、所定の種類のフォントが使われている文字列を検出する(S5)。そして、その検出した文字列についてのページ上の位置情報を取得する(S6)。次に、公開用PDFデータ作成手段15dは、文字列検出手段15cで検出された文字列について、当該文字列がページ上で描画されるべき領域を特定する(S7)。そして、文字列検出手段15cで検出した文字列に対応するテキストデータを削除した後(S8)、その削除したテキストデータの位置に、その削除した文字列の幅だけ次に続く文字を後方に移動するための移動コマンドを挿入する(S9)。また、公開用PDFデータ作成手段15dは、当該削除した文字列の幅と高さを持つ黒の塗り潰し図形を、ステップS7で特定された領域に描画するための図形描画コマンドを、当該PDFデータに付加する(S10)。こうして得られたPDFデータは公開用PDFデータとして、記憶手段14に記憶される。
【0048】
上記のステップS4〜S10の処理は、本装置において内部的に行われる。かかる処理が終了した後は、例えば、当該作成された公開用PDFデータのショートカットを表すアイコンが表示装置12の画面上に作成される。その後、担当者は、例えば、プリンタ13を用いて、当該公開用PDFデータを紙に印刷し、その印刷したものを公開用文書として顧客に配布する。
【0049】
こうして紙に印刷された公開用文書では、不開示部分の文字列に対応した位置に、黒の塗り潰し図形が配置されているので、第三者は当該不開示部分の内容を知ることはできない。ところで、かかる文書の電子データを顧客に提出したり、ウェブサイトで公開したりするような場合も考えられる。かかる場合、上述した第一のアルゴリズムを用いて作成された公開用PDFデータを顧客に提供したのでは、セキュリティ上問題がある。すなわち、第一のアルゴリズムでは、公開用PDFデータ内に、不開示部分の文字列のテキストデータが残っているので、テキスト抽出などにより、黒の塗り潰し図形で隠した文字列を見ることができるからである。例えば、アドビ社製の「Acrobat」などのソフトウェアを用いて、当該塗り潰し図形を移動すれば、その図形で隠されていた文字列が露出してしまう。これに対して、第二のアルゴリズムでは、公開用PDFデータ内に、不開示部分の文字列のテキストデータが含まれていないので、たとえ公開用PDFデータが解析されたとしても、不開示部分の内容が知られてしまうことはない。このように、セキュリティの観点からは、第二のアルゴリズムを用いて公開用PDFファイルを作成する方が優れている。第一のアルゴリズムを用いた場合は、公開用PDFデータをプリンタで紙に印刷したものを公開用文書として顧客に提出し、公開用PDFデータ自体の配布は行わないようにすることが望ましい。
【0050】
本実施形態の公開用文書作成装置では、文書データをPDFデータに変換し、そのPDFデータ内で、予め定められた文字属性を有する不開示部分の文字列を検出すると共に、その不開示部分の文字列についてのページ上の位置情報を取得する。そして、その取得したページ上の位置情報に基づいて当該不開示部分の文字列がページ上で描画されるべき領域を特性し、その特定した領域に黒の塗り潰し図形を配置するための図形描画コマンドを当該PDFデータに付加することにより、公開用PDFデータを作成する。このように、元の文書データと公開用PDFデータは記憶手段に記憶されているので、当該文書に関するデータを再利用する場合は、公開用PDFデータではなく、元の文書データを使うことができる。しかも、元の文書データには、黒の塗り潰し図形等、データの内容を覆い隠すようなものが付加されているわけではないので、当該文書データを開けば、その内容をすべて見ることができる。また、文書データを改版する必要がある場合、記憶手段に記憶されている元の文書データを利用して新しい版の文書データを作成することができる。そして、新しい版の文書データにおいては、前の版で指定した不開示部分の文字列を再度指定する必要はなく、新たな不開示部分の文字列だけを特定の文字属性に変更すればよい。このように、本実施形態の公開用文書作成装置を用いることにより、公開用文書を作成する際の担当者の負担を軽減することができる。
【0051】
また、公開用PDFデータを作成する際に、当該PDFデータから、不開示部分の文字列に対応するテキストデータを削除すると共に、その削除したテキストデータの位置に、当該不開示部分の文字列の幅分だけ次に続く文字を後方に移動するための移動コマンドを挿入することが望ましい。これにより、公開用PDFデータを顧客に提供したり、ウェブサイド上で公開したりしても、不開示部分の内容を第三者に知られることはない。
【0052】
ところで、例えば、マイクロソフト社製「Word」で作成した文書データ内に、マイクロソフト社製の表計算ソフトウェアである「Excel」のワークシートを貼り付けることがよく行われる。かかる場合、文書データをPDFデータに変換すると、ワークシート内の文字列は、マイクロソフト社製「Word」上の普通の文字列と同様に変換される。このため、マイクロソフト社製「Word」の文書データ内に挿入された同社製「Excel」ワークシート内の文字列についても、所定の文字属性を付与しておけば、本発明を適用して、公開用PDFデータにおいてマスキングを施すことができる。
【0053】
また、マイクロソフト社製「Word」で作成した文書データ内に挿入されたイメージデータ、例えばビットマップデータやTIFFデータについては、本発明を適用して、そのイメージデータの一部分だけをマスキングすることはできない。このため、かかる場合は、当該文書データをPDFデータに変換する前に、マイクロソフト社製「Word」の図形描画機能を使って、そのイメージデータの一部分に予めマスキングを施しておく必要がある。尚、文書データ内に挿入されたイメージデータ全体を不開示部分とする場合は、当該文書データをPDFデータに変換した後、そのPDFデータ内でイメージデータを検出し、その検出されたすべてのイメージデータを黒の塗り潰し図形と差し替えることができる。但し、同一のPDFデータ内で、黒の塗り潰し図形との差し替えを「行う」イメージデータと、差し替えを「行わない」イメージデータとを判別することは困難である。
【0054】
尚、本発明は上記の実施形態に限定されるものではなく、その要旨の範囲内において種々の変形が可能である。
【0055】
例えば、上記の実施形態において、文書データ内で不開示部分の文字列に付与すべき文字属性は、担当者が自由に設定することができるようにしてもよい。例えば、不開示部分の文字列を特定するための文字属性の設定画面を表示装置の画面上に表示し、担当者がこの設定画面において所望の文字属性を選択する。この場合、文字列検出手段は、当該選択された文字属性を有する文字列を不開示部分と認識することになる。
【0056】
また、上記の実施形態において、不開示部分の文字列を特定するための文字属性として、フォントの色やサイズを使用することもできる。例えば、ある文字列のフォントを赤色にすることにより、当該文字列を不開示部分として特定したり、ある文字列のフォントサイズを10ポイントにすることにより、当該文字列を不開示部分として特定したりするようにしてもよい。
【0057】
本発明の目的は、上述した実施形態の装置の機能を実現するソフトウェアのプログラムコード(実行形式を含む)を、その全体あるいは一部を記録した記録媒体により、本実施形態の装置に供給し、その装置のコンピュータ(又はCPU、MPU)が記録媒体に格納されたプログラムコードを読み出して、動作の全部あるいは一部を実行することによっても達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が本実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0058】
プログラムコードを供給するための記録媒体としては、ROM、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード等を用いることができる。さらに、通信回線を介してダウンロードすることによってプログラムコードを供給するようにしてもよいし、JAVA(登録商標)などの技術を利用してプログラムコードを供給して実行するようにしてもよい。
【0059】
また、コンピュータが読み出したプログラムコードを実行することにより、本実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって本実施形態の機能が実現される場合も本発明に含まれることは言うまでもない。
【0060】
更に、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータが接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって本実施形態の機能が実現される場合も本発明に含まれることは言うまでもない。
【0061】
加えて、本発明はコンピュータに上記の実施形態の装置の機能を実現させるためのプログラムを含むプログラム・プロダクトであってもよい。ここで、プログラム・プロダクトというのは、コンピュータ・プログラムだけでなく、プログラムを記録した記録媒体あるいはコンピュータを含むものである。
【0062】
【発明の効果】
以上説明したように本発明に係る公開用文書作成装置によれば、文書データとその文書データから作成した公開用PDFデータとは記憶手段に記憶されているので、当該文書に関するデータを再利用する場合は、公開用PDFデータではなく、文書データを使うことができる。しかも、文書データには、黒の塗り潰し図形等、データの内容を覆い隠すようなものが付加されているわけではないので、当該文書データを開けば、その内容をすべて見ることができる。また、文書データを改版する必要がある場合、記憶手段に記憶されている文書データを利用して新しい版の文書データを作成することができる。そして、新しい版の文書データにおいては、前の版で指定した不開示部分の文字列を再度指定する必要はなく、新たな不開示部分の文字列だけを特定の文字属性に変更すればよい。このように、本発明の公開用文書作成装置を用いることにより、公開用文書を作成する際の担当者の負担を軽減することができる。
【0063】
また、公開用PDFデータを作成する際に、文書データを変換して得られたPDFデータから、不開示部分の文字列に対応するテキストデータを削除すると共に、その削除したテキストデータの位置に、当該不開示部分の文字列の幅分だけ次に続く文字を後方に移動するための移動コマンドを挿入することが望ましい。これにより、公開用PDFデータを顧客に提供したり、ウェブサイド上で公開したりしても、不開示部分の内容を第三者に知られることはない。
【図面の簡単な説明】
【図1】本発明の一実施形態である公開用文書作成装置の概略構成図である。
【図2】(a)は所定の種類のフォントを設定することにより不開示部分が特定されたPDFデータの一例を示す図、(b)は(a)に示すPDFデータにおいて不開示部分の文字列についてのページ上の位置情報をどのように取得するかを説明するための図である。
【図3】公開用PDFデータを表示装置の画面上に表示するときの描画動作を説明するための図である。
【図4】本実施形態の公開用文書作成装置において公開用PDFデータを作成する手順を説明するためのフローチャートである。
【符号の説明】
11a キーボード
11b マウス
12 表示装置
13 プリンタ
14 記憶手段
15 中央処理装置
15a 文書データ作成手段
15b PDFデータ変換手段
15c 文字列検出手段
15d 公開用PDFデータ作成手段

Claims (6)

  1. PDFデータ内で、予め定められた文字属性を有する文字列を検出し、その検出した文字列についてのページ上の位置情報を取得する文字列検出手段と、
    前記文字列検出手段で検出された文字列についてのページ上の位置情報に基づいて当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成する公開用PDFデータ作成手段と、
    を備えることを特徴とする公開用文書作成装置。
  2. 文書作成用ソフトウェアで作成された文書データを記憶する記憶手段と、
    前記文書データをPDFデータに変換するPDFデータ変換手段と、
    前記PDFデータ変換手段で変換されたPDFデータ内で、予め定められた文字属性を有する文字列を検出し、その検出した文字列についてのページ上の位置情報を取得する文字列検出手段と、
    前記文字列検出手段で検出された文字列についてのページ上の位置情報に基づいて当該文字列がページ上で描画されるべき領域を特定し、その特定した領域に所定の塗り潰し図形を描画するための図形描画コマンドを当該PDFデータに付加することにより、当該PDFデータに対する公開用PDFデータを作成すると共に、その作成した前記公開用PDFデータを前記記憶手段に記憶させる公開用PDFデータ作成手段と、
    を備えることを特徴とする公開用文書作成装置。
  3. 前記公開用PDFデータ作成手段は、前記公開用PDFデータを作成する際に、前記文字列検出手段で検出された文字列に対応するテキストデータを当該PDFデータから削除すると共に、その削除したテキストデータの位置に、当該検出された文字列の幅分だけ次に続く文字列を後方に移動するための移動コマンドを挿入することを特徴とする請求項1又は2記載の公開用文書作成装置。
  4. 前記文字列検出手段は、所定のスタイルが設定された文字列、所定の種類のフォントが設定された文字列、所定のサイズのフォントが設定された文字列、所定の色のフォントが設定された文字列のうちいずれかの文字列を検出することを特徴とする請求項1、2又は3記載の公開用文書作成装置。
  5. 請求項1、2、3又は4のいずれかに記載の公開用文書作成装置の機能をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  6. 請求項1、2、3又は4のいずれかに記載の公開用文書作成装置の機能をコンピュータに実現させるためのプログラム。
JP2003079802A 2003-03-24 2003-03-24 公開用文書作成装置 Pending JP2004287907A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003079802A JP2004287907A (ja) 2003-03-24 2003-03-24 公開用文書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003079802A JP2004287907A (ja) 2003-03-24 2003-03-24 公開用文書作成装置

Publications (1)

Publication Number Publication Date
JP2004287907A true JP2004287907A (ja) 2004-10-14

Family

ID=33293827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003079802A Pending JP2004287907A (ja) 2003-03-24 2003-03-24 公開用文書作成装置

Country Status (1)

Country Link
JP (1) JP2004287907A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249435A (ja) * 2006-03-14 2007-09-27 Ricoh Co Ltd 文書管理装置、文書管理方法、文書管理プログラム及びその記録媒体
JP2008003687A (ja) * 2006-06-20 2008-01-10 Ricoh Co Ltd サーバ、クライアントおよびプログラム
JP2021135731A (ja) * 2020-02-27 2021-09-13 株式会社スカイコム 情報処理装置、pdfファイル生成方法、およびpdfファイル生成プログラム
JP2022062910A (ja) * 2020-10-09 2022-04-21 株式会社スカイコム 情報処理装置、pdfファイル生成方法、およびpdfファイル生成プログラム
JP7161257B1 (ja) 2021-05-17 2022-10-26 弁理士法人Ipx 情報処理システム、情報処理方法及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249435A (ja) * 2006-03-14 2007-09-27 Ricoh Co Ltd 文書管理装置、文書管理方法、文書管理プログラム及びその記録媒体
JP2008003687A (ja) * 2006-06-20 2008-01-10 Ricoh Co Ltd サーバ、クライアントおよびプログラム
JP2021135731A (ja) * 2020-02-27 2021-09-13 株式会社スカイコム 情報処理装置、pdfファイル生成方法、およびpdfファイル生成プログラム
JP2022062910A (ja) * 2020-10-09 2022-04-21 株式会社スカイコム 情報処理装置、pdfファイル生成方法、およびpdfファイル生成プログラム
JP7161257B1 (ja) 2021-05-17 2022-10-26 弁理士法人Ipx 情報処理システム、情報処理方法及びプログラム
JP2022176877A (ja) * 2021-05-17 2022-11-30 弁理士法人Ipx 情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
KR101334483B1 (ko) 문서를 디지털화하는 장치 및 방법과, 컴퓨터 판독가능 기록 매체
US8081346B1 (en) System to create image transparency in a file generated utilising a print stream
US8593666B2 (en) Method and system for printing a web page
KR100725195B1 (ko) 정보 처리 장치, 정보 처리 방법 및 인쇄 제어 프로그램을 기록한 기록 매체
US20030070146A1 (en) Information processing apparatus and method
US20090204888A1 (en) Document processing apparatus, document processing method, and storage medium
US20050190405A1 (en) Document conversion method and apparatus
US7793224B1 (en) Methods and apparatus for formatting identified content
JP2000083161A (ja) 画像処理装置及びその方法、及び画像処理システム
US8169625B2 (en) Handling unhandled raster operations in a document conversion
JP2004287907A (ja) 公開用文書作成装置
JP2009130705A (ja) 文書処理システム
US20080192295A1 (en) Generation of Areas of Position Location Pattern
JP2018036794A (ja) 画像処理装置及びプログラム
JP5424858B2 (ja) 画像処理装置及びその制御方法並びにプログラム
JP5645481B2 (ja) 装置、方法、及びプログラム
JP4100912B2 (ja) 情報処理装置及びその制御方法、プログラム並びに記憶媒体
JP2004192394A (ja) 情報処理装置
US8756491B2 (en) PDL data processing device
JP5063207B2 (ja) 色変換処理装置、方法、記録媒体及びプログラム
JP4506371B2 (ja) 画像形成方法及び画像形成装置
JP2007299321A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び、情報記憶媒体
JP2006178622A (ja) 文書変換方法、文書変換装置、及びプログラム
JP2004252725A (ja) ツリー構造表示方法
JP4991429B2 (ja) 着色材料使用量削減プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080111

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080404