JP4121727B2 - デジタル文書のマーク認識装置 - Google Patents

デジタル文書のマーク認識装置 Download PDF

Info

Publication number
JP4121727B2
JP4121727B2 JP2001302560A JP2001302560A JP4121727B2 JP 4121727 B2 JP4121727 B2 JP 4121727B2 JP 2001302560 A JP2001302560 A JP 2001302560A JP 2001302560 A JP2001302560 A JP 2001302560A JP 4121727 B2 JP4121727 B2 JP 4121727B2
Authority
JP
Japan
Prior art keywords
document
synonym
distribution information
statement
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001302560A
Other languages
English (en)
Other versions
JP2002229977A (ja
Inventor
塚 玲 大
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2001302560A priority Critical patent/JP4121727B2/ja
Publication of JP2002229977A publication Critical patent/JP2002229977A/ja
Application granted granted Critical
Publication of JP4121727B2 publication Critical patent/JP4121727B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、デジタル文書のマーキングとその認識を行う装置と方法に係り、特に、デジタル文書に他人が認識できない情報(以下本明細書ではマークという)を付し、その文書からそのマークを抽出認識することはもちろん、その文書が一部改竄された後もその文書からマークを抽出認識できるデジタル文書のマーク認識装置とその方法に関する。
【0002】
【従来の技術】
最近はコンピュータと通信技術の発達に伴い、従来は紙に記載してやり取りしたり、保存したりした情報を、電気信号化(デジタル化)してやり取りしたり等することが多くなってきた。
【0003】
上記デジタル化された情報は、一般にコピーが容易であり、また、コピーされた情報そのものは、複製物であることを認識できないため、次々に流用されやすい性質を持っている。
【0004】
このようなデジタル情報の複製や流用を放置すれば、善意の者が思わぬ不利益を蒙ることは明らかである。まして、重要な情報も広くデジタル化されるようになった今日においては、この問題は重要度を増している。
【0005】
このような事情から、デジタル情報を保護する種々の方法が従来から考えられている。
【0006】
その例の一つとして、デジタル情報を物理的な装置や媒体に閉じ込め、この装置や媒体から容易にコピーできないようにする方法があった。たとえば、権限のない第三者がアクセスできないようにしたコンピュータや記憶装置、あるいはデジタル情報を電子回路化してコピーできないようにしたROMなどはその例であった。
【0007】
また、デジタル情報の種々の暗号化の方法も提案されていた。この暗号化の方法は、デジタル情報を暗号化キーによって暗号化して配布し、復号化キーを有する者のみが暗号化情報を解読できるようにしたものであった。この方法は、一部の電子署名の方法にも利用されていた。
【0008】
さらに、オンライン通信において、送り手と受取り手の間で互いに相手の認証を行った上で、秘密通信を行い、第三者への情報の漏洩を防止する方法も提案されていた。
【0009】
しかし、上記いずれの方法も、情報を一定範囲内で開示しつつそれ以上の不正な複製や流用を防止したい要求に応えることはできなかった。
【0010】
上記のような情報を一定範囲内で開示しつつそれ以上の不正な複製や流用を防止したいとする要求は、最近のデジタル情報の使用環境下で特に重要性を増している。
【0011】
たとえば、イントラネット(企業内インターネット)を備えた企業や、会員制通信ネットワークのように、所定の者のみに対してデジタル情報を公開し、あるいは使用を許容する必要がある環境では、通信ネットワーク内の者に対しては支障なく情報を提供等する必要がある一方、通信ネットワーク外の者に対しては情報の機密を守る必要がある。
【0012】
あるいは、ある者が有償でソフトウェアや情報を提供するような場合、正規に契約したユーザーには、ソフトウェアや情報を支障なく提供する必要がある一方、第三者へのソフトウェアや情報の流出する必要がある。この場合、そのソフトウェア等に秘密保護の手段を講じたとしても、正規のユーザーが故意にそのソフトウェア等を流出させることを防止することはできない。
【0013】
従来日本国内では、上記使用環境下のデジタル情報の保護に対しては、その情報を正規に取り扱うことができる者の自主的な管理に頼っていた。つまり、正当に入手された情報のそれ以降の使用については、何ら保護手段を講じておらず、前記情報を正規に取り扱うことができる者のモラルに頼らざるを得なかった。
【0014】
これに対して、米国では英文からなるデジタル文書の不正な複製を防止する方法が提案されていた。この方法は、英文の文書の英単語間のスペースの配列を利用してその文書にデジタルのマークを付す方法である。
【0015】
英文の文書は、一行ごとに英単語を均等に配分するために各英単語間に不規則なスペースを挿入することが多い。上記米国の方法は、このことを利用し、原文のスペースの配列に対して目立たない程度にスペース数を増減する変更を加えるものであった。このスペースの増減に一定のルールを予め定めることにより、スペース配列に一定の情報を埋め込むことができた。
【0016】
この方法によれば、デジタル文書を配布する相手に応じて原文のスペース配列を改変し、たとえば配布相手の名前などの情報(この情報をデジタルマークあるいはマークという)をそのスペース配列に埋め込んで相手に配布する。仮に、このデジタル文書が配布を受けた者によって不正に流出させられた場合には、流出したデジタル文書のスペース配列から流出させた者の氏名を特定することができる。
【0017】
このことにより、情報を入手した者の正当な使用を要求し、もってデジタル情報の一定範囲内での使用を許容しつつその範囲以上の不正な使用を防止することができるのである。
【0018】
【発明が解決しようとする課題】
しかしながら、上記単語間のスペースの配列を改変する方法は、適用できるデジタル文書の範囲が狭いことと、不正に複製されたデジタル文書をさらに編纂されて使用された場合にはもはや流出源を特定できないことと、に改良すべき余地があった。
【0019】
すなわち、単語間にスペースを有する文書は、欧米の言語による文書に限られているため、日本語による文書に適用することができなかった。また、欧米の言語による文書であっても、プログラムコードのようなスペースが特有の意味を持つ文書に対しては、スペース配列を改変することはできなかった。
【0020】
また、単語間のスペースは、一部の単語の挿入・削除によって全文書にわたって変化してしまうので、不正に複製されたデジタル文書を編纂されて使用された場合には、もはや原文に付したデジタルマークを認識することができなかった。
【0021】
さらに、原文のデジタル情報に対して一部改変を加えて使用することも考えられるので、ある程度改竄された文書であっても流出源の文書を推定できるようにすることも求められている。
【0022】
そこで、本発明が解決しようとする課題は、日本語を含む文章によるデジタル文書、ベクトル図形を含むデジタル文書、プログラムコードを含むデジタル文書等に広く適用することができ、かつ、改竄されている場合を含めて不正に使用されているデジタル文書のマークを認識することができるデジタル文書のマーク認識装置及びその方法を提供することにある。
【0023】
【課題を解決するための手段】
本願請求項1に係るプログラムコードからなるデジタル文書のマーク認識装置は、
入力手段と、
一つの命令文グループに対して、該命令文グループを他の命令文のグループに置き換えて実行しても実行結果が等しくなる同義命令文グループと、前記同義命令文グループに対応するビット列とを格納した同義命令文データベースと、
配布先と各配布先に対応するビット列からなる配布情報を格納した配布情報データベースと、
前記入力手段によって入力されたデジタル文書のプログラムコードから、前記同義命令文データベースに格納されている同義命令文グループを検出する同義命令文検出手段と、
前記同義命令文検出手段によって検出された同義命令文グループを置換対象命令文グループとして、前記配布情報データベースの配布情報に従って前記置換対象命令文グループを所定の同義命令文グループに置き換えて前記デジタル文書に配布情報を書き込む書込み手段と、
前記配布情報を書き込む前のデジタル文書である原文書と配布情報を復号しようとするデジタル文書であるマーク認識対象文書とを比較し、前記原文書の置換対象命令文グループに対応する前記マーク認識対象文書における置き換えられた同義命令文グループを特定する文書比較手段と、
前記文書比較手段によって特定された同義命令文グループの置換の方法により、前記マーク認識対象文書に書き込まれた配布情報を復号化する復号手段と、を備え、
配布情報書き込み時には、最初に原文書を前記入力手段により入力し、前記同義命令文検出手段により前記原文書から前記同義命令文データベースに登録された同義命令文グループを置換対象命令文グループとして検出し、前記書込み手段により前記配布情報データベースの配布情報に従って前記置換対象命令文グループを同義命令文グループに置き換え、
配布情報認識時には、前記入力手段によりマーク認識対象文書を入力し、前記文書比較手段によりマーク認識対象文書と原文書とを比較し、原文書の置換対象命令文グループに対応するマーク認識対象文書における置き換えられた同義命令文グループを特定し、前記復号手段により前記同義命令文グループの置換方法と前記配布情報データベースとにより前記マーク認識対象文書に書き込まれた配布情報を復号化する、ことを特徴とする。
【0025】
【発明の実施の形態】
次に本発明の実施の形態について願書に添付した図面を用いて以下に説明する。
最初に、本願発明のデジタル文書のマークの付与と認識の原理を説明しておく。
たとえば、ある文章に「様々な」という言葉が含まれているとすると、「様々な」という言葉は、「色々な」「さまざまな」「いろいろな」と置き換えられたとしても文章の意味は変化しない。この場合、「様々な」という言葉は、この明細書でいう置換対象語であり、「色々な」「さまざまな」「いろいろな」はその同義語である。「様々な」、「色々な」「さまざまな」「いろいろな」を一つの同義語のグループとすると、これらの同義語は下記のように所定の長さのビット列に対応させることができる。
Figure 0004121727
ここで、同義語に対応するビット列の長さについて説明しておく。
「様々な」の同義語は、「様々な」を含めて4つあるので、これらの同義語の置き換えによって表現できる情報は4通りある。この4通りの情報は2桁のビットの配列(2の2乗)として表現することができる。
【0026】
一般に、一つの置換対象語についてn個の同義語を有する場合、その置換対象語と同義語の置換によって表現できるビット数は log2 nとなる。
【0027】
つまり、一つの置換対象語についてn個の同義語があれば、その置換対象語を適当な同義語に置き換えることによって任意のlog2 nビット長のビット列を表現することができる。
【0028】
このことを拡張して利用すれば、文章中に置き換えることができる同義語を複数個設定しておくことにより、それらの同義語の置換えのやり方によって任意の0と1の数字の配列を表現できる。
【0029】
一方、デジタル文書に付すマークに含ませる情報(デジタル文書を配布する正規利用者の情報を含ませることが多いので、本明細書ではこの情報を配布情報という)は、0と1の数字の配列によって表現することができる。
【0030】
すなわち、配布情報の内容に従って文章中の置換対象語を適当な同義語に置き換えることによって、配布情報を文章中に第三者が認識できない形で埋め込むことができるのである。
【0031】
この配布情報を埋め込んだ文書が不正に流出された場合は、流出された文書の置換対象語(同義語として用意された語句)を検索し、それぞれに対応するビット列に復号化すれば、配布情報を読み取ることができる。
【0032】
以上、本発明のデジタルマークの付与と認識の原理である。なお、上記同義語と同様な働きをするものを考えれば、この原理をベクトル図形やソフトウェアプログラムコードからなるデジタル文書に拡張して適用することができる。この原理を具体化した方法と装置について以下に説明する。
【0033】
図1は、本発明の第一の実施形態によるデジタル文書のマーク認識方法の処理の流れを示している。この第一の実施形態によるデジタル文書のマーク認識方法は、文章からなるデジタル文書を対象とするマーク認識方法である。
【0034】
この第一実施形態によるデジタル文書のマーク認識方法では、最初にマークを付すべきデジタル文書を入力し、そのデジタル文書に付するマークに含ませる情報(配布情報)を入力し、さらに、その置換可能な言葉(置換対象語)とその同義語とそれらに対応するビット列を多数用意する(ステップ100)。
【0035】
次に、上記原デジタル文書から置換対象語を検出する(ステップ110)。
【0036】
ここで、必要に応じて、置換対象語と同義語の個数によって制限を受けることがある情報記載用のビット列の長さと、配布情報のビット列の長さとを比較し、配布情報の埋め込みの可能性を検討し判断する(ステップ120)。なお、配布情報が長い場合は、必要に応じて配布情報を短縮するか、置換対象語や同義語を増やす。
【0037】
配布情報を上記置換対象語の同義語の置換えによって埋め込むことができると判断したならば、配布情報の内容に従って置換対象語を同義語に置き換えてデジタル文書に書き込む(ステップ130)。
【0038】
一方、配布情報は、後の照合のために保存しておく(ステップ140)。
【0039】
以上の処理の後、デジタルマークを付した文書を、それぞれの配布先に配布する(ステップ150)。
【0040】
以上の準備をしてデジタル文書を配布した後、上記原のデジタル文書と同一または類似の不正に複製等された文書が発見された場合は、その文書をマーク認識対象文書として入力する(ステップ160)。
【0041】
次に、上記マーク認識対象文書と原の文書とを比較し、原の文書に対して置換した言葉をマーク認識対象文書から検出し、置換対象語あるいは同義語を検出する(ステップ170)。
【0042】
この置換対象語あるいは同義語をビット列に復号し、上記ステップ140で保存した配布情報とを比較することにより、配布情報すなわちデジタルマークを認識することができる。これによってマーク認識対象文書の流出源を特定することができる(ステップ180)。
【0043】
以上がデジタル文書のマーク認識方法の概容であるが、次に、デジタル文書のマーク認識装置を説明しつつ上記方法についてさらに詳細に説明する。
【0044】
図2は、本実施形態デジタル文書のマーク認識装置の構成とその構成要素間の処理の流れを示している。
【0045】
図2に示すように、本実施形態によるデジタル文書のマーク認識装置1は、大きく配布情報書込装置2と、配布情報読取装置3とからなる。マーク認識装置1は、配布情報書込装置2と配布情報読取装置3との協働によってその目的であるデジタル文書へのデジタルマークの付与と認識を達成する。
【0046】
配布情報書込装置2はさらに、入力手段4と、同義語検出手段5と、符号化手段6と、冗長判断手段7と、書込み手段8と、同義語データベース9と、配布情報データベース10とを有している。
【0047】
一方、配布情報読取装置3は、文書比較手段11と、復号手段12と、距離判断手段13とを有している。
【0048】
入力手段4は、デジタル文書マーク認識装置1に対するユーザーの命令の入力、同義語の設定及び入力、マークの付与と認識を行う対象のデジタル文書の入力等を行う手段である。入力手段4は、キーボード、ポインティングデバイス、タッチパネル、画像入力装置等の公知の入力手段のいずれを用いてもよい。
【0049】
同義語データベース9は、置き換えても意味が変化しない言葉(同義語)と、それらの同義語に対応するビット列とを格納したデータベースである。
【0050】
同義語検出手段5は、所定の文書から同義語データベース9に格納されている同義語を検索する手段である。
【0051】
符号化手段6は、置換すべき原の同義語の配列や配布情報を、0と1のビット列に符号化する手段である。
【0052】
冗長判断手段7は、文書中の置換できる言葉の個数と各言葉に対して置き換えることができる同義語の個数から決定されるビット列の長さと、配布情報を表現するビット列の長さを比較することにより、その文書にマーキングすることの可能性を判断する手段である。配布情報がマーキング用ビット列に比して常に短い場合には、冗長判断手段7を省略することができる。
【0053】
書込み手段8は、配布情報の内容に従って置換対象語を同義語に置換え、文書に書込む手段である。
【0054】
配布情報データベース10は、如何なる配布相手に如何なる配布情報を付した文書を配布したかのデータや、原の文書の置換対象語の配列等の情報を格納したデータベースである。
【0055】
配布情報読取装置3の文書比較手段11は、マークを認識しようとする文書と原の文書とを比較し、原文書に対して改竄された箇所を特定し、特に、置換された言葉を抽出し、置換対象語を特定する手段である。文書比較手段11は、文書を入力する手段を含んでいてもよく、また、入力手段4によって文書を入力するようにしてもよい。
【0056】
復号手段12は、同義語データベース9を参照し、同義語の置換えの方法からビット列を復号し、配布情報を復原する手段である。
【0057】
距離判断手段13は、配布文書が改竄されている場合に、改竄の程度すなわち配布文書との一致の程度を、「配布文書との距離」として表現し、もっとも近い配布文書を推定する手段である。なお、原文書との距離を問題としないマーク認識、すなわち流出した文書が改竄されていないことを前提とするマーク認識では、距離判断手段13を省略することができる。
【0058】
以上がデジタル文書マーク認識装置1の構成要素であるが、次にこれらの構成要素によるデジタル文書のマークの付与と認識について説明する。
【0059】
デジタル文書マーク認識装置1では、入力手段4により同義語によって置換え可能な言葉とその同義語を準備し、これらを対応するビット列とともに同義語データベース9に格納しておく。
【0060】
次に入力手段4により、配布情報を付すべき文書と、その配布情報を入力する。配布情報は、そのデジタル文書を配布する相手を特定する情報でも、配布した日付でも、電子署名でもよい。以上は図1におけるステップ100の処理である。
【0061】
次に、同義語検出手段5により、上記入力された配布情報を付すべき文書から、同義語データベース9を参照して置換できる言葉(置換対象語あるいは同義語)を検索する。これは図1のステップ110の処理に該当する。
【0062】
次に、符号化手段6により、前記同義語検出手段5が検索した置換対象語の配列と、前記入力手段4によって入力した配布情報とをそれぞれ0と1の数値からなるビット列に符号化する。
【0063】
次に、冗長判断手段7により、上記置換対象語のビット列の長さと、配布情報のビット列の長さとを比較する。置換対象語のビット列の長さが配布情報より長い場合は、置換対象語のビット列に配布情報を埋め込むことができるので次の処理に移るが、配布情報のビット列の長さが長い場合には配布情報を埋め込むことができないので、置換対象語と同義語を追加設定するか、配布情報を短縮するか等の措置をとる。
【0064】
上記冗長判断手段7によって配布情報を文書に埋め込むことができると判断された場合は、次に書込み手段8が、同義語データベース9を参照し、配布情報の内容(0と1のビット列)に従って置換対象語を同義語に置き換えて文書に書き込む。この処理は、図1のステップ130の処理に該当する。
【0065】
このように置換対象語の場所に同義語を埋め込んだ文書は、配布文書20として所定の相手に配布される。
【0066】
配布文書20の配布と同時に、如何なる相手に如何なる配布情報を埋め込んだ文書が配布されたかの情報を、配布情報データベース10に格納する。この処理は、図1のステップ140の処理に該当する。
【0067】
このようにして配布情報を埋め込んだ文書が配布された後に、原文書に類似あるいは同一のコピー文書21が流布されている場合に、配布情報読取装置3によってそのコピー文書21のマークを認識することができる。
【0068】
最初に、文書比較手段11によってコピー文書21と原文書とを比較する。
【0069】
コピー文書21が正当な利用者に配られた配布文書20から改竄されていなければ、原の文書とコピー文書21とを一字一句比較して得られる差分から容易に配布情報を抽出することができる。
【0070】
コピー文書21が正当な利用者に配られた配布文書20から改竄されている場合は、配布時に埋め込まれた配布文書20中の配布情報の断片をコピー文書21の中から検出する必要がある。もし、コピー文書21中から置換対象となる同義語が集中して数多く見つかり、その同義語の集団から配布情報のビット列長さ(Bビット)以上のビット列の情報が得られれば、配布情報を完全に読み取ることができる。
【0071】
上記配布情報の断片の検出は、原文書の語句に対して置換された語句の検出によって行う。置換語句を検出するには、コピー文書21と原文書とを比較し、改竄されずに残った部分を抽出する。配布文書20に対する改竄は、文字の挿入、削除、置換の操作に分類されるので、コピー文書21と原文書の文章のマッチング探索を行うことにより、図3に示すようなマッチング結果を容易に得られる。
【0072】
配布文書20に埋め込まれた同義語は、マッチング結果の置換操作として現れるため、文書比較手段11は、原文書上の置換対象語に該当する語句がコピー文書21上でどのように置換されているかを逐一比較することにより配布情報を抽出することができる(図1のステップ160,170)。
【0073】
コピー文書21から得られたBビット長の配布情報が改変されている場合は、距離判断手段13により、流出源と思われる幾つかの配布文書20(20a,20b,…)からの「距離」を計算することによって流出源の配布文書20を推定することができる。以下にその方法について説明する。
【0074】
コピー文書21中に不完全な形(改変された形)で配布情報「…10101…」が抽出されたとすると、流出源と思われる配布文書20a,20bとの距離は、該当する部分の配布情報のビット列「…11000…」(20a),「…00111…」(20b)と比較し、nビット相違すれば距離nとして計算する。この結果は、下記の表のようになる。
Figure 0004121727
この場合、コピー文書21は、配布文書20bよりも配布文書20aから流出した可能性が高いのは説明するまでもない。
【0075】
このように、コピー文書21と幾つかの配布文書(20a,20b,…)とを比較することにより、配布文書の改竄によって完全な形でBビット長の配布情報を得られない場合でも、コピー文書21との距離から流出源の配布文書を推定することができる。
【0076】
Bビット長の配布情報が得られた場合は、復号手段12により、配布情報22が出力される(図1のステップ180)。これにより、コピー文書の流出源が特定でき、その流出源となった利用者に警告等の措置をとることにより、長期的にはデジタル文書の情報の機密を守ることができるようになる。
【0077】
以上で本願発明の第一実施形態の説明を終了し、次に本願発明の第二実施形態について以下に説明する。
【0078】
本願発明の第一実施形態は、文章からなるデジタル文書へのマーク付与と認識であったが、同義語と同様な作用を有するものを考えれば、ベクトル図形からなるデジタル文書へのマーク付与と認識に適用することができる。第二実施形態は、ベクトル図形からなるデジタル文書へのマーク付与と認識に関するものである。
【0079】
最初にベクトル図形に対するマーク付与と認識の方法について説明する。
【0080】
ベクトル図形の場合は、円、長方形、折れ線、曲線などを上記置換対象語に相当するもの(以下置換対象図形という)とする。これら置換対象図形に対して、図4に示すように、図形の位置を1ドット移動したり、1ドット分拡大・縮小・回転したものを同義語相当のもの(以下同義図形という)とする。移動の方向、拡大、縮小、回転によって所定数の同義図形が存在するので、この置き換えによって所定長のビット列の情報を埋め込むことができる。
【0081】
このベクトル図形に埋め込んだ情報を読み取るには、予め定めた置換対象図形を詳細に解析する。この置換対象図形に対する同義図形の置き換えの方法により、一定の配布情報のビット列を復号することができる。これにより、不正に複製等された場合の流出源を特定することができる。
【0082】
ベクトル図形へのマーク付与と認識の処理の流れを図5に示す。また、その処理を行う装置の構成を図6に示す。
【0083】
このベクトル図形へのマーク付与と認識の処理の流れは、基本的には図1に示した文章からなるデジタル文書へのマークの付与と認識と同一である。ただし、文章の場合は、置換対象語は一定の順序にすでに配列しているので、置換対象語の検索と同義語の置換とを機械的に行うことができたが、ベクトル図形の場合は、置換対象図形を一定の順序で同義図形に置き換えてゆく必要がある。図5ステップ210で「原のデジタル文書の置換対象図形の設定」は、コンピュータによるのとユーザーによるのとを問わず、ベクトル図形中の置換対象図形を一定の順序で設定することの意である。
【0084】
また、図6のデジタル文書マーク認識装置31においても、同義語検出手段35は、コンピュータによって自動的に同義図形を一定の順序で設定する場合と、ユーザーによって個々のベクトル図形に対してその都度同義図形を一定の順序で設定する場合の、双方を含む。残る部分については図2と同様であるので説明を省略する。
【0085】
次に本願発明の第三実施形態について以下に説明する。
【0086】
本願発明の第三実施形態は、ソフトウェアのプログラムコードへのマーク付与と認識に関するものである。
【0087】
最初にこのプログラムコードに対するマーク付与と認識の方法について説明する。
【0088】
プログラムコードは、文章の場合と異なり、文法上の制限からコマンドと同義の単語に置き換えることができない。しかし、一定の命令文のグループは、他の命令文のグループに置き換えて実行しても、元の命令文グループを実行した結果とプロセッサの状態と記憶装置の状態が等しいことがある。たとえば複数のREAD文が連続して記載されている部分等は、そのREAD文の順序を変えても実行結果が等しい。
【0089】
このような命令文グループは、その一命令文を文章における一文字と考え、この一連の命令文グループを文章における置換対象語と考えることができる(この命令文グループを置換対象命令文グループという)。また、置換対象命令文グループと置き換えても実行結果が等しい命令文グループは、文章における同義語と考えることができる(この命令文グループを同義命令文グループという)。一つの置換対象命令文グループに対して複数の同義命令文グループを用意しておくことにより、同義命令文グループの置換の方法によって一定のビット長のビット列を表現することができる。
【0090】
配布情報を付すべきプログラムコードに対して、置換対象命令文グループを設定し、配布情報の内容に従って置換対象命令文グループを適当な同義命令文グループに置き換えることにより、プログラムコードに配布情報を埋め込むことができる。
【0091】
このプログラムコードに埋め込んだ配布情報を読み取るには、置換対象命令文グループや同義命令文グループを検索し、これらの置換対象命令文に対する同義命令文グループの置き換えの方法により、一定の配布情報のビット列を復号することができる。この方法により、不正に複製等された場合の流出源を特定することができる。
【0092】
プログラムコードへのマーク付与と認識の処理の流れを図7に示す。また、その処理を行う装置の構成を図8に示す。
【0093】
プログラムコードへのマーク付与と認識の処理の流れと、その処理を行う装置は、置換対象と同義のものが異なることを除き、文章へのマークの付与と認識と同一であるので、図のみを示して重複する説明を省略する。
【0094】
【発明の効果】
以上の説明から明らかなように、本発明によるデジタル文書のマーク認識装置と方法によれば、同義語、同義図形、同義命令文グループを用意し、デジタル文書中の語句、ベクトル図形、命令文グループを適当な同義語、同義図形、同義命令文グループに置き換えることにより、文章、ベクトル図形、プログラムコードからなるデジタル文書に第三者が認識することができないマーク(配布情報)を埋め込むことができる。
【0095】
上記配布情報を埋め込んだ文書は、改竄されていない場合はもちろん、改竄された場合であっても、わずかに残っている部分の同義語等の置換方法から、配布情報を復号化することができる。
【0096】
これにより、機密を守るべき文書の安易な流出を防止することができ。したがって、一定範囲内で自由に情報の複製や変更を許容しつつ、それ以上の情報の不正な流出を効果的に防止する装置と方法を提供することができる。
【図面の簡単な説明】
【図1】本発明による文章からなるデジタル文書のマーク付与及び認識方法の処理の流れを示したフローチャート。
【図2】本発明による文章からなるデジタル文書のマーク認識装置の構成を示したブロック図。
【図3】本発明によるデジタル文書のマーク認識装置の文書比較手段による文書のマッチングの様子を示した説明図。
【図4】一ベクトル図形に対して1ドット移動した同義図形を示した説明図。
【図5】本発明によるベクトル図形からなるデジタル文書のマーク付与及び認識方法の処理の流れを示したフローチャート。
【図6】本発明によるベクトル図形からなるデジタル文書のマーク認識装置の構成を示したブロック図。
【図7】本発明によるプログラムコードからなるデジタル文書のマーク付与及び認識方法の処理の流れを示したフローチャート。
【図8】本発明によるプログラムコードからなるデジタル文書のマーク認識装置の構成を示したブロック図。
【符号の説明】
1 デジタル文書マーク認識装置
2 配布情報書込装置
3 配布情報読取装置
4 入力手段
5 同義語検出手段
6 符号化手段
7 冗長判断手段
8 書込み手段
9 同義語データベース
10 配布情報データベース
11 文書比較手段
12 復号手段
13 距離判断手段
20 配布文書
21 コピー文書
22 配布情報
31 デジタル文書マーク認識装置
32 配布情報書込装置
33 配布情報読取装置
34 入力手段
35 同義語検出手段
36 符号化手段
37 冗長判断手段
38 書込み手段
39 同義語データベース
40 配布情報データベース
41 文書比較手段
42 復号手段
43 距離判断手段
50 配布文書
51 コピー文書
52 配布情報
61 デジタル文書マーク認識装置
62 配布情報書込装置
63 配布情報読取装置
64 入力手段
65 同義語検出手段
66 符号化手段
67 冗長判断手段
68 書込み手段
69 同義語データベース
70 配布情報データベース
71 文書比較手段
72 復号手段
73 距離判断手段
80 配布文書
81 コピー文書
82 配布情報

Claims (1)

  1. 入力手段と、
    一つの命令文グループに対して、該命令文グループを他の命令文のグループに置き換えて実行しても実行結果が等しくなる同義命令文グループと、前記同義命令文グループに対応するビット列とを格納した同義命令文データベースと、
    配布先と各配布先に対応するビット列からなる配布情報を格納した配布情報データベースと、
    前記入力手段によって入力されたデジタル文書のプログラムコードから、前記同義命令文データベースに格納されている同義命令文グループを検出する同義命令文検出手段と、
    前記同義命令文検出手段によって検出された同義命令文グループを置換対象命令文グループとして、前記配布情報データベースの配布情報に従って前記置換対象命令文グループを所定の同義命令文グループに置き換えて前記デジタル文書に配布情報を書き込む書込み手段と、
    前記配布情報を書き込む前のデジタル文書である原文書と配布情報を復号しようとするデジタル文書であるマーク認識対象文書とを比較し、前記原文書の置換対象命令文グループに対応する前記マーク認識対象文書における置き換えられた同義命令文グループを特定する文書比較手段と、
    前記文書比較手段によって特定された同義命令文グループの置換の方法により、前記マーク認識対象文書に書き込まれた配布情報を復号化する復号手段と、を備え、
    配布情報書き込み時には、最初に原文書を前記入力手段により入力し、前記同義命令文検出手段により前記原文書から前記同義命令文データベースに登録された同義命令文グループを置換対象命令文グループとして検出し、前記書込み手段により前記配布情報データベースの配布情報に従って前記置換対象命令文グループを同義命令文グループに置き換え、
    配布情報認識時には、前記入力手段によりマーク認識対象文書を入力し、前記文書比較手段によりマーク認識対象文書と原文書とを比較し、原文書の置換対象命令文グループに対応するマーク認識対象文書における置き換えられた同義命令文グループを特定し、前記復号手段により前記同義命令文グループの置換方法と前記配布情報データベースとにより前記マーク認識対象文書に書き込まれた配布情報を復号化する、ことを特徴とするプログラムコードからなるデジタル文書のマーク認識装置。
JP2001302560A 2001-09-28 2001-09-28 デジタル文書のマーク認識装置 Expired - Lifetime JP4121727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001302560A JP4121727B2 (ja) 2001-09-28 2001-09-28 デジタル文書のマーク認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001302560A JP4121727B2 (ja) 2001-09-28 2001-09-28 デジタル文書のマーク認識装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP27962496A Division JP3989577B2 (ja) 1996-10-22 1996-10-22 デジタル文書のマーキング装置及びマーク認識装置

Publications (2)

Publication Number Publication Date
JP2002229977A JP2002229977A (ja) 2002-08-16
JP4121727B2 true JP4121727B2 (ja) 2008-07-23

Family

ID=19122783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001302560A Expired - Lifetime JP4121727B2 (ja) 2001-09-28 2001-09-28 デジタル文書のマーク認識装置

Country Status (1)

Country Link
JP (1) JP4121727B2 (ja)

Also Published As

Publication number Publication date
JP2002229977A (ja) 2002-08-16

Similar Documents

Publication Publication Date Title
US8635458B2 (en) Method and a system for embedding textual forensic information
Kamaruddin et al. A review of text watermarking: theory, methods, and applications
JP3542678B2 (ja) 電子文書の単語間の空白部分の長さを利用した符号化および復号化方法、電子文書への署名情報の埋め込み方法、機密文書の暗号化方法
Jalil et al. Content based zero-watermarking algorithm for authentication of text documents
US5953415A (en) Fingerprinting plain text information
JP5735539B2 (ja) ネットワークを介して送信されるデータの暗号化および復号化システム、装置、および方法
Tayan et al. A hybrid digital-signature and zero-watermarking approach for authentication and protection of sensitive electronic documents
Jalil et al. Word length based zero-watermarking algorithm for tamper detection in text documents
GB2344666A (en) Embedding watermark information in an electronic document
Jalil et al. A zero-watermarking algorithm for text documents based on structural components
Khadam et al. Text data security and privacy in the internet of things: threats, challenges, and future directions
Mali et al. Implementation of text watermarking technique using natural language watermarks
Jalil et al. An invisible text watermarking algorithm using image watermark
US6738906B1 (en) Marking of electronic documents in order to expose unauthorized publication
Al-maweri et al. Robust digital text watermarking algorithm based on unicode extended characters
Singh et al. A survey on text based steganography
Kaur et al. An existential review on text watermarking techniques
Melkundi et al. A robust technique for relational database watermarking and verification
KR100602339B1 (ko) 워터마킹 컴퓨터 및 방법과, 워터마크의 존재 판단 컴퓨터 및 방법과, 데이터 저장부와, 컴퓨터 판독 가능 기록 매체
Memon et al. EVALUATION OF STEGANOGRAPHY FOR URDU/ARABIC TEXT.
Jalil et al. A novel text watermarking algorithm using image watermark
Khadim et al. An intelligent three-level digital watermarking method for document protection
JP3989577B2 (ja) デジタル文書のマーキング装置及びマーク認識装置
JP4121727B2 (ja) デジタル文書のマーク認識装置
JP3492659B2 (ja) デジタル文書のマーク認識装置及びその方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040728

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041007

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080430

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110509

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110509

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120509

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120509

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130509

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140509

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term