JP2017504858A - デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システム - Google Patents

デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システム Download PDF

Info

Publication number
JP2017504858A
JP2017504858A JP2016529737A JP2016529737A JP2017504858A JP 2017504858 A JP2017504858 A JP 2017504858A JP 2016529737 A JP2016529737 A JP 2016529737A JP 2016529737 A JP2016529737 A JP 2016529737A JP 2017504858 A JP2017504858 A JP 2017504858A
Authority
JP
Japan
Prior art keywords
information
web crawler
original
consistency
digital content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016529737A
Other languages
English (en)
Other versions
JP6169277B2 (ja
Inventor
ユ,デ−ゴル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mwstory Co Ltd
Original Assignee
Mwstory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mwstory Co Ltd filed Critical Mwstory Co Ltd
Publication of JP2017504858A publication Critical patent/JP2017504858A/ja
Application granted granted Critical
Publication of JP6169277B2 publication Critical patent/JP6169277B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Web上で配布および流通されるデジタルコンテンツの整合性可否を自動的にチェックして、著作権を保護するためのデジタルコンテンツの監視システムが開示される。そのため、本発明は、デジタルコンテンツの整合性を確保するためのデジタルコンテンツの監視システムであって、任意のWebサイトのデジタルコンテンツに掲載された投稿物情報に含まれたプラグイン情報と投稿物情報に添付された添付ファイルの情報を抽出するWebクローラ部と、抽出されたプラグイン情報と添付ファイルの情報を保存して、プラグイン情報と添付ファイルの情報のオリジナルの情報を保存する情報保存部と、情報保存部に保存された情報を呼び出した後、プラグイン情報に対比される該当するオリジナルの情報と添付ファイルの情報に対比される該当するオリジナルの情報とをそれぞれ比較して、整合性可否をチェックする整合性チェック部を含むデジタルコンテンツ監視システムが提供される。これにより、本発明は、様々な著作権侵害コンテンツを、Webクローラを用いて自動的に検出することができ、また、個々の著作権者が自分の著作物に対する著作権侵害の事例の検出を容易に依頼することができ、監視した結果物を、法的証拠として確保することができる。

Description

本発明は、デジタルコンテンツ監視システムに関するものであって、更に詳しくは、Web上で配布および流通されるデジタルコンテンツの整合性の可否を自動的にチェックし、著作権を保護するためのデジタルコンテンツ監視システムに関する。
Web上で様々なデジタルコンテンツが自由に配布および流通されることにより、デジタルコンテンツの著作物の保護および違法投稿物の監視が重要な問題となってきた。
前記デジタルコンテンツは、複製、流通、および配布が非常に容易であり、このように配布されたデジタルコンテンツは、本物と実質的に同じであるため、デジタルコンテンツによる著作権侵害は、著作権者の権益を深刻に毀損し、インターネットやSNSなどを利用した違法投稿物による個人情報の流出や、虚偽の事実公表および誹謗もまた深刻な状態に至っている。
前記デジタルコンテンツの著作権保護のための方策としては、著作物の複製、流通、配布を難しくする事前的措置と、違法に複製、流通、配布された著作物に対して検出し取り締まる事後的措置に分けられる。
前記事前的措置は、例えば複製が不可能である、または複製の回数を制限するための透かし技術などのように技術的な側面から開発されている方法として、かなりの発展をしてきた。しかし、事前的措置による方式は、制限を解除する技術の開発により、ほとんど無力化しており、さらに著作物の直接侵害に該当しない複製等についても区別をつけずに禁止してしまうという効果により、現実的に適用が不適切な場合が多い。
したがって、事後的措置として、著作権の侵害をしている行為について監視、検出および摘発が継続的に並行されなければならない。ところが、現在のデジタルコンテンツの著作物の侵害の検出は、著作権者自ら或いは著作権の委託を受けて管理する委託機関が個別にWebサイトをアクセスして検出する手作業に依存していた。
このような方式は、無数のWebサイトへの監視、検出および摘発を非常に困難にさせ、既に検出されたWebサイトでも、新たに著作権侵害の事例が追加された場合、再接続および再検出をしない限り、継続的な監視が困難になる。さらに、著作権者が小資本の個人である場合、委託機関に自分の著作物の権利保護を委託させることさえも容易ではない場合が多い。
これにより、インターネットやSNSなどを利用した違法投稿物の掲示による被害は、事前的措置が難しく、事後的措置として違法行為に対する監視、検出および摘発、証拠の確保が重要である。監視に対する正確度が重要で、監視した結果、すなわち、証拠物の整合性の確保が非常に重要となる実情に至っている。
本発明は、上述した問題点を解決するために案出されたものであって、Webサイトのデジタルコンテンツから獲得可能な様々な形式のプラグイン情報と添付ファイルの情報を抽出した後、これをオリジナルの情報と比較して整合性をチェックするためのデジタルコンテンツ監視システムを提供することにその目的がある。
前記したような本発明の目的を達成し、後述する本発明の特徴的な機能を実行するための、本発明の特徴は、以下の通りである。
本発明の一観点によれば、デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システムとして、任意のWebサイトの前記デジタルコンテンツに掲載された投稿物の情報に含まれたプラグイン情報と前記投稿物の情報に添付された添付ファイルの情報を抽出するWebクローラ部と、抽出された前記プラグイン情報と添付ファイルの情報を保存し、前記プラグイン情報と添付ファイルの情報のオリジナルの情報を保存する情報保存部と、前記情報保存部に保存された前記プラグイン情報と前記添付ファイルの情報および前記オリジナルの情報を呼び出した後、前記プラグイン情報に対比される該当するオリジナルの情報と前記添付ファイルの情報に対比される該当するオリジナルの情報をそれぞれ比較して整合性可否をチェックする整合性チェック部とを含むデジタルコンテンツ監視システムが提供される。
ここで、本発明の一観点による前記Webクローラ部は、暗号学的ハッシュアルゴリズムを利用して前記添付ファイルの情報に含まれた文書ファイルの情報を抽出する第1のWebクローラ部と、フィンガープリンティング(fingerprinting)技法を利用して前記添付ファイルの情報に含まれた音声、映像および画像情報を抽出する第2のWebクローラ部とをさらに含んでなることができる。
また、本発明の一観点による前記Webクローラ部は、抽出された前記画像情報から色と解像度を変形させた変形画像情報を抽出する第3のWebクローラ部をさらに含み、前記整合性チェック部は、抽出された前記変形画像情報と該当する前記オリジナルの情報に含まれたオリジナルの画像情報とを比較して整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、OCRエンジンを利用して抽出された前記画像情報に含まれたテキスト情報を抽出する第4のWebクローラ部をさらに含み、前記整合性チェック部は、抽出された前記テキスト情報と該当する前記オリジナルの情報に含まれたオリジナルのテキスト情報との間のデータ検索のキーワードが一致するかどうかを通して整合性をチェックすることができる。
また、本発明の一観点による前記整合性チェック部は、抽出された前記文書ファイル情報、音声およびビデオ情報と、前記オリジナル情報に含まれた該当するオリジナルの文書ファイル情報、オリジナルの音声およびオリジナルの映像情報とを比較して一致するかどうかを通して整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、前記プラグイン情報に含まれたHTMLタグのタグツリー情報(tag tree information)を抽出する第5のWebクローラ部をさらに含み、前記整合性チェック部は抽出された前記タグツリー情報と前記オリジナルの情報に含まれたオリジナルのタグツリー情報との間の暗号学的ハッシュアルゴリズムを利用したハッシュ値の比較を通して構造としてのアクセスの整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、前記プラグイン情報に含まれたHTMLファイルの情報に含まれるとともに、投稿物のタイトル、投稿物の内容、コメントの内容、コメントの数、ターゲットキーワード、登録画像および登録保存ファイルの情報を含む内容の情報を抽出する第6のWebクローラ部をさらに含み、前記整合性チェック部は、抽出された前記内容の情報と前記オリジナルの情報に含まれたオリジナルのHTML情報のオリジナルの内容の情報とを比較し、一致するかどうかを通して内容としてのアクセスの整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、暗号学的ハッシュアルゴリズムを利用して前記プラグイン情報から、Webの投稿物キー値と時間情報を含むハッシュ値の情報を抽出する第7のWebクローラ部をさらに含み、前記整合性チェック部は抽出された前記ハッシュ値の情報と該当する前記オリジナルの情報に含まれたオリジナルのハッシュ値の情報とを比較して前記時間情報に合わせて削除、および保管するかどうかの整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、前記ハッシュ値の情報を公開キーで電子署名した時間情報のハッシュ値を抽出する第8のWebクローラ部をさらに含み、前記整合性チェック部は、前記時間情報のハッシュ値と該当する前記オリジナルの情報に含まれたオリジナルの電子署名値とを比較して、暗号化の整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、オリジナルのジャバスクリプトコードを前記HTML情報に追加して実行した後、リターン結果の情報の提供を受ける第9のWebクローラ部をさらに含み、前記整合性チェック部は前記リターン結果の情報を前記オリジナルの情報の正常ジャバスクリプト情報と比較して整合性をチェックすることができる。
また、本発明の一観点による前記Webクローラ部は、前記プラグイン情報からXML情報をさらに抽出する第10のWebクローラ部をさらに含み、前記整合性チェック部は、前記XML情報を前記ハッシュ値の情報、時間情報のハッシュ値および内容の情報のうち少なくとも一つ以上を組み合わせて整合性をチェックするとともに、証拠物として確保することができる。
また、本発明の一観点による前記Webクローラ部は、PC用Webまたはスマートフォン用Webのうち、いずれかと連動して、前記プラグイン情報と添付ファイルの情報を抽出することができる。
以上のように、本発明によれば、Web上に存在する様々な著作権侵害コンテンツを、Webクローラを用いて自動的に検出することができ、また、個々の著作権者が自分の著作物に対する著作権侵害の事例の検出を容易に依頼することができる効果がある。
また、本発明によれば、インターネットやSNSなどを利用した違法投稿物の投稿監視、検出および摘発と証拠物の確保が可能であり、監視した結果物の整合性の確保が可能で、監視した結果物を、法的証拠資料として活用可能な効果がある。
また、本発明によれば、デジタルコンテンツで提供されるすべての情報について整合性チェックを実行することにより、デジタルコンテンツのデータの正確度を高め、重複ダウンロードを防止することができる付随的な効果をさらに得ることができる。
本発明の一実施形態によるデジタルコンテンツの監視システム100を例示的に示す図である。 本発明の一実施形態によるWebクローラ部110の構成をより詳細に示す図である。 本発明の一実施例による画像情報の整合性チェックを例示的に示す図である。 本発明の一実施形態によるタグツリー情報の構造を示す図である。 本発明の一実施形態によるタグツリー情報の構造を示す図である。 本発明の一実施形態による、ジャバスクリプトコードを挿入して、HTMLファイルを呼び出した状態を示す図である。 本発明の一実施形態によるスマートフォンからWebクローラ部を利用してデジタルコンテンツの投稿物の情報をクロールした状態を示す図である。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の好ましい実施形態に関して添付された図面を参照して詳細に説明する。図面において類似する参照符号は、いくつかの側面に亘って同一または類似する機能を指す。
図1は、本発明の一実施形態によるデジタルコンテンツの監視システム100を例示的に示す図である。
図1に示すように、本発明の一実施形態によるデジタルコンテンツの監視システム100は、デジタルコンテンツに対する整合性を確保するために、Webクローラ部110、情報保存部120および整合性チェック部130を含んでなる。
まず、本発明に係るWebクローラ部110は、任意のWebサイトのデジタルコンテンツに掲載された投稿物の情報に含まれたプラグイン情報を抽出する。この時、抽出されたプラグイン情報は、Webサイトの投稿物の情報をコーディングしたHTML、スクリプト、CSS、フラッシュ(flash)およびシルバーライト(silverlight)情報を含む。
合わせて、本発明に係るWebクローラ部110は、Web上の投稿物の情報に添付された添付ファイルの情報を抽出する。この時、抽出された添付ファイルは、音声情報、映像情報、文書情報および画像情報を含む。
次に、本発明に係る情報保存部120は、Webクローラ部110によって抽出されたプラグイン情報と添付ファイルの情報を保存する。しかし、プラグイン情報と添付ファイルの情報を保存する前に先立って、プラグイン情報と添付ファイルの情報と関連したオリジナルに該当するオリジナルの情報を保存する。これらのオリジナルの情報は、Web上に掲載されているすべての投稿物の情報を事前に保存した状態を意味する。
最後に、本発明に係る整合性チェック部130は、情報保存部120に保存された情報の中で、Web上に公開された情報と予め保存されたオリジナルの情報を呼び出した後、プラグイン情報に対比される該当するオリジナルの情報と添付ファイルの情報に対比される該当するオリジナルの情報とをそれぞれ比較して整合性可否をチェックする。
このとき、プラグイン情報に含まれたHTML、スクリプト、CSS、フラッシュ(flash)およびシルバーライト(silverlight)情報ごとにそれぞれ異なる方式の抽出技法を利用して、オリジナルの情報と比較し、また添付ファイルの情報に含まれた音声情報、映像情報、文書情報および画像情報ごとにそれぞれ異なる方式の抽出技法を利用して、オリジナルの情報と比較して整合性可否をチェックするようになる。
ここで、整合性可否のチェックは、データの正確性、例えばデータの削除、修正、および変形を含む、より広い概念として定義される。したがって、プラグイン情報に対比される該当するオリジナル情報と、添付ファイルの情報に対比される該当するオリジナル情報との間の整合性チェックは、データの変形、削除、修正のように、正常のオリジナルのデータとは異ならして変わったすべてのデータの検査を意味する。
以下では、プラグイン情報に対比される該当するオリジナルの情報と、添付ファイルの情報に対比される該当するオリジナルの情報との間の整合性のチェックをより詳細に説明する。
図2は、本発明の一実施形態に係るWebクローラ部110の構成をより詳細に示す図である。
図2に示すように、本発明に係るWebクローラ部110は、それぞれ異なる整合性チェックのために、第1のWebクローラ部111ないし第10のWebクローラ部110aを含んで構成される。
まず、本発明に係る第1のWebクローラ部111は、暗号学的ハッシュアルゴリズムを利用して、添付ファイルの情報に含まれた文書ファイルの情報を抽出する。その次に、本発明に係る整合性チェック部130は、第1のWebクローラ部111によって抽出された文書ファイルの情報と、オリジナルの情報に含まれた該当するオリジナルの文書ファイル情報とが一致するかどうかを比較して整合性をチェックする。
より具体的には、暗号学的ハッシュアルゴリズムを利用するため、文書ファイルの情報からハッシュ値を第1のWebクローラ部111から抽出することができるようになり、これにより、本発明に係る整合性チェック部130は、第1のWebクローラ部111から抽出されたハッシュ値の提供を受け、前記ハッシュ値と既に保存されたオリジナルの文書ファイルの情報に書き込まれたハッシュ値とを比較し、一致するかどうかを確認することにより、整合性のチェックが行われることができる。
次に、本発明に係る第2のWebクローラ部112は、フィンガープリンティング(fingerprinting)技法を利用して、添付ファイルの情報に含まれた音声、映像および画像情報を抽出する。これらの抽出に関与するフィンガープリンティング(fingerprinting)技法は、人間の感知能力では検出することができないように、ユーザーの情報をデジタルコンテンツの投稿物の情報の中に挿入する技術を意味する。
このように、添付ファイルの情報に含まれた音声、映像および画像情報を抽出すると、本発明に係る第3のWebクローラ部113は、第2のWebクローラ部112によって抽出された既画像情報から色と解像度を変形させた変形画像情報を抽出するようになる。
例えば、情報保存部120に登録されたスクリーンショットイメージと比較するために、第2のWebクローラ部112が抽出された画像情報をカラー−>白黒、または白黒−>カラーで第3のWebクローラ部113で変形して、解像度を第3のWebクローラ部113で調節して画像情報を変形させる。
これにより、本発明に係る整合性チェック部130は、第3のWebクローラ部113によって抽出された変形画像情報と該当するオリジナル情報に含まれたオリジナルの画像情報(スクリーンショット画像情報)を比較して類似度に関する整合性をチェックすることができるようになる。このような変形画像情報と、オリジナルの画像情報(スクリーンショット画像情報)との間の整合性チェックに関する例は、図3のように示す。
しかし、前記のような整合性チェックのための変形画像とオリジナルの画像との間の類似度の比較に限定されず、抽出された変形されていない画像情報とオリジナルの画像との間の類似度を比較して整合性のチェックが行われることもできる。このとき、類似度は、画像に描かれた各対象物の大きさ、色、およびテキストデータのサイズなどがこれに該当することができる。
次に、本発明に係る第4のWebクローラ部114は、OCRエンジンを利用して、第2のWebクローラ部112によって抽出された画像情報に含まれたテキスト情報を抽出する。前記OCRエンジンは、画像情報をテキスト情報に変換するための技法であって、本実施例では、画像情報に含まれたテキスト情報を抽出するために使用される。
これにより、本発明に係る整合性チェック部130は、第4のWebクローラ部114によって抽出されたテキスト情報の提供を受け、前記テキスト情報と該当するオリジナルの情報に含まれたオリジナルのテキスト情報との間の検索キーワードが一致するかどうかを通して整合性をチェックすることになる。
次に、本発明に係る第5のWebクローラ部115は、情報保存部120に保存されたプラグイン情報の提供を受け、前記のプラグイン情報に含まれたHTMLタグのタグツリー情報(tag tree information)を抽出する。
例えば、図4に示すように、HTMLタグに含まれた様々な形態の文法タグ、例えば、<A><A−1></A−1></A>、<A−1><A−1−1><A−1−2><A−2>のように<HTML TAG>と</HTML TAG>の全てを含むタグツリー情報を抽出する。これらのタグツリー情報は、前述した情報の保存部120に保存されることはもちろんである。
これにより、本発明に係る整合性チェック部130は、第5のWebクローラ部115によって抽出されたタグツリー情報と情報保存部120に保存されたオリジナルの情報を読み込んでオリジナルの情報のオリジナルタグツリー情報との間の暗号学的ハッシュアルゴリズムを利用したハッシュ値の比較を通して構造的アクセスと関連した整合性をチェックすることになる。
このとき、ハッシュアルゴリズムを利用すると、タグツリー情報がツリー構造形式で保存されたテキストデータからハッシュ値を得ることができるようになる。したがって、前述したようにタグツリー情報のハッシュ値と該当するオリジナルのタグツリー情報のハッシュ値とを比較してHTML TAG構造(文法)と呼ばれる構造的アクセスの観点から整合性をチェックすることができるようになる。
しかし、これに限定されず、検索速度の向上のために、図5に示すように、頻繁に変更されるHTMLの<Script>、<style>、<meta>および<link>の部分だけをさらに抽出し、これに関連するハッシュ値とオリジナルの情報に含まれた該当する文法構造のハッシュ値とを比較し、HTML TAG構造(文法)と呼ばれる構造的アクセスの観点から整合性をさらにチェックすることができることはもちろんである。
次に、本発明に係る第6のWebクローラ部116は、情報保存部120に保存されたプラグイン情報に含まれたHTMLファイルの情報の提供を受け、前記のHTMLファイルの情報に含まれた内容の情報を抽出する。この時、抽出された内容の情報には、投稿物のタイトル、投稿物の内容、コメントの内容、コメント数、ターゲットキーワード、登録画像および登録ファイルの保存情報が含まれている。
このように抽出される投稿物のタイトル、投稿物の内容、コメントの内容、コメント数、ターゲットキーワード、登録画像および登録保存ファイルの情報は、最終的にHTMLファイル情報のタグ内に書き込みされた投稿物の情報を意味する。
これにより、本発明に係る整合性チェック部130は、第6のWebクローラ部116によって抽出された内容の情報とオリジナルの情報に含まれたオリジナルのHTML情報のテキストの内容の情報とを比較し、一致するかどうかを通して内容的なアクセスと関連した整合性をチェックするものである。
この時、内容的なアクセスとは、HTML情報のタグ形式の中に書き込みされた内容の情報間を比較して一致するかどうかを通して内容の情報間の整合性のチェックが行われるため、それに合ったアクセス形式を意味するものとして記載した。
次に、本発明に係る第7のWebクローラ部117は、情報保存部120に保存されたプラグイン情報の提供を受けた後、暗号学的ハッシュアルゴリズムを利用して前記プラグイン情報から、Web投稿物キー値と時間情報を含むハッシュ値の情報を抽出する。最終的には、暗号学的ハッシュアルゴリズムを利用すると、プラグイン情報から、Web投稿物キー値と時間情報と関連したハッシュ値を獲得することができるようになる。
これにより、本発明に係る整合性チェック部130は、第7のWebクローラ部117によって抽出されたハッシュ値の情報と該当するオリジナルの情報に含まれたオリジナルのハッシュ値の情報とを比較して、時間情報に合わせて削除、および保管するかどうかと関連した整合性をチェックするようになる。
例えば、時間情報が削除期間(例えば、5年、6ヶ月など)と保管期間(例えば、5年、6ヶ月など)である場合、前記削除期間および/または保管期間に合わせてハッシュ値の情報とオリジナルのハッシュ値の情報とを比較し、一致する場合、該当する削除期間に合わせて削除を整合性チェック部130で実行して、異なる場合、該当する保管期間に合わせて保管を整合性チェック部130で実行することにより、整合性のチェックがなされるようになる。
次に、本発明に係る第8のWebクローラ部118は、第7のWebクローラ部117によって抽出されたハッシュ値の情報の提供を受け、前記ハッシュ値の情報を公開キーで電子署名した時間情報のハッシュ値の情報を抽出する。
この時、公開キーで電子署名された時間情報のハッシュ値を抽出するためには、公開キー認証サーバ200をさらに含む場合、前記公開キー認証サーバと第8のWebクローラ部118との間のデータの共有を通して時間情報のハッシュ値の情報を抽出することが好ましい。
これにより、本発明に係る整合性チェック部130は、第8のWebクローラ部118によって抽出された時間情報のハッシュ値の情報と該当するオリジナル情報に含まれたオリジナルの電子署名値とを比較して、時間情報に合わせて削除および保管するかどうかと関連した整合性をチェックすることになる。
例えば、時間情報が削除期間(例えば、5年、6ヶ月など)と保管期間(例えば、5年、6ヶ月など)である場合、前記削除期間および/または保管期間に合わせて時間情報のハッシュ値の情報とオリジナルの電子署名値(オリジナルの時間情報のハッシュ値)とを比較し、一致する場合、該当する暗号化と関連した整合性のチェックを整合性チェック部130で実行して保存し、異なる場合、暗号化していない整合性のチェックを整合性チェック部130で実行して保存しない。
一方、前記オリジナルの電子署名値は、予め公開キー認証サーバ200間の認証を通して獲得した電子署名値であるのはもちろんである。このように、本実施例では、暗号学的ハッシュ関数を利用して時間情報+時間情報のハッシュ値+時間情報の署名値を獲得するようになり、これをオリジナルに該当する値と比較することにより、暗号化と関連した整合性チェックが行われることができるようになる。
次に、本発明に係る第9のWebクローラ部119は、情報保存部120に保存された該当するHTML情報の提供を受けた後、HTML情報に加え、該当するオリジナルのジャバスクリプトを挿入して、リターン結果が提供される。このとき、オリジナルのジャバスクリプトコードは、オリジナルのHTML情報から獲得した情報を意味する。
これにより、本発明に係る整合性チェック部130は、第9のWebクローラ部119によってリターン結果の情報の提供を受け、前記のリターン結果の情報をオリジナルの情報の正常ジャバスクリプトの情報と比較して、一致するかどうかを通して整合性をチェックするようになる。
言い換えれば、URLに該当されたHTMLファイルの中に正常の機能(任意の機能)を実行するジャバスクリプトコード(javascript code)を挿入して、HTMLファイルを第9のWebクローラ部119から呼び出す。これで、HTMLファイルが正常であるかどうかを確認することにより、整合性チェックが行われるようになる。このようにジャバスクリプトコードを挿入して、HTMLファイルの呼び出し状態を図6に示した。図6に図示された青色は、ジャバスクリプトコードを挿入して、HTMLファイルを呼び出した全範囲を示す結果であり、赤色は呼び出されるWebブラウザの範囲を示す結果を意味する。
最後に、本発明に係る第10のWebクローラ部110aは、情報保存部120に保存されたプラグイン情報の提供を受けた後、前記のプラグイン情報からXML情報を抽出する。この時、抽出されるXML情報は、該当するHTML情報を使うための言語を指す情報であるため、HTML情報を解析すると、前記のXML情報を十分に抽出することができる。
これにより、本発明に係る整合性チェック部130は、第10のWebクローラ部110aによって抽出されたXML情報を、前述した第7のWebクローラ部117ないし第9のWebクローラ部119によって抽出されたハッシュ値の情報、時間情報のハッシュ値および内容の情報のうち少なくとも一つ以上を組み合わせて整合性をチェックするとともに、証拠物として確保する役割をする。
このとき、ハッシュ値の情報、時間情報のハッシュ値および内容の情報を通した整合性チェックは、前述したように、当然行われるものであり、これに合わせて、該当する情報の証拠物を確保するためにXML情報をさらに抽出してハッシュ値の情報、時間情報のハッシュ値および内容の情報のうち少なくとも一つ以上を組み合わせることで、証拠物の確保が行われることができる。
例えば、一つのWebの投稿物の場合には、ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+htmlテキストの内容+時間情報+時間情報のハッシュ値+その他の情報をXMLファイルと組み合わせることにより、著作権侵害の証拠物の確保がなされたり、ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+htmlテキストの内容+時間情報+時間情報のハッシュ値+時間情報の署名値+その他の情報をXMLファイルと組み合わせることにより、著作権侵害の証拠物の確保が行われることができるようになる。
これに対し、二つ以上のXMLファイルを抽出すると、次のようなデータの組み合わせが行われることができる。つまり、Index番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+HTMLテキストの内容+時間情報+時間情報のハッシュ値+その他の情報またはIndex番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+HTMLテキストの内容+時間情報+時間情報のハッシュ値+時間情報の署名値+その他の情報をさらに組み合わせることができ、または二番目のIndex番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+HTMLテキストの内容+時間情報+時間情報のハッシュ値+その他の情報をさらに組み合わせることができる。
または二番目のIndex+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+HTMLテキストの内容+時間情報+時間情報のハッシュ値+時間情報の署名値+その他の情報をさらに組み合わせることもできる。
一方、証拠物のファイルを構成するためには、下記の(1)または(2)または(3)の方法を使用することもできる。すなわち、(1)XMLファイル+Hash(全体のXMLファイル)の組み合わせを通して、単純にXMLファイルの整合性を確保。(2)XMLファイル+Hash(全体のXMLファイル)+Sign(Hash(全体のXMLファイル))withサーバの個人キーの組み合わせを通したXMLファイルの整合性とともにサーバの個人キーで署名することにより、否認防止と関連した整合性の確保。(3)XMLファイル+Hash(全体のXMLファイル)+Sign(Hash(全体のXMLファイル))withサーバの個人キー+Sign(Sign(Hash(XMLファイル))withサーバの個人キー)with伝達者の個人キーの組み合わせを通したXMLファイルの整合性とサーバの個人キーで署名することにより、否認防止機能とともに伝達者の個人キーで署名することにより、伝達者の否認防止に関する整合性の確保。
前記のような証拠物のファイルを構成するための別の例として、下記の(4)ないし(7)の方法をさらに使用することもできる。つまり、(4)XMLファイルに1番のWeb投稿物の証拠物と2番のWeb投稿物の証拠物があるとき、1番のWeb投稿物の情報を下記のようにハッシュする。Hasheddata1=Hash(Index番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+htmlテキストの内容+時間情報+時間情報のハッシュ値+その他の情報)としてハッシュする。またはHash(Index番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+htmlテキストの内容+時間情報+時間情報のハッシュ値+時間情報の署名値+その他の情報)をハッシュする。
そして、2番目の投稿物情報(Web投稿物)につきましては、Hash(Hasheddata1+2番目のIndex番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+HTMLテキストの内容+時間情報+時間情報のハッシュ値+その他の情報)としてハッシュする。またはHash(Hasheddata1+2番目のIndex番号+ContentID(Web投稿物のキー値)+URL(Web投稿物があったURL)+capturedimage(収集当時のスクリーンショット)+htmlテキストの内容+時間情報+時間情報のハッシュ値+時間情報の署名値+その他の情報)をハッシュする方法である。
(5)XMLファイル+前記のハッシュ方法のハッシュ値の組み合わせを通して、XMLファイルの整合性と順序に対する整合性を同時に確保。(6)前記のXMLファイル+前記のハッシュ方法のハッシュ値+Sign(前記のハッシュ方法のハッシュ値)withサーバの個人キーの組み合わせを通してXMLファイルの整合性と順序の整合性とサーバの個人キーで署名することにより、否認防止と関連した整合性の確保。(7)XMLファイル+前記のハッシュ方法のハッシュ値+Sign(前記のハッシュ方法のハッシュ値)withサーバの個人キー+Sign(Sign(Hash(XMLファイル))withサーバの個人キー)with伝達者の個人キーの組み合わせを使用して、XMLファイルの整合性と順序の整合性とサーバの個人キーで署名することにより、否認防止機能とともに伝達者の個人キーで署名することにより、伝達者の否認防止に関する整合性の確保。
以上のように、証拠物確保のための様々な組み合わせがなされることにより、著作権の侵害から著作権を保護することができるようになる。
一方、前述したように図1および図2を通して説明したWebクローラ部110は、PC用Webまたはスマートフォン用Webのいずれかと連動される。
つまり、前記のように説明されているWebクローラ部110、情報保存部120および整合性チェック部130は、PCのWebと連動して、各機能が実行されているものと説明したが、これに限定されず、スマートフォンで具現されたデジタルコンテンツに対して、前述した様々な整合性チェックが行われることもできる。前記スマートフォンでWebクローラ部を利用してデジタルコンテンツの投稿物の情報をクロールした状態を一例として図7に示す。
このように、有線網と無線インターネット網が連結され、様々な端末機やパーソナルコンピュータであれば、前記のような構成が具現されて、該当する機能を実行することができることはもちろんである。
以上のように、添付された図面を参照して、本発明の実施例を説明したが、本発明が属する技術分野で通常の知識を有する者は、本発明の技術的思想や必須の特徴を変更せずに、もう一つの具体的な形態で実施することができることを理解することができる。したがって、以上で記述した実施形態は、すべての面で例示的なものであり、限定的ではないのである。
100: デジタルコンテンツ監視システム
110: Webクローラ部
111: 第1のWebクローラ部
112: 第2のWebクローラ部
113: 第3のWebクローラ部
114: 第4のWebクローラ部
115: 第5のWebクローラ部
116: 第6のWebクローラ部
117: 第7のWebクローラ部
118: 第8のWebクローラ部
119: 第9のWebクローラ部
110a:第10のWebクローラ部
120: 情報保存部
130: 整合性チェック部
200: 公開キー認証サーバ

Claims (12)

  1. デジタルコンテンツの整合性を確保するためのデジタルコンテンツの監視システムであって、
    任意のWebサイトの前記デジタルコンテンツに掲載された投稿物の情報に含まれたプラグイン情報と前記投稿物の情報に添付された添付ファイルの情報を抽出するWebクローラ部と、
    抽出された前記プラグイン情報と添付ファイルの情報を保存し、前記プラグイン情報と添付ファイルの情報のオリジナルの情報を保存する情報保存部と、
    前記情報保存部に保存された前記プラグイン情報と前記添付ファイルの情報、および前記オリジナルの情報を呼び出した後、前記プラグイン情報に対比される該当するオリジナルの情報と前記添付ファイルの情報に対比される該当するオリジナルの情報をそれぞれ比較して整合性可否をチェックする整合性チェック部とを含むことを特徴とするデジタルコンテンツ監視システム。
  2. 前記Webクローラ部は、
    暗号学的ハッシュアルゴリズムを利用して前記添付ファイルの情報に含まれた文書ファイルの情報を抽出する第1のWebクローラ部と、
    フィンガープリンティング技法を利用して前記添付ファイルの情報に含まれた音声、映像および画像情報を抽出する第2のWebクローラ部と
    をさらに含むことを特徴とする請求項1に記載のデジタルコンテンツ監視システム。
  3. 前記Webクローラ部は、
    抽出された前記画像情報から色と解像度を変形させた変形画像情報を抽出する第3のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    抽出された前記変形画像情報と、該当する前記オリジナルの情報に含まれたオリジナルの画像情報とを比較して整合性をチェックすることを特徴とする請求項2に記載のデジタルコンテンツ監視システム。
  4. 前記Webクローラ部は、
    OCRエンジンを利用して抽出された前記画像情報に含まれたテキスト情報を抽出する第4のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    抽出された前記テキスト情報と該当する前記オリジナルの情報に含まれたオリジナルのテキスト情報との間の検索キーワードが一致するかどうかを通して整合性をチェックすることを特徴とする請求項2に記載のデジタルコンテンツ監視システム。
  5. 前記整合性チェック部は、
    抽出された前記文書ファイルの情報、音声および映像の情報と、前記オリジナルの情報に含まれた該当するオリジナルの文書ファイル情報、オリジナルの音声およびオリジナルの映像情報とを比較して一致するかどうかを通して整合性をチェックすることを特徴とする請求項2に記載のデジタルコンテンツ監視システム。
  6. 前記Webクローラ部は、
    前記プラグイン情報に含まれたHTMLタグのタグツリー情報を抽出する第5のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    抽出された前記タグツリー情報と前記オリジナルの情報に含まれたオリジナルのタグツリー情報との間の暗号学的ハッシュアルゴリズムを利用したハッシュ値の比較を通して構造的アクセスと関連した整合性をチェックすることを特徴とする請求項1に記載のデジタルコンテンツ監視システム。
  7. 前記Webクローラ部は、
    前記プラグイン情報に含まれたHTMLファイルの情報に含まれるとともに、投稿物のタイトル、投稿物の内容、コメントの内容、コメント数、ターゲットキーワード、登録画像および登録保存ファイルの情報を含む内容の情報を抽出する第6のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    抽出された前記内容の情報と前記オリジナルの情報に含まれたオリジナルのHTML情報のオリジナルの内容の情報とを比較し、一致するかどうかを通して内容的なアクセスと関連した整合性をチェックすることを特徴とする請求項1に記載のデジタルコンテンツ監視システム。
  8. 前記Webクローラ部は、
    暗号学的ハッシュアルゴリズムを利用して前記プラグイン情報から、Web投稿物キー値と時間情報を含むハッシュ値の情報を抽出する第7のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    抽出された前記ハッシュ値の情報と該当する前記オリジナルの情報に含まれたオリジナルのハッシュ値の情報とを比較して前記時間情報に合わせて削除、および保管するかどうかと関連した整合性をチェックすることを特徴とする請求項7に記載のデジタルコンテンツ監視システム。
  9. 前記Webクローラ部は、
    前記ハッシュ値の情報を公開キーで電子署名した時間情報のハッシュ値を抽出する第8のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    前記時間情報のハッシュ値と該当する前記オリジナルの情報に含まれたオリジナルの電子署名値とを比較して、暗号化と関連した整合性をチェックすることを特徴とする請求項8に記載のデジタルコンテンツ監視システム。
  10. 前記Webクローラ部は、
    オリジナルのジャバスクリプトを前記HTML情報に追加して実行した後、リターン結果の情報の提供を受ける第9のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    前記リターン結果の情報を前記オリジナルの情報の正常ジャバスクリプトの情報と比較して整合性をチェックすることを特徴とする請求項7に記載のデジタルコンテンツ監視システム。
  11. 前記Webクローラ部は、
    前記プラグイン情報からXML情報をさらに抽出する第10のWebクローラ部をさらに含み、
    前記整合性チェック部は、
    前記XML情報を前記ハッシュ値の情報、時間情報のハッシュ値および内容の情報のうち少なくとも一つ以上を組み合わせて整合性をチェックするとともに、証拠物として確保することを特徴とする請求項7ないし請求項10記載のいずれかの項に記載のデジタルコンテンツ監視システム。
  12. 前記Webクローラ部は、
    PC用Webまたはスマートフォン用Webのいずれかと連動して、前記プラグイン情報と添付ファイルの情報を抽出することを特徴とする請求項1に記載のデジタルコンテンツ監視システム。
JP2016529737A 2014-02-14 2015-01-02 デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システム Active JP6169277B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020140017375A KR101560716B1 (ko) 2014-02-14 2014-02-14 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템
KR10-2014-0017375 2014-02-14
PCT/KR2015/000029 WO2015122620A1 (ko) 2014-02-14 2015-01-02 디지털콘텐츠의 무결성 보장을 위한 디지털 콘텐츠 모니터링 시스템

Publications (2)

Publication Number Publication Date
JP2017504858A true JP2017504858A (ja) 2017-02-09
JP6169277B2 JP6169277B2 (ja) 2017-07-26

Family

ID=53800320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016529737A Active JP6169277B2 (ja) 2014-02-14 2015-01-02 デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システム

Country Status (3)

Country Link
JP (1) JP6169277B2 (ja)
KR (1) KR101560716B1 (ja)
WO (1) WO2015122620A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107172003B (zh) * 2016-03-08 2020-08-04 创新先进技术有限公司 一种发布信息的处理方法、装置及信息发布系统
WO2020101479A1 (en) * 2018-11-14 2020-05-22 Mimos Berhad System and method to detect and generate relevant content from uniform resource locator (url)
CN110569088A (zh) * 2019-09-09 2019-12-13 五八有限公司 客户端插件管理方法、装置、电子设备及存储介质
US11403369B2 (en) 2020-01-21 2022-08-02 Disney Enterprises, Inc. Secure content processing pipeline
US11425120B2 (en) * 2020-02-11 2022-08-23 Disney Enterprises, Inc. Systems for authenticating digital contents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242656A (ja) * 1998-02-24 1999-09-07 Fujitsu Ltd ネットワークにおけるディジタルデータの著作権検査装置及び著作権検査方法並びに著作権検査プログラムを記録した媒体
JP2000215238A (ja) * 1999-01-21 2000-08-04 Hitachi Ltd 不正著作物検出方法
JP2004258729A (ja) * 2003-02-24 2004-09-16 Casio Comput Co Ltd 画像探索システムおよびプログラム
JP2010522383A (ja) * 2007-03-23 2010-07-01 ベイティーエスピー, インコーポレイテッド デジタルコンテンツを確認するためのシステムおよび方法
KR20130093230A (ko) * 2012-02-14 2013-08-22 (주)엠더블유스토리 웹상에서의 저작권 침해 컨텐츠에 대한 검출 및 관리 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020032906A (ko) * 2000-10-28 2002-05-04 김지한, 김재형 인터넷상에서의 저작권 보호 및 침해방지 시스템 및 방법
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
KR100833129B1 (ko) * 2005-09-30 2008-05-28 포스데이타 주식회사 온라인망을 기반으로 하는 저작물 통합 관리 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242656A (ja) * 1998-02-24 1999-09-07 Fujitsu Ltd ネットワークにおけるディジタルデータの著作権検査装置及び著作権検査方法並びに著作権検査プログラムを記録した媒体
JP2000215238A (ja) * 1999-01-21 2000-08-04 Hitachi Ltd 不正著作物検出方法
JP2004258729A (ja) * 2003-02-24 2004-09-16 Casio Comput Co Ltd 画像探索システムおよびプログラム
JP2010522383A (ja) * 2007-03-23 2010-07-01 ベイティーエスピー, インコーポレイテッド デジタルコンテンツを確認するためのシステムおよび方法
KR20130093230A (ko) * 2012-02-14 2013-08-22 (주)엠더블유스토리 웹상에서의 저작권 침해 컨텐츠에 대한 검출 및 관리 시스템

Also Published As

Publication number Publication date
JP6169277B2 (ja) 2017-07-26
KR20150096211A (ko) 2015-08-24
WO2015122620A1 (ko) 2015-08-20
KR101560716B1 (ko) 2015-10-16

Similar Documents

Publication Publication Date Title
JP6169277B2 (ja) デジタルコンテンツの整合性を確保するためのデジタルコンテンツ監視システム
Sun et al. DroidEagle: Seamless detection of visually similar Android apps
Neyaz et al. Security, privacy and steganographic analysis of FaceApp and TikTok
CN103179095B (zh) 一种检测钓鱼网站的方法及客户端装置
Mullan et al. Forensic source identification using JPEG image headers: The case of smartphones
US20160065613A1 (en) System and method for detecting malicious code based on web
US20150178476A1 (en) System and method of monitoring font usage
KR101627398B1 (ko) 내용기반의 검색엔진을 이용한 개인 콘텐츠 저작권 관리 시스템 및 방법
US20130227640A1 (en) Method and apparatus for website scanning
CN105959324A (zh) 基于正则匹配的网络攻击检测方法及装置
JP2013543178A (ja) 出版物のフィンガープリント抽出方法、出版物のフィンガープリント抽出装置、フィンガープリントを利用した出版物識別システム及びフィンガープリントを利用した出版物識別方法
CN103312692B (zh) 链接地址安全性检测方法及装置
CN110457434B (zh) 基于搜索的网页取证方法、装置、可读存储介质及服务器
Wu et al. TrackerDetector: A system to detect third-party trackers through machine learning
Bird et al. Actions speak louder than words: Semi-supervised learning for browser fingerprinting detection
KR20120064548A (ko) 디지털 콘텐츠에 대한 저작권 보호 장치 및 방법
Adhatarao et al. Exploitation and sanitization of hidden data in pdf files: Do security agencies sanitize their pdf files?
Duman et al. Trueclick: Automatically distinguishing trick banners from genuine download links
CN103390121B (zh) 数字作品权属认证方法和系统
US20220027342A1 (en) Methods for providing and checking data provenance
Martín et al. Clonespot: Fast detection of android repackages
Amoruso et al. A web infrastructure for certifying multimedia news content for fake news defense
Maji et al. Image tampering issues in social media with proper detection
CN110213220B (zh) 检测流量数据的方法、装置、电子设备及计算机存储介质
Chee Steganographic techniques on social media: Investigation guidelines

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170627

R150 Certificate of patent or registration of utility model

Ref document number: 6169277

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250