JP2004110151A - Apparatus, program, and method for searching unauthorized utilization of content - Google Patents

Apparatus, program, and method for searching unauthorized utilization of content Download PDF

Info

Publication number
JP2004110151A
JP2004110151A JP2002268632A JP2002268632A JP2004110151A JP 2004110151 A JP2004110151 A JP 2004110151A JP 2002268632 A JP2002268632 A JP 2002268632A JP 2002268632 A JP2002268632 A JP 2002268632A JP 2004110151 A JP2004110151 A JP 2004110151A
Authority
JP
Japan
Prior art keywords
content
unit
priority
address information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002268632A
Other languages
Japanese (ja)
Inventor
Takeya Fujii
藤井 毅也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2002268632A priority Critical patent/JP2004110151A/en
Publication of JP2004110151A publication Critical patent/JP2004110151A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To reduce time required for collection of content and sensing check of a digital watermark in searching unauthorized utilization of contents. <P>SOLUTION: An apparatus for searching unauthorized utilization of contents comprises; a text analysis section which analyzes link information included in text information described in a hierarchy specified by address information; a search target content check section which detects an identifier embedded in the collected contents concerned by a digital watermark, and determines whether or not unauthorized utilization of the content concerned is carried out; and a priority setting section which sets based on an inputted keyword, an order of priority to the link information analyzed by the text analysis section which analyzes the link information included in collected text information. The priority setting section sets an order of priority for searching to a low order hierarchy based on either of a plus keyword which is included in a keyword and raises the order of priority or a minus keyword which is included in the keyword and lowers the order of priority, or based on both of them. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、例えば著作権情報等の不正利用を防止するための情報が電子透かし情報として埋め込まれたコンテンツを探索し、埋め込まれた情報に基づいてコンテンツが不正利用されているものかどうかを判定するコンテンツ不正利用探索装置、コンテンツ不正利用探索プログラム、コンテンツ不正利用探索方法に関し、特に、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することを可能にする技術に係わる。
【0002】
【従来の技術】
近年、コンテンツの著作権を保護する目的として、コンテンツの著作権情報を電子透かし等でコンテンツに埋め込む技術が精力的に研究されており、様々な情報の埋め込み方式が現在までに提案されている。例えば、MPEG符号、とりわけDCT係数、動きベクトル、量子化特性を変更することによる、情報の埋め込み方式が提案されている(例えば、非特許文献1参照)。また、直接拡散方式に従って、PN系列で画像信号を拡散し、画像に署名情報を合成する方式が提案されている(例えば、非特許文献2参照)。
【0003】
このようなコンテンツへの情報の埋め込み方式に関する研究に伴い、最近では、コンテンツの不正利用を判定するための様々なシステムが提供されるようになっており、例えば、電子透かしを利用して購入者情報を予めコンテンツに埋め込んでおき、不正利用と思われるコンテンツに埋め込まれている情報を読み出してコンテンツが不正利用されているものかどうかを判定するシステムが提案されている。このようなシステムでは、不正利用と思われるコンテンツを探索、入手することが必要となるために、ウェブ上のコンテンツを収集するコンピュータプログラムである「ウェブロボット」を利用して収集したコンテンツの電子透かし情報のチェックを行う。このウェブロボットは、世界中のウェブサイトを常時巡回し、画像等のコンテンツが不正利用されていないかどうかを監視するものであり、監視の結果、コンテンツが不正利用されていると判断した場合には、ウェブロボットはコンテンツの不正利用を行っているウェブサイトに対し何らかの通告を行う。
【0004】
また、入力されたキーワード又はコンテンツの指定情報に応じて収集する調査対象パターンを決定し、決定した調査対象パターンに応じてネットワークを介して調査対象コンテンツを収集し、収集した調査対象コンテンツが不正利用であるかどうかを判定する技術が開示されている(例えば、特許文献1参照)。
【0005】
【特許文献1】
特開平2001−76000号公報
【非特許文献1】
日本電信電話株式会社,”DCTを用いたデジタル動画像における著作権情報埋め込み方式”,電子情報通信学会1997年暗号と情報セキュリティシンポジウム,SCIS ’97−31G
【非特許文献2】
防衛大学校,”PN系列による画像への透かし署名法”,電子情報通信学会1997年暗号と情報セキュリティシンポジウム,SCIS ’97_26B
【0006】
【発明が解決しようとする課題】
しかしながら、上記のようなコンテンツの不正利用を判定するためのシステムでは、インターネット上の全てのコンテンツが調査対象となるために、コンテンツの収集や電子透かしのチェックが完了するまでに膨大な時間を要し、コンテンツを効率的に探索することができない。特に、インターネットのような開放系のネットワークは特定の団体により管理されるものではないために、悪意を持った人間が容易に管理者となり、コンテンツの内容やリンク構造を動的に差し替えることができることを考えると、このような状況は早急に解決すべきである。
【0007】
なお、特開平2001−76000号公報に開示さている技術は、条件に適合するコンテンツのみを探索することによりコンテンツの収集や電子透かしのチェックを行うまでに要する時間をある程度は短縮させることができるが、条件に適合するコンテンツを全て対等に扱って処理を行うために効率的な探索方法であるとは必ずしも言えない。
【0008】
本発明は、以上に述べた状況を鑑みて成されたものであり、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することを可能にする、コンテンツ不正利用探索装置、コンテンツ不正利用探索プログラム、及びコンテンツ不正利用探索方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明によるコンテンツ不正利用探索装置(2a)は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2a)であって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力される入力部(4)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する探索対象収集部(31)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する探索対象コンテンツチェック部(34)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を解析するテキスト解析部(32)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位を設定する優先順位設定部(33)とを有し、前記優先順位設定部(33)は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと前記優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定し、前記探索対象収集部(31)は、前記優先順位設定部(33)により設定された前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集し、前記探索対象コンテンツチェック部(34)は、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定することを特徴とする。
【0010】
また、本発明によるコンテンツ不正利用探索プログラムは、コンテンツ不正利用探索装置(2a)に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部(4)から入力されるステップ(S1,S2)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を探索対象収集部(31)により収集し(S3)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップと(S5)、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部(32)により解析するステップ(S12)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位設定部(33)により優先順位を設定するステップ(S13)と、前記優先順位設定部(33)が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を前記探索対象収集部(31)により収集し(S15)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップ(S5)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)とを前記コンテンツ不正利用探索装置に実行させ(2a)、前記優先順位を設定するステップ(S13)において、前記優先順位設定部(33)が、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定するように機能させることを特徴とする。
【0011】
また、本発明によるコンテンツ不正利用探索方法は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2a)によるコンテンツ不正利用探索方法であって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部(4)から入力されるステップ(S1,S2)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を探索対象収集部(31)により収集し(S3)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップと(S5)、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部(32)により解析するステップ(S12)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位設定部(33)により優先順位を設定するステップ(S13)と、前記優先順位設定部(33)が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を前記探索対象収集部(31)により収集し(S15)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップ(S5)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)とを有し、前記優先順位を設定するステップ(S13)において、前記優先順位設定部(33)は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定することを特徴とする。
【0012】
このような構成によれば、電子ネットワーク上の全てのコンテンツを探索対象にするのではなく、入力されたキーワードに基づいて各リンク情報に探索の優先順位を付与し、この優先順位に基づいてコンテンツを探索する。このような構成によれば、注目するコンテンツを効率良く探索し、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮することができる。
【0013】
また、本発明によるコンテンツ不正利用探索装置(2b)は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2b)であって、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)と、キーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)と、探索対象のコンテンツを特定する起点アドレス情報が入力される入力部(4)と、前記コンテンツデータベース(8)が管理する前記アドレス情報を前記優先度の高い順に取り出して取得リストとして出力する巡回部(41)と、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツを取得するコンテンツ取得部(42)と、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かを判定するハイパーテキスト判定部(43)と、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するテキスト解析部(44)と、前記形態素テーブルに含まれる前記近傍キーワードを前記キーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース(8)内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するコンテンツ登録部(45)と、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定する不正利用判定部(35)とを有し、前記巡回部(41)は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力することを特徴とする。
【0014】
また、本発明によるコンテンツ不正利用探索プログラムは、コンテンツ不正利用探索装置(2b)に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、探索対象のコンテンツを特定する起点アドレス情報が入力部(4)から入力されるステップと、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)が管理する前記アドレス情報を、巡回部(41)により前記優先度の高い順に取り出して取得リストとして出力するステップと、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部(42)により取得するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部(43)により判定するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部(44)により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、コンテンツ登録部(45)により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するステップと、不正利用判定部(35)により、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定するステップとを前記コンテンツ不正利用探索装置に実行させ(2b)、前記取得リストを出力するステップにおいて、前記巡回部(41)が、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力するように機能させることを特徴とする。
【0015】
また、本発明によるコンテンツ不正利用探索方法は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2b)によるコンテンツ不正利用探索方法であって、探索対象のコンテンツを特定する起点アドレス情報が入力部(4)から入力されるステップと、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)が管理する前記アドレス情報を、巡回部(41)により前記優先度の高い順に取り出して取得リストとして出力するステップと、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部(42)により取得するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部(43)により判定するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部(44)により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、コンテンツ登録部(45)により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するステップと、不正利用判定部(35)により、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定するステップとを有し、前記取得リストを出力するステップにおいて、前記巡回部(41)は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力することを特徴とする。
【0016】
このような構成によれば、収集したコンテンツがハイパーテキストである場合、リンク情報近傍のキーワードを検索し、キーワードの有無に従って優先度を変動させ、優先度が高く、且つ、古いコンテンツから優先的に収集する。また、優先度が高いサイトからリンクされたサイトは優先度を継承する。このような構成によれば、悪意を持った人間によるリンク構造やコンテンツの差し替えに容易に対応することができる。
【0017】
【発明の実施の形態】
以下、図1〜図15を参照しながら、本発明の実施の形態について説明する。
【0018】
尚、各図面を通じて同一もしくは同等の部位や構成要素には、同一もしくは同等の参照符号を付し、その説明を省略もしくは簡略化する。
【0019】
[第1の実施形態]
〔コンテンツ不正利用探索装置の構成〕
本発明の第1の実施形態となるコンテンツ不正利用探索装置2aは、例えばパーソナルコンピュータ、ワークステーション、汎用コンピュータ等のコンピュータ装置上に構成される。具体的には、コンテンツ不正利用探索装置2aは、図2に示すように、CPU1、RAM2、ROM3、入力I/F部4、通信制御部5、IDデータ/URLデータベース6を備え、インターネット7に接続可能な構成となっている。
【0020】
CPU1は、ROM3内に記憶されたコンピュータプログラムに従ってコンテンツ不正利用探索装置2aの動作制御を行う。また、RAM2は、CPU1が実行する各種処理に関するコンピュータプログラムやデータを一時的に格納するワークエリアを提供する。
【0021】
ROM3は、コンテンツ不正利用探索プログラム3a等の各種コンピュータプログラムやプログラムの実行に必要なデータを記憶する。なお、ROM3は、磁気的、光学的記録媒体若しくは半導体メモリ等といった、CPU1が読み取り可能な記録媒体を含んだ構成となっている。また、この記録媒体に格納されるコンピュータプログラムやデータは、インターネット7を介してその一部若しくは全部を受信するような構成にしても良い。
【0022】
入力インタフェイス(I/F)部4は、後述する不正利用探索処理を実行する際に必要となる各種情報(キーワードと探索するコンテンツの最上位階層のアドレス情報等)を入力する際のインタフェイスの役割を担う。
【0023】
上記通信制御部5は、例えばHTTP(Hyper Text Transfer Protocol)、TCP/IP(Transfer Control Protocol / Internet Protocol)等のデータ通信用プロトコル、例えばSMTP(Simple Mail Transfer Protocol)やPOP(Post Office Protocol)等の電子メイル通信用プロトコルを実装する。通信制御部5は、これらのプロトコルを使用して、インターネット7を介して、各種データを送信すると共に、受信した各種データをCPU1が処理可能な形式に変換する。
【0024】
IDデータ/URLデータベース6は、電子透かしによって管理対象のコンテンツに記録されているIDデータと、そのコンテンツの正当なURLアドレス情報及び正当な持ち主の連絡先となる電子メイルアドレスを格納する。
【0025】
コンテンツ不正利用探索プログラム3aは、図1に示すように、探索対象収集部31、テキスト解析部32と、優先順位設定部33、探索対象コンテンツチェック部34、不正使用判定部35、警告メイル送信部36を有する。
【0026】
探索対象収集部31は、入力I/F部4から入力されたアドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する。
【0027】
探索対象コンテンツチェック部34は、探索対象収集部31が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する。
【0028】
テキスト解析部32は、探索対象収集部31が収集したテキスト情報に含まれる、テキスト情報の階層から下位階層へ探索するためのリンク情報を解析する。
【0029】
優先順位設定部33は、入力I/F部4から入力されたキーワードに基づいて、テキスト解析部32が解析したリンク情報に優先順位を設定する。
【0030】
そして、探索対象収集部31は、優先順位設定部33により設定された優先順位に従って、リンク情報により特定される下位階層に記述されているテキスト情報を収集し、収集した下位階層の当該テキスト情報内にリンクされているコンテンツを収集し、探索対象コンテンツチェック部34は、探索対象収集部31が収集した下位階層の当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する。
【0031】
また、上記キーワードは、優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方を含み、優先順位設定部33は、プラスキーワードとマイナスキーワードのどちらか一方、もしくは両方を含むキーワードに基づいて、下位階層へ探索するためのリンク情報に前記優先順位を設定する。
【0032】
〔コンテンツ不正利用探索装置の処理動作〕
次に、図3に示すフローチャートを参照して、コンテンツの不正利用を探索する際の、第1の実施形態によるコンテンツ不正利用探索装置2aの処理動作について説明する。
【0033】
ステップS1及びステップS2の処理において、ユーザが、入力I/F部4を介して最上位URL(Uniform Resource Locator)のアドレス情報と、探索するURLの優先度のもとになるキーワードを入力する。ここでは、ユーザが、例えば、「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」、「CG」、「絵画」をプラスキーワードとして入力したのもとして、以下の処理を説明する。
【0034】
ステップS3の処理において、探索対象収集部31は、通信制御部5を介して、入力された最上位URLのアドレス位置にあるホームページのHTML文章をRAM2内にダウンロードする。
【0035】
ステップS4の処理において、テキスト解析部32は、探索対象収集部31がダウンロードしたHTML文章内に画像等のコンテンツがリンクされているか否かを判別する。そして、判別の結果、コンテンツがリンクされている場合、ステップS5の処理に進む。一方、ステップS4の判別の結果、探索対象収集部31がダウンロードしたHTML文章内にコンテンツがリンクされていない場合には、ステップS12の処理に進む。
【0036】
ステップS5の処理において、探索対象収集部31は、HTML文章にリンクされているコンテンツをRAM2にダウンロードする。
【0037】
ステップS6の処理では、探索対象コンテンツチェック部34は、RAM2にダウンロードされたコンテンツの中から電子透かしを検出し、検出した電子透かしにより記録されているIDデータを認識する。なお、この電子透かしの方法は様々な方法が想定されるが、例えば、コンテンツが画像データの場合、画素の輝度を表すビット列を操作して電子透かしを埋め込んだり、コンテンツが音楽データの場合は、波形を周波数成分に分解して、位相をずらすなどの処理を施して電子透かしを埋め込んだりする方法などがある。
【0038】
ステップS7〜S8の処理において、不正使用判定部35は、IDデータ/URLデータベース6に格納されているIDデータを読み出して、電子透かしにより記録されているIDデータとを比較し、ダウンロードしたコンテンツが管理対象のコンテンツであるか否かを判別する。そして、判別の結果、管理対象となっている場合には、ステップS10の処理において、不正使用判定部35は、IDデータ/URLデータベース6に格納されているURLアドレスと、検出されたURLアドレスとを比較して、コンテンツをダウンロードしたURLアドレスが正当なものであるか否かを判別する。そして、判別の結果、正当なURLアドレスである場合、ステップS12の処理に進む。一方、ステップS10の判別の結果、正当なURLアドレスでない場合には、ステップS10の処理に進む。
【0039】
ステップS10の処理において、不正使用判定部35は、当該コンテンツは不正利用されているものと判断し、当該コンテンツの情報と送信先のメイルアドレス等を警告メイル送信部36へ送る。
【0040】
ステップS11の処理において、警告メイル送信部36は、当該コンテンツの情報、コンテンツのURLアドレス情報、不正発見日時等を記載した警告メイルを作成し、通信制御部5を介して送信先の電子メイルアドレス宛てに警告メイルを送信し、ステップS12の処理に進む。
【0041】
ステップS12の処理において、テキスト解析部32は、ダウンロードしたHTML文章中の、図4に示すような画像ソースを示すテキスト部分『img src=』(下線部A)と、次の階層へのリンク先URLアドレスを示すテキスト部分『A HREF=』(下線部B)の近傍(例えば、前後1行の計3行のテキスト部分C)において、入力I/F部4を介して入力されたキーワード(「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」、「CG」、「絵画」)が存在するか否かを解析するために、パターン検索を実行する。
【0042】
ステップS13の処理において、優先順位決定部33は、入力されたキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を+1に設定する。ダウンロードしたHTML文章中のリンク先URLアドレスを示すテキスト部分に対して、探索優先順位を設定し終わったら、ステップS14の処理に進む。
【0043】
ステップS14の処理において、優先順位設定部33は、設定した探索優先順位が所定の値(例えば1)以上であって、未処理の画像ソースやリンク先URLアドレスがあるか否か判別する。そして、判別の結果、探索優先順位が所定の値以上の未処理の画像ソースやリンク先URLアドレスがある場合、優先順位設定部33は、探索優先順位が所定の値以上の画像ソースやリンク先URLアドレス、若しくは、探索優先順にソートした画像ソースやリンク先URLアドレスの全部又は一部を探索対象収集部31に送り、ステップS15の処理に進む。一方、判別の結果、探索優先順位が所定の値以上の未処理の画像ソースやリンク先URLアドレスがない場合には、一連の探索処理は終了する。
【0044】
ステップS15の処理において、探索対象収集部31は、送られたリンク先URLアドレスが示すHTML文章を、通信制御部5を介してRAM2内にダウンロードし、ステップS4の処理に戻る。
【0045】
そして、ステップS15の処理にてダウンロードしたHTML文章内に画像などのコンテンツがリンクされている場合、あるいはステップS14の処理において探索優先順位が所定の値以上の画像ソースがあった場合には、前述のステップS5〜ステップS11の処理にてコンテンツをダウンロードし、不正利用されているか否かを判別する。
【0046】
また、ステップS15の処理にてダウンロードしたHTML文章内にコンテンツがリンクされていない場合、且つステップS14の処理において探索優先順位が所定の値以上の画像ソースがなかった場合には、前述のステップS12以降の、さらに次の下位階層を探索するための処理を行う。
【0047】
なお、上記探索処理においては、ユーザは、優先的に探索するコンテンツを示すプラスキーワードを入力したものとして説明したが、探索の対象としないコンテンツを示すマイナスキーワードをプラスキーワードと共に若しくは単独で入力してもよい。この場合、CPU1は、図5のフローチャートに示すように、入力されたプラスキーワード及びマイナスキーワードに基づいてパターン検索を実行し(ステップS12A)、プラスキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を+1に設定し、マイナスキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を−1に設定する(ステップS13A,ステップS13B)。
【0048】
このような構成によれば、例えば、「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」等をプラスキーワードとし、「CG」や「絵画」をマイナスキーワードとして入力すると、「CG」や「絵画」と関連する画像コンテンツは探索対象から除外することが可能となり、写真の画像のみを効率的に探索することを可能となる。なお、図5のフローチャートにおける、他の処理ステップは図3のフローチャートに示すそれと同じであるので、ここではその説明は省略する。
【0049】
[第2の実施形態]
〔コンテンツ不正利用探索装置の構成〕
第2の実施形態によるコンテンツ不正利用探索装置2bは、図6及び図7に示すように、第1の実施形態のコンテンツ不正利用探索装置2aが備えるIDデータ/URLデータベース6の代わりに、コンテンツデータベース8とキーワードデータベース9を備える。
【0050】
コンテンツデータベース8は、図8に示すような、コンテンツのアドレス情報に相当するn個のURLが探索の優先度を付与されて記載されたテーブルデータを記憶する。なお、各アドレス情報はテーブル中でユニークなメインキーとなっており、また、優先度は比較可能な値により表現されている。
【0051】
キーワードデータベース9は、図9に示すような、p個のキーワードが重要度を付与されてテキスト形式で記載されたデータを記憶する。具体的には、このキーワードは、例えばアーティスト名「歌手A子」、「グループB」、「歌手C子」、「歌手D子」等の固有名詞に類するテキストであり、重要度の重み付けを行ってユーザにより登録される。なお、重要度は正負どちらの値であっても良く、重要度が正の値である場合には探索の重要度は上がり、逆に重要度が負の値である場合には探索の重要度は下がる。また、ユーザが重要度を細かに指定することが面倒である場合には、多数のハイパーテキストを予め形態素解析し、全文書中の単語出現分布と1文章中の単語出現頻度の統計を取り、TF(Term Frequency)・IDF(Inverted Document Frequency)法等で単語重要度を計算し、単語重要度表を作成し、ユーザがこの単語重要度表を参照して重要度を登録してもよい。具体的には、単語重要度表において、単語「歌手A子」の重要度が0.17であった場合には、この重要度に適当な常数を掛けた値0.34をキーワードデータベース9に登録する重要度とすれば、ユーザが単語自体の出現頻度を意識する必要がなくなり、重要度の登録に要する労力を軽減することができる。
【0052】
コンテンツ不正利用探索プログラム3bは、巡回部41、コンテンツ取得部42、ハイパーテキスト判定部43、テキスト解析部44、コンテンツ登録部45、不正使用判定部35、警告メイル送信部36とから構成される。
【0053】
入力I/F部4からは探索対象のコンテンツを特定する起点アドレス情報がユーザにより入力される。
【0054】
巡回部41は、コンテンツデータベース8が管理するアドレス情報を優先度の高い順に取り出して取得リストとして出力する。なお、巡回部41は、優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、所定の範囲の最大値から近い順に前記コンテンツデータベース8からアドレス情報を取り出し、取り出したアドレス情報を取得日時が古い順にソートし、古いアドレス情報から優先的に取得リストへ追加し、取得リストに追加するアドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力する。
【0055】
コンテンツ取得部42は、取得リストに含まれるアドレス情報に基づいて探索対象のコンテンツを取得する。
【0056】
ハイパーテキスト判定部43は、コンテンツ取得部42が取得したコンテンツがリンク情報を含むハイパーテキストであるか否かを判定する。
【0057】
テキスト解析部44は、コンテンツ取得部42が取得したコンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含むリンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力する。
【0058】
コンテンツ登録部45は、形態素テーブルに含まれる近傍キーワードをキーワードデータベース9から検索し、検索結果に応じてコンテンツデータベース8内の優先度を変動させる変動値を生成し、生成した変動値をアドレス情報と共にコンテンツデータベース8に登録する。
【0059】
〔コンテンツ不正利用探索装置の処理動作〕
次に、図10に示すフローチャートを参照しながら、コンテンツの不正利用を判定する際の、コンテンツ不正利用探索装置2bの処理動作について説明する。
【0060】
ステップS20の処理において、ユーザは、入力I/F部4を介して起点ノードのアドレス情報を入力する。なお、ここで入力される起点ノードとは、ディレクトリサービス型のポータルサイトを示し、起点ノードのアドレス情報はそのポータルサイトのURLを意味する。
【0061】
ステップS21の処理において、巡回部41は、コンテンツデータベース8からアドレス情報を優先度の高い順に取り出し、コンテンツの取得リストを生成する。なお、この巡回部41による処理は、データベース言語SQL(Structured
Query Language)により次のように表現することができる。
【0062】
【数1】

Figure 2004110151
ステップS22の処理において、コンテンツ取得部42は、巡回部41が生成した取得リストから順次アドレス情報を取り出し、通信制御部5を介してインターネット7にアクセスし、アドレス情報が示すコンテンツを取得する。
【0063】
ステップS23の処理において、コンテンツ取得部42は、コンテンツデータベース8を参照して、コンテンツを取得したアドレス情報bの優先度から予め定められた減衰値Rを減算する。なお、このコンテンツ取得部42による処理は、データベース言語SQLにより次のように表現することができる。尚、アドレス情報bはコンテンツを取得したアドレス情報の識別子を示す。
【0064】
【数2】
Figure 2004110151
ステップS24の処理において、ハイパーテキスト判定部43は、コンテンツ取得部42が取得したコンテンツに含まれるバイナリ・フィンガープリントやヘッダ文字列等を用いてコンテンツ種別を解析することにより、取得したコンテンツがハイパーテキストであるか否かを判別する。そして、判別の結果、ハイパーテキストでない場合、ステップS29の不正発見処理に進む。一方、判別の結果、ハイパーテキストである場合には、ステップS25の処理に進む。
【0065】
ステップS25の処理において、テキスト解析部44は、ハイパーテキスト判定部43が解析したハイパーテキスト及びプレーンテキスト内に含まれるリンク情報を解析する。なお、ここでいう「リンク情報」とは、ハイパーテキストがHTML形式で記述されている場合には、Aタグ(『<ahref=”2次アドレス情報”>アンカーテキスト</a>』)や、IMGタグ(『<img src=”2次ノードアドレス情報”ALT=”補足テキスト”>』)等のテキストタグに相当し、コンテンツ及び他のインターネットサイトへのアクセスに必要な2次ノードアドレス情報を含む。
【0066】
ステップS26の処理において、テキスト解析部44は、例えば行単位等の適当な範囲内でリンク情報近傍のテキストを切り出し、アンカーテキスト及び補足テキストと合わせて近傍キーワード群を生成する。
【0067】
ステップS27の処理において、テキスト解析部44は、2次ノードアドレス情報と近傍キーワード群をセットにして、例えば図11に示すような、任意の行を指定した読み出しが可能な形態素テーブルとして出力する。ここで、形態素テーブルにおいて、2次ノードアドレス情報はURLに類するアドレス情報であり、総数はo個となっている。また、2次ノードアドレス情報は同一アドレスが集団と成るようにソートされている。一方、近傍キーワードは、テキストとなっており、重複のないユニークな構成となっている。なお、図11に示す形態素テーブルは、2次ノードアドレス情報1には近傍キーワード1,2,3が存在し、2次ノードアドレス情報2には近傍キーワード1のみが存在し、2次ノードアドレス情報3には近傍キーワード4のみが存在することを例示している。
【0068】
ステップS28の処理において、コンテンツ登録部45は、テキスト解析部44が出力した形態素テーブルを解析して変動値hを算出し、算出した変動値hをコンテンツデータベース8の優先度に加算する。なお、このコンテンツ登録処理の詳細については後述する。
【0069】
ステップS29の処理において、不正使用判定部35は、第1の実施形態で説明したように、電子透かし抽出アルゴリズム等を利用してコンテンツが不正利用されているか否かを判別する。そして、判別の結果、不正利用でない場合には、ステップS22の処理に戻り、判別の結果、不正利用である場合には、ステップS30の処理に進む。
【0070】
ステップS30の処理において、不正使用判定部35は、不正に利用されているコンテンツの情報及びそのアドレス情報をRAM3に記憶し、警告メイル送信部36は、不正に利用されているコンテンツの情報及びそのアドレス情報を、電子メイルを利用してユーザに通知し、ステップS22の処理に戻る。
【0071】
〔コンテンツ登録処理〕
ここで、図12に示すフローチャートを参照しなから、上記ステップS28におけるコンテンツ登録処理を行う際のコンテンツ不正利用探索装置2bの処理動作について詳しく説明する。
【0072】
図12に示すフローチャートは、上記ステップS27からステップS28の処理に移行することで処理が開始される。
【0073】
ステップS41の処理において、コンテンツ登録部45は、ループ変数iに『1』、2次ノードアドレス情報aに『φ』、変動値hに『0』を設定することで、各値を初期化する。
【0074】
ステップS42の処理において、コンテンツ登録部45は、形態素テーブルのi行目のデータを読み込み、2次ノードアドレス情報を作業用変数uに、近傍キーワードを作業用変数kにセットする。
【0075】
ステップS43の処理において、コンテンツ登録部45は、ステップS42における読み込み処理が成功したか否かを判定する。そして、判定の結果、読み込みが成功した場合には、ステップS47の処理に進む。一方、判定の結果、読み込みが失敗した場合には、ステップS44の処理に進む。
【0076】
ステップS44の処理では、コンテンツ登録部45は、コンテンツデータベース8内に『アドレス情報=a』となる行が存在するか否かを判定する。なお、このコンテンツ登録部45による処理は、データベース言語SQLにより次のように表現することができる。
【0077】
【数3】
Figure 2004110151
また、『a=φ』である場合には、コンテンツデータベース8内には対応する行が存在しないものとする。そして、判定の結果、『アドレス情報=a』となる行が存在しない場合には、ステップS46の処理に進む。一方、判定の結果、『アドレス情報=a』となる行が存在する場合には、ステップS45の処理に進む。
【0078】
ステップS45の処理において、コンテンツ登録部45は、アドレス情報aに関連付けされた優先度を更新する。なお、このコンテンツ登録部45による処理は、データベース言語SQLにより次のように表現することができる。
【0079】
【数4】
Figure 2004110151
ステップS46の処理において、コンテンツ登録部45は、上位層のリンク情報の優先度に変動値hを加算した値を優先度とする新たな行をコンテンツデータベース8に追加する。具体的には、今、アドレス情報aの上位層は、上記ステップS22の処理においてコンテンツ登録部45が保持しているアドレス情報bであるので、コンテンツ登録部45は、例えば、次のようなデータベース言語SQLにより、コンテンツデータベース11からアドレス情報bの優先度wを取得する。
【0080】
【数5】
Figure 2004110151
そして、コンテンツ登録部45は、例えば、次のようなデータベース言語SQLにより、上位層が持つ優先度に変動値hを加算した優先度を有し、アドレス情報aを主キーとした新規行を追加する。
【0081】
【数6】
Figure 2004110151
このように処理することにより、「怪しいサイトからリンクを張られた先は怪しいサイトである可能性が高い」という仮定のもとにアドレスの優先度を予め上げておくことが可能となり、一連の登録処理は終了する。
【0082】
一方、ステップS47の処理において、コンテンツ登録部45は、2次ノードアドレス情報aと作業用変数uが等しいか否かを判定することにより、同一の2次ノードアドレス情報が形態素テーブル上で連続しているか否かを判別する。
【0083】
そして、判別の結果、2次ノードアドレス情報aと作業用変数uが等しい場合には、ステップS48の処理として、コンテンツ登録部45は、作業用変数kに設定された近傍キーワードを検索キーとしてキーワードデータベース12を検索し、近傍キーワードの重要度を抽出する。そして、コンテンツ登録部45は、抽出した重要度を変動値hに加算し、ループ変数iを1増数し、ステップS42の処理に戻る。このような処理によれば、2次ノードアドレス情報が連続している場合、同一の2次ノードアドレス情報毎に変動値hをまとめることができる。
【0084】
一方、ステップS47の判別処理の結果、2次ノードアドレス情報aと作業用変数uが等しくない場合には、ステップS49の処理として、コンテンツ登録部45は、2次ノードアドレス情報aが空文字列φであるか否かを判別する。そして、判別の結果、2次ノードアドレス情報aが空文字列φでない場合には、ステップS44aの処理に進む。
【0085】
ステップS44aの処理では、コンテンツ登録部45は、コンテンツデータベース8内に『アドレス情報=a』となる行が存在するか否かを判定する。
【0086】
そして、ステップS44aの判定処理の結果、『アドレス情報=a』となる行が存在しない場合には、ステップS46aの処理に進み、コンテンツ登録部45は、上位層のリンク情報の優先度に変動値hを加算した値を優先度とする新たな行をコンテンツデータベース8に追加し、変数値hに0をセットしてステップS50へ戻る。
【0087】
また、ステップS44aの判定処理の結果、『アドレス情報=a』となる行が存在する場合には、ステップS45aの処理に進み、コンテンツ登録部45は、アドレス情報aに関連付けされた優先度を更新し、変数値hに0をセットしてステップS50へ戻る。
【0088】
一方、ステップS49の判定処理の結果、2次ノードアドレス情報aが空文字列φである場合には、ステップS50の処理に進む。ステップS50の処理において、コンテンツ登録部45は、2次ノードアドレス情報aに作業用変数uの内容を代入し、ステップS48に進む。なお、上記ステップS49の処理は、形態素テーブルを最初に読み始めた時の処理に相当する。
【0089】
[第3の実施形態]
第2の実施形態によるコンテンツ不正利用探索装置2bにおいて、探索処理の際に生成する取得リストはコンテンツデータベース8に登録されている全アドレス情報をソートしたものであった(上記ステップS21の処理を参照)。しかしながら、このような取得リストの構成によれば、探索対象のサイト数が増加した場合、1つの取得リストの処理に要する時間や、逐次変化しているコンテンツデータベース11内の優先度を実際のコンテンツ取得に反映させるまでに要する時間が長くなってしまうことがある。
【0090】
そこで、第3の実施形態となるコンテンツ不正利用探索装置2bは、以下のように動作することにより、予め定められた上限順回数q毎に取得リストの見直しを行うようにした。以下、本発明の第3の実施形態によるコンテンツ不正利用探索装置2bの構成及び動作について説明する。
【0091】
〔コンテンツ不正利用探索装置の構成〕
第3の実施形態によるコンテンツ不正利用探索装置2bでは、コンテンツデータベース8内に格納されるテーブルデータのデータ形式が、第2の実施形態によるコンテンツ不正利用探索装置2bと異なる。
【0092】
コンテンツデータベース8内に格納されるテーブルデータは、具体的には図13に示すように、アドレス情報と優先度に加えて更新日時を格納するようにしている。ここで「更新日時」は、比較可能な数値を持つ日付型のデータであり、ここでは単純化して、累積秒(1970年01月01日を0とした秒数の積算)のデータを日付型のデータとして定義する。
【0093】
なお、第3の実施形態によるコンテンツ不正利用探索装置2bのその他の構成は、第2の実施の形態によるコンテンツ不正利用探索装置2bと同じであるので、その説明を省略する。
【0094】
〔コンテンツ不正利用探索装置の処理動作〕
図14に示すように、ステップS60の処理において、ユーザは、入力I/F部4を介して起点ノードのアドレス情報を入力する。
【0095】
ステップS61の処理では、巡回部41は、以下に示す4つの条件に従って、コンテンツデータベース8からコンテンツの取得リストを生成する。なお、この巡回部41による取得リスト生成処理については、後程詳しく説明する。
【0096】
(1)取得リストのアドレス情報数sが上限順回数qを超えない。
【0097】
(2)優先度が高いアドレス情報から取得リストに追加する
(3)更新日時が古いアドレス情報から取得リストに追加する
(4)最近コンテンツ取得を行ったアドレス情報は追加しない
ステップS62の処理において、コンテンツ取得部42は、巡回部41が生成した取得リストから順次アドレス情報を取り出し、通信制御部5を介してインターネット7にアクセスし、アドレス情報が示すコンテンツを取得する。また、コンテンツ取得部42は、システムクロックを参照して、コンテンツを取得した際の現在日時nowを日付型データとして取得し、コンテンツデータベース8内のアドレス情報に対応した更新日時を更新する。なお、この更新日時の更新処理は、データベース言語SQLにより次のように表現することができる。尚、bはコンテンツを取得したアドレス情報の識別子を示す。
【0098】
【数7】
Figure 2004110151
なお、ステップS63以後の処理は、コンテンツデータベース8に新規行を追加する際(ステップS46の処理に対応)に、コンテンツ登録部45が、例えば『INSERT INTO コンテンツデータベース VALUES (a, w+h, 0);』のようなデータベース言語SQLにより、更新日時を日付型における最も古い値(0)に設定する以外、第2の実施形態によるコンテンツ不正利用探索装置2bのステップS24以後の処理と同じ内容であるので、ここではその説明を省略する。
【0099】
〔取得リスト生成処理〕
次に、図15に示すフローチャートを参照して、ステップS61の取得リスト生成処理を実行する際のコンテンツ不正利用探索装置2bの処理動作について説明する。
【0100】
図15のフローチャートに示す処理は、ユーザが、ステップS60からステップS61の処理に移行することで処理が開始される。
【0101】
ステップS81の処理において、巡回部41は、コンテンツデータベース8を検索し、優先度が最大値MAX以上のコンテンツの優先度を最大値MAXに、最小値MIN以下のコンテンツの優先度を最小値MINに設定する(クリッピング処理)。なお、この巡回部41による処理は、データベース言語SQLにより次のように表現することができる。
【0102】
【数8】
Figure 2004110151
また、最大値MAX及び最小値MINは予め定められた定数、若しくは、コンテンツデータベース11内に含まれる全優先度の平均値、分散値に基づいて求められる標準偏差を利用して、それぞれの優先度が正規分布に従うと仮定した場合の、偏差値25及び偏差値75に対応する優先度値をそれぞれ最大値MAX及び最小値MINとする等、毎回統計的に算出される変数であっても構わない。
【0103】
ステップS82の処理において、巡回部41は、ループ変数iの値をdに設定し、取得リストstの値をφに設定することで、各値を初期化する。
【0104】
ステップS83の処理において、巡回部41は、取得区間開始点sa(=sd×i)と取得区間終了点sb(sd×(i+1))を計算する。ここで、変数sdは区間変量に相当し、次式により計算される。なお、変数dは分割定数である。
【0105】
【数9】
sd=(最大値MAX−最小値MIN)/d
ステップS84の処理において、巡回部41は、システムクロックを参照して現在日時を日付型として取得した後、例えば、次のように示されるデータベース言語SQLにより、コンテンツデータベース11を参照して、区間終了点>優先度≧区間開始点となる優先度を有するアドレス情報を、更新日時で昇順にソートした候補リストを作成する。なお、cutは、足切日時定数を示し、予め定義されている値である。
【0106】
【数10】
Figure 2004110151
このような処理によれば、ある区間に収まった優先度を有するアドレス情報の内、古い順に並んだ候補リストitを生成することができる。
【0107】
ステップS85の処理において、巡回部41は、取得リストst内のアドレス情報数smと候補リストit内のアドレス情報数imを算出し、(q−sm)>imならば『im個』、im≦(q−sm)ならば『q−sm』個のアドレス情報を候補リストitから取り出す(ここで、変数qは最大巡回数を示す)。
【0108】
そして、巡回部41は、取り出したアドレス情報を取得リストstに追加する。
【0109】
ステップS86の処理において、巡回部41は、取得リストst内のアドレス情報数smと最大巡回数qが等しいか否かを判別する。そして、判別の結果、等しい場合には、ステップS89の処理に進む。一方、判別の結果、等しくない場合には、ステップS87の処理に進む。
【0110】
ステップS87の処理において、巡回部41は、ループ変数iの値を1減数する。
【0111】
ステップS88の処理において、巡回部41は、ループ変数iの値が負であるか否かを判別する。そして、判別の結果、負でない場合には、ステップS83の処理に戻る。一方、負である場合には、ステップS89の処理に進む。
【0112】
ステップS89の処理において、巡回部41は、取得リストstを出力する。なお、ステップS89の処理完了後、CPU1は、コンテンツの取得が完了したか否かを監視し、コンテンツの取得が完了するに応じて、CPU1は再び上記生成処理を実行する。
【0113】
このような処理によれば、コンテンツの取得と解析によってコンテンツデータベース8内の優先度は変動し、CPU1は、変動した優先度を参考にしながら、次回に取得すべき優先度の高いサイトを最大巡回数qの範囲内で選択するので、優先度を迅速にコンテンツ探索に適用し、戦略性の高い巡回処理が可能となる。
【0114】
以上の説明から明らかなように、第1の実施形態によるコンテンツ不正利用探索装置2bは、インターネット7上の全てのコンテンツを探索対象にするのではなく、入力されたキーワードに基づいて各リンク情報に探索の優先順位を付与し、この優先順位に基づいてコンテンツを探索するので、注目するコンテンツを効率良く探索し、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮することができる。
【0115】
また、第2の実施形態あるいは第3の実施形態によるコンテンツ不正利用探索装置2bによれば、あるインターネットサイトを管理する悪意を持つ人間がコンテンツの不正利用を行った場合、不正利用コンテンツへのリンク情報を含んだハイパーテキストは優先度が高いまま残るため、同一サイト内の別のハイパーテキスト若しくは他のインターネットサイトに不正利用コンテンツを移動したとしても、不特定多数の閲覧ユーザを導くためには、元のハイパーテキストに「移転先はこちら」等のアンカーテキストを含んだリンク情報を記述しなければならない。また、リンク情報を含んだページは既に優先度が高いために、迅速にチェックされ、移転先を容易に発見することができる。さらに、優先度の継承によって移転先には最初から高い優先度が与えられるので、迅速にチェックすることができる。すなわち、本発明の第2及び第3の実施の形態となるコンテンツ不正利用探索装置2bによれば、悪意を持った人間によるリンク構造やコンテンツの差し替えに容易に対応することができる。
【0116】
以上、第1実施形態ないし第3実施形態について詳細に説明したが、本発明は、その精神または主要な特徴から逸脱することなく、他の色々な形で実施することができる。そのため、前述の実施例はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
【0117】
【発明の効果】
本発明によれば、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することができる。
【図面の簡単な説明】
【図1】第1の実施形態によるコンテンツ不正利用探索装置の機能構成を例示するブロック図である。
【図2】図1に示すコンテンツ不正利用探索装置のハードウェア構成を例示するブロック図である。
【図3】図1に示すコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理の流れを例示するフローチャートである。
【図4】図3に示すコンテンツ不正利用探索処理において、テキスト解析部により解析されるHTMLテキストを例示する図である。
【図5】図3に示すコンテンツ不正利用探索処理の応用例を示すフローチャートである。
【図6】第2の実施形態によるコンテンツ不正利用探索装置の機能構成を例示するブロック図である。
【図7】図6に示すコンテンツ不正利用探索装置のハードウェア構成を例示するブロック図である。
【図8】図6に示すコンテンツ不正利用探索装置のコンテンツデータベースのデータ形式を例示する図である。
【図9】図6に示すコンテンツ不正利用探索装置のキーワードデータベースのデータ形式を例示する図である。
【図10】図6に示すコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理の流れを例示するフローチャートである。
【図11】図10に示すコンテンツ不正利用探索処理において用いられる形態素テーブルを例示する図である。
【図12】図10に示すコンテンツ不正利用探索処理における、コンテンツ取得処理の流れを例示するフローチャートである。
【図13】第3の実施形態によるコンテンツ不正利用探索装置における、コンテンツデータベースのデータ形式を例示する図である。
【図14】第3の実施形態のコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理流れを例示するフローチャートである。
【図15】図14に示すコンテンツ不正利用探索処理における、取得リスト生成処理の流れを例示するフローチャートである。
【符号の説明】
1…CPU
2…RAM
2a…コンテンツ不正利用探索装置
2b…コンテンツ不正利用探索装置
3…ROM
3a…コンテンツ不正利用探索プログラム
3b…コンテンツ不正利用探索プログラム
4…入力I/F部
5…通信制御部
6…IDデータ/URLデータベース
7…インターネット
8…コンテンツデータベース
9…キーワードデータベース
11…コンテンツデータベース
12…キーワードデータベース
31…探索対象収集部
32…テキスト解析部
33…優先順位設定部
34…探索対象コンテンツチェック部
35…不正使用判定部
36…警告メイル送信部
41…巡回部
42…コンテンツ取得部
43…ハイパーテキスト判定部
44…テキスト解析部
45…コンテンツ登録部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention searches for content in which information for preventing unauthorized use such as copyright information is embedded as digital watermark information, and determines whether the content is illegally used based on the embedded information. In particular, the present invention relates to a content abuse search device, a content abuse search program, and a content abuse search method, which reduce the time required for collecting content and checking for detection of a digital watermark, and making it easy for a malicious user to replace the link structure or the content. The present invention relates to a technology that makes it possible to respond to
[0002]
[Prior art]
In recent years, for the purpose of protecting the copyright of content, techniques for embedding copyright information of the content into the content with a digital watermark or the like have been energetically studied, and various information embedding methods have been proposed to date. For example, a method of embedding information by changing an MPEG code, especially a DCT coefficient, a motion vector, and a quantization characteristic has been proposed (for example, see Non-Patent Document 1). In addition, a method has been proposed in which an image signal is spread using a PN sequence according to the direct spreading method and signature information is combined with the image (for example, see Non-Patent Document 2).
[0003]
Along with research on such a method of embedding information in content, recently, various systems for judging unauthorized use of content have been provided. For example, purchasers using digital watermarks have been provided. A system has been proposed in which information is embedded in content in advance, and information embedded in content considered to be illegally used is read to determine whether the content is illegally used. In such a system, since it is necessary to search for and obtain contents that are considered to be illegally used, digital watermarking of contents collected using a "web robot", which is a computer program for collecting contents on the Web, is required. Check the information. This web robot constantly visits websites all over the world and monitors whether contents such as images are illegally used. If the result of the monitoring determines that the contents are illegally used, In, the web robot gives some notice to the website that is abusing the content.
[0004]
In addition, the search target pattern to be collected is determined in accordance with the input information of the specified keyword or content, the search target content is collected via the network in accordance with the determined search target pattern, and the collected search target content is illegally used. There is disclosed a technique for judging whether or not the above is the case (for example, see Patent Document 1).
[0005]
[Patent Document 1]
JP-A-2001-76000
[Non-patent document 1]
Nippon Telegraph and Telephone Corporation, "Copyright Information Embedding Method in Digital Video Using DCT", IEICE 1997 Symposium on Cryptography and Information Security, SCIS '97 -31G
[Non-patent document 2]
National Defense Academy, "Watermark Signature Method for Images Using PN Sequence", IEICE 1997 Symposium on Cryptography and Information Security, SCIS '97_26B
[0006]
[Problems to be solved by the invention]
However, in the system for determining unauthorized use of content as described above, since all the content on the Internet is subject to investigation, it takes an enormous amount of time to complete collection of content and checking of digital watermarks. However, the content cannot be searched efficiently. In particular, since an open network such as the Internet is not managed by a specific organization, a malicious person can easily become the administrator and dynamically replace the content and link structure of the content. Given this situation, such a situation should be resolved immediately.
[0007]
Note that the technique disclosed in Japanese Patent Application Laid-Open No. 2001-76000 can reduce the time required for collecting contents and checking digital watermarks to some extent by searching only contents that meet the conditions. However, this method is not necessarily an efficient search method because all the contents that meet the conditions are treated equally.
[0008]
The present invention has been made in view of the circumstances described above, and reduces the time required for content collection and digital watermark detection check, and can easily respond to a link structure or content replacement by a malicious user. It is an object of the present invention to provide a content unauthorized use search device, a content unauthorized use search program, and a content unauthorized use search method, which make it possible to do so.
[0009]
[Means for Solving the Problems]
The content abuse search device (2a) according to the present invention is a content abuse search device (2a) for searching for unauthorized use of content in an electronic network, in which a keyword and address information of the highest hierarchy of the content to be searched are input. Input section (4), and text information described in a hierarchy specified by the address information input from the input section (4), and contents linked in the collected text information And an identifier embedded in the content collected by the search target collecting unit by an electronic watermark, and whether the content is illegally used is determined by the detected identifier. The search target content check unit (34) for determining whether A text analysis unit (32) for analyzing link information for searching from the hierarchy of the text information to a lower hierarchy included in the text information, and the keyword input from the input unit (4), A priority setting unit (33) for setting a priority order to the link information analyzed by the text analysis unit (32), wherein the priority order setting unit (33) includes the priority order included in the keyword. The priority is set in the link information for searching to the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority, and the search target collection unit (31) Are described in a hierarchy specified by the link information according to the priority set by the priority setting unit (33). The text information is collected, and the content linked in the collected text information is collected, and the search target content check unit (34) adds the content collected by the search target collection unit (31) to the content by electronic watermarking. The embedded identifier is detected, and it is determined whether or not the content is illegally used based on the detected identifier.
[0010]
Further, a content unauthorized use search program according to the present invention is a content unauthorized use search program for causing a content unauthorized use search device (2a) to search for unauthorized use of content in an electronic network. (S1, S2) of inputting the address information of the highest level of the input from the input unit (4), and text described in the level specified by the address information input from the input unit (4) Collecting information by the search target collection unit (31) (S3), and collecting the content linked in the collected text information by the search target collection unit (31) (S5); The unit (31) detects an identifier embedded in the content collected by the digital watermark. A step (S6, S7, S8) of judging whether or not the content is illegally used based on the detected identifier by the search target content check unit (34); and the text collected by the search target collection unit (31). A text analyzing unit (32) for analyzing link information for searching from a hierarchy of the text information to a lower hierarchy included in the information (S12); Setting a priority of the link information analyzed by the text analysis unit (32) by a priority setting unit (33) (S13), and setting the priority set by the priority setting unit (33). In accordance with the above, the text information described in the hierarchy specified by the link information is collected by the search target collecting unit (31). (S15), collecting the content linked in the collected text information by the search target collecting unit (31) (S5), and electronically adding the content collected by the search target collecting unit (31). (S6, S7, S8) detecting the identifier embedded by the watermark and determining whether the content is illegally used by the detected identifier by the search target content check unit (34). In the step (S13) of causing the unauthorized use search device to execute (2a) and setting the priority order, the priority order setting unit (33) determines a plus keyword and a priority order, which are included in the keyword and increase the priority order. Search to the lower hierarchy based on one or both of the negative keywords to lower In order to set the priority order in the link information to be used.
[0011]
Further, a content unauthorized use search method according to the present invention is a content unauthorized use search method by a content unauthorized use search device (2a) for searching for unauthorized use of content in an electronic network, wherein a keyword and a top-level hierarchy of the content to be searched are provided. Steps (S1, S2) in which address information is input from an input unit (4), and search target collection of text information described in a hierarchy specified by the address information input from the input unit (4) (S3) collecting the content linked in the collected text information by the search target collection unit (31); and (S5) collecting the content linked in the collected text information. An identifier embedded in the collected content by a digital watermark is detected, and based on the detected identifier, A step (S6, S7, S8) of determining whether or not the content is illegally used by the search target content check unit (34); and a step of determining whether the content is illegally used is included in the text information collected by the search target collection unit (31). A step (S12) of analyzing link information for searching from a hierarchy of the text information to a lower hierarchy by a text analysis unit (32), and the text information based on the keyword input from the input unit (4). Setting a priority order by the priority order setting unit (33) to the link information analyzed by the analyzing unit (32) (S13); and setting the link information according to the priority order set by the priority order setting unit (33). The text information described in the hierarchy specified by is collected by the search target collection unit (31) (S15) and collected. A step (S5) of collecting the content linked in the text information by the search target collection unit (31), and an identifier embedded in the content collected by the search target collection unit (31) by an electronic watermark. (S6, S7, S8) determining by the search target content check unit (34) whether the content is illegally used based on the detected identifier, and setting the priority order. In step (S13), the priority setting unit (33) determines the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. And setting the priority order in the link information for searching for the link.
[0012]
According to such a configuration, not all contents on the electronic network are to be searched, but a search priority is assigned to each link information based on the input keyword, and the contents are determined based on the priority. To explore. According to such a configuration, it is possible to efficiently search for the content of interest and reduce the time required for collecting the content and checking the detection of the digital watermark.
[0013]
Further, a content unauthorized use search device (2b) according to the present invention is a content unauthorized use search device (2b) for searching for unauthorized use of content in an electronic network, and includes address information capable of specifying content and priority of the address information. A content database (8) that manages a set of a degree and an acquisition date and time at which the content was obtained, a keyword database (9) that manages a set of a keyword and the importance of the keyword, and a content to be searched. An input unit (4) for inputting starting address information to be input, a circulating unit (41) for extracting the address information managed by the content database (8) in descending order of the priority, and outputting it as an acquisition list; The content to be searched based on the address information included in the list A content acquisition unit (42) to be acquired, a hypertext determination unit (43) that determines whether the content acquired by the content acquisition unit (42) is hypertext including link information, and the content acquisition unit (42) When the acquired content is a hypertext including link information, the link information included in the hypertext is analyzed, and a neighborhood within a predetermined range from the secondary node address information and the link information is analyzed. A text analysis unit (44) that outputs a set of keywords as a morpheme table, and a search for the nearby keywords included in the morpheme table from the keyword database (9), and according to a search result, the content database (8). Generating a fluctuation value for changing the priority within A content registration unit (45) for registering the content with the address information in the content database (8); and an unauthorized use determination unit (42) for determining whether or not the content acquired by the content acquisition unit (42) is illegally used. 35), and when the priority is within a predetermined range, the circulating unit (41) performs, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, The address information is extracted from the content database (8) in order from the closest to the maximum value of the predetermined range, and the extracted address information is sorted in the order of the date and time of acquisition, and the address information is preferentially added to the acquisition list from the oldest address information. Outputting the acquisition list when the number of the address information to be added to the acquisition list reaches a predetermined maximum number of times. Sign.
[0014]
Further, a content unauthorized use search program according to the present invention is a content unauthorized use search program for causing a content unauthorized use search device (2b) to search for unauthorized use of content in an electronic network. A step of inputting the starting address information to be specified from the input unit (4), a content database for managing a set of the address information capable of specifying the content, the priority of the address information, and the date and time when the content was obtained ( 8) fetching the address information managed by the circulating unit (41) in descending order of the priority and outputting the acquired information as an acquisition list; and retrieving the content to be searched based on the address information included in the acquisition list. Steps acquired by the content acquisition section (42) Determining by the hypertext determination unit (43) whether or not the content obtained by the content obtaining unit (42) is hypertext including link information; and obtaining by the content obtaining unit (42) When the content is hypertext including link information, the text analysis unit (44) analyzes the link information included in the hypertext and is within a predetermined range from the secondary node address information and the link information. Outputting a set of neighboring keywords as a morpheme table as a morpheme table, and a content registration unit (45) for managing the neighboring keywords included in the morpheme table as a set of keywords and the importance of the keywords ( 9) and search for the Generating a change value for changing the priority in the contents database and registering the generated change value together with the address information in the content database (8); (42) causing the content unauthorized use search device to execute the step of determining whether or not the acquired content has been illegally used (2b), and outputting the acquisition list, wherein the traveling unit (41) When the priority is within a predetermined range, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, the content database ( 8), the address information is extracted, and the extracted address information is sorted in ascending order of the acquisition date and time. The address information to be added to the acquisition list preferentially, and the acquisition list is output when the number of the address information to be added to the acquisition list reaches a predetermined cyclic maximum number. I do.
[0015]
Further, a content unauthorized use search method according to the present invention is a content unauthorized use search method by a content unauthorized use search device (2b) for searching for unauthorized use of content in an electronic network, wherein starting address information for specifying content to be searched is provided. Is input from the input unit (4), and is managed by a content database (8) that manages a set of address information capable of specifying content, the priority of the address information, and the date and time when the content was obtained. Fetching the address information by the circulating unit (41) in the descending order of the priority and outputting it as an acquisition list; and fetching the search target content based on the address information included in the acquisition list. ) And obtaining the content A step of determining whether or not the content obtained by (42) is hypertext including link information by a hypertext determining unit (43); and a step of determining whether the content obtained by the content obtaining unit (42) is link information. If the hypertext includes the hypertext, the text analysis unit (44) analyzes the link information included in the hypertext, and forms a pair of secondary node address information and a nearby keyword within a predetermined range from the link information. Outputting as a morpheme table by a content registration unit (45), searching for the neighboring keywords included in the morpheme table from a keyword database (9) that manages the keywords in combination with the importance of the keywords; Depending on the search results, Generating a fluctuation value for changing the degree, registering the generated fluctuation value together with the address information in the content database (8), and acquiring the content by the content acquisition unit (42) by the unauthorized use determination unit (35) Determining whether or not the content has been illegally used. In the step of outputting the acquisition list, when the priority is within a predetermined range, For each of a plurality of ranges generated by dividing a predetermined range by a predetermined constant, the address information is extracted from the content database (8) in the order from the maximum value of the predetermined range, and the extracted address information is The acquisition date and time are sorted in chronological order, oldest address information is preferentially added to the acquisition list, and added to the acquisition list. The acquisition list is output when the number of the address information to be added reaches a predetermined maximum number of tours.
[0016]
According to such a configuration, when the collected content is a hypertext, a keyword near the link information is searched, and the priority is changed according to the presence or absence of the keyword. collect. Also, sites linked from sites with higher priority inherit the priority. According to such a configuration, it is possible to easily cope with replacement of a link structure or content by a malicious person.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[0018]
It should be noted that the same or equivalent parts and components are denoted by the same or equivalent reference symbols throughout the drawings, and the description thereof will be omitted or simplified.
[0019]
[First Embodiment]
[Configuration of content unauthorized use search device]
The content unauthorized use search device 2a according to the first embodiment of the present invention is configured on a computer device such as a personal computer, a workstation, and a general-purpose computer. Specifically, as shown in FIG. 2, the content unauthorized use search device 2a includes a CPU 1, a RAM 2, a ROM 3, an input I / F unit 4, a communication control unit 5, an ID data / URL database 6, and the Internet 7 It has a connectable configuration.
[0020]
The CPU 1 controls the operation of the content abuse search device 2a according to a computer program stored in the ROM 3. Further, the RAM 2 provides a work area for temporarily storing computer programs and data relating to various processes executed by the CPU 1.
[0021]
The ROM 3 stores various computer programs such as the content unauthorized use search program 3a and data necessary for executing the programs. The ROM 3 includes a recording medium readable by the CPU 1, such as a magnetic or optical recording medium or a semiconductor memory. The computer program and data stored in the recording medium may be configured to receive part or all of the data via the Internet 7.
[0022]
The input interface (I / F) unit 4 is an interface for inputting various information (keywords and the address information of the highest hierarchy of the content to be searched) necessary for executing an unauthorized use search process described later. Take the role of.
[0023]
The communication control unit 5 includes, for example, a data communication protocol such as HTTP (Hyper Text Transfer Protocol) and TCP / IP (Transfer Control Protocol / Internet Protocol), such as SMTP (Simple Mail Transport Protocol) or Simple Mail Protocol (PO). Implement e-mail communication protocol. The communication control unit 5 transmits various data via the Internet 7 using these protocols, and converts the received various data into a format that can be processed by the CPU 1.
[0024]
The ID data / URL database 6 stores the ID data recorded in the content to be managed by the digital watermark, the valid URL address information of the content, and the electronic mail address as the contact information of the valid owner.
[0025]
As shown in FIG. 1, the content unauthorized use search program 3a includes a search target collection unit 31, a text analysis unit 32, a priority setting unit 33, a search target content check unit 34, an unauthorized use determination unit 35, and a warning mail transmission unit. 36.
[0026]
The search target collection unit 31 collects text information described in a hierarchy specified by the address information input from the input I / F unit 4, and collects content linked in the collected text information. .
[0027]
The search target content check unit 34 detects an identifier embedded in the content collected by the search target collection unit 31 with a digital watermark, and determines whether the content is illegally used based on the detected identifier.
[0028]
The text analysis unit 32 analyzes link information included in the text information collected by the search target collection unit 31 for searching from a hierarchy of text information to a lower hierarchy.
[0029]
The priority setting unit 33 sets a priority to the link information analyzed by the text analysis unit 32 based on the keyword input from the input I / F unit 4.
[0030]
Then, the search target collection unit 31 collects text information described in the lower hierarchy specified by the link information according to the priority set by the priority setting unit 33, and stores the text information in the collected lower hierarchy. The search target content check unit 34 detects an identifier embedded in the lower-level content collected by the search target collection unit 31 by an electronic watermark, and the content is linked to the content by the detected identifier. It is determined whether or not an unauthorized use has been made.
[0031]
The keyword includes one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority. The priority setting unit 33 includes one or both of the plus keyword and the minus keyword. Based on the keyword, the priority is set to the link information for searching the lower hierarchy.
[0032]
[Processing operation of content abuse search device]
Next, with reference to a flowchart shown in FIG. 3, a description will be given of a processing operation of the content unauthorized use search device 2a according to the first embodiment when searching for unauthorized use of content.
[0033]
In the processing in steps S1 and S2, the user inputs address information of the highest URL (Uniform Resource Locator) via the input I / F unit 4 and a keyword that is a source of the priority of the URL to be searched. Here, for example, the user may input “idle”, “singer A child”, “group B”, “singer C child”, “singer D child”, “CG”, and “painting” as plus keywords. The following processing will be described.
[0034]
In the process of step S3, the search target collection unit 31 downloads, via the communication control unit 5, the HTML text of the homepage located at the address position of the input highest URL into the RAM2.
[0035]
In the process of step S4, the text analysis unit 32 determines whether or not a content such as an image is linked in the HTML text downloaded by the search target collection unit 31. If the content is linked as a result of the determination, the process proceeds to step S5. On the other hand, as a result of the determination in step S4, if the content is not linked in the HTML text downloaded by the search target collection unit 31, the process proceeds to step S12.
[0036]
In the process of step S5, the search target collection unit 31 downloads the content linked to the HTML text to the RAM 2.
[0037]
In the process of step S6, the search target content check unit 34 detects a digital watermark from the content downloaded to the RAM 2, and recognizes ID data recorded by the detected digital watermark. Various methods are conceivable for this digital watermarking method.For example, when the content is image data, a digital watermark is embedded by manipulating a bit string representing the luminance of a pixel, or when the content is music data, There is a method of decomposing a waveform into frequency components and performing processing such as shifting the phase to embed a digital watermark.
[0038]
In the processing of steps S7 to S8, the unauthorized use determination unit 35 reads the ID data stored in the ID data / URL database 6, compares the read ID data with the ID data recorded by the digital watermark, and determines whether the downloaded content is It is determined whether the content is to be managed. Then, as a result of the determination, if it is determined that the URL is to be managed, in the process of step S10, the unauthorized use determination unit 35 determines the URL address stored in the ID data / URL database 6 and the detected URL address. To determine whether the URL address from which the content was downloaded is valid. If the result of the determination is that the URL address is valid, the process proceeds to step S12. On the other hand, if the result of determination in step S10 is that the URL address is not valid, the process proceeds to step S10.
[0039]
In the process of step S10, the unauthorized use determining unit 35 determines that the content is being illegally used, and sends information on the content and a mail address of the transmission destination to the warning mail transmitting unit 36.
[0040]
In the processing of step S11, the warning mail transmitting unit 36 creates a warning mail in which information of the content, the URL address information of the content, the date and time of detecting the fraud, etc. A warning mail is transmitted to the user, and the process proceeds to step S12.
[0041]
In the process of step S12, the text analysis unit 32 determines the text part “img src =” (underlined part A) indicating the image source as shown in FIG. 4 in the downloaded HTML text and the link destination to the next hierarchy. In the vicinity of a text part “A HREF =” (underlined part B) indicating a URL address (for example, a text part C of a total of three lines of one line before and after), a keyword (“” Perform pattern search to analyze whether or not "idol", "singer A child", "group B", "singer C child", "singer D child", "CG", "painting") exist I do.
[0042]
In the process of step S13, the priority determination unit 33 sets the search priority of the image source or the link destination URL address indicated by the text portion where the input keyword exists to +1. When the search priority has been set for the text portion indicating the link destination URL address in the downloaded HTML text, the process proceeds to step S14.
[0043]
In the process of step S14, the priority setting unit 33 determines whether or not the set search priority is equal to or greater than a predetermined value (for example, 1) and there is an unprocessed image source or link destination URL address. Then, as a result of the determination, if there is an unprocessed image source or link destination URL address whose search priority is equal to or more than a predetermined value, the priority order setting unit 33 sets the image source or link destination whose search priority is equal to or more than the predetermined value. The URL address or all or part of the image source or link destination URL address sorted in the search priority order is sent to the search target collection unit 31, and the process proceeds to step S15. On the other hand, as a result of the determination, if there is no unprocessed image source or link destination URL address whose search priority is equal to or more than the predetermined value, a series of search processing ends.
[0044]
In the process of step S15, the search target collection unit 31 downloads the HTML text indicated by the transmitted link destination URL address into the RAM 2 via the communication control unit 5, and returns to the process of step S4.
[0045]
If content such as an image is linked in the HTML sentence downloaded in the process of step S15, or if there is an image source whose search priority is equal to or more than a predetermined value in the process of step S14, In steps S5 to S11, the content is downloaded, and it is determined whether or not the content is illegally used.
[0046]
If no content is linked in the HTML sentence downloaded in the process of step S15, and if there is no image source whose search priority is equal to or higher than the predetermined value in the process of step S14, the above-described step S12 is performed. Thereafter, processing for searching for the next lower hierarchy is performed.
[0047]
In the above-described search processing, the user has been described as having input a plus keyword indicating content to be searched with priority. However, the user may input a minus keyword indicating content not to be searched together with the plus keyword or alone. Is also good. In this case, as shown in the flowchart of FIG. 5, the CPU 1 executes a pattern search based on the input plus keyword and minus keyword (step S12A), and executes an image source or a link destination indicated by the text portion where the plus keyword exists. The search priority of the URL address is set to +1 and the search priority of the image source or the link destination URL address indicated by the text portion in which the minus keyword exists is set to -1 (steps S13A and S13B).
[0048]
According to such a configuration, for example, “CG” or “painting” is used as a plus keyword for “idol”, “singer A child”, “group B”, “singer C child”, “singer D child”, and the like. When input as a negative keyword, image contents related to “CG” and “painting” can be excluded from search targets, and only a picture image can be efficiently searched. The other processing steps in the flow chart of FIG. 5 are the same as those shown in the flow chart of FIG. 3, and the description thereof is omitted here.
[0049]
[Second embodiment]
[Configuration of content unauthorized use search device]
As shown in FIGS. 6 and 7, the content unauthorized use search device 2b according to the second embodiment uses a content database instead of the ID data / URL database 6 included in the content unauthorized use search device 2a according to the first embodiment. 8 and a keyword database 9.
[0050]
The content database 8 stores, as shown in FIG. 8, table data in which n URLs corresponding to content address information are described with search priorities assigned thereto. Each piece of address information is a unique main key in the table, and the priority is represented by a comparable value.
[0051]
The keyword database 9 stores, as shown in FIG. 9, data in which p keywords are given importance and described in a text format. Specifically, this keyword is a text similar to a proper noun such as an artist name such as “Singer A child”, “Group B”, “Singer C child”, “Singer D child”, and weights importance. Registered by the user. The importance may be either positive or negative. If the importance is a positive value, the importance of the search is increased. Conversely, if the importance is a negative value, the importance of the search is Goes down. Also, when it is troublesome for the user to specify the importance level in detail, many hypertexts are subjected to morphological analysis in advance, and statistics of the word appearance distribution in all documents and the word appearance frequency in one sentence are obtained. The word importance may be calculated by a TF (Term Frequency) / IDF (Inverted Document Frequency) method or the like, a word importance table may be created, and the user may register the importance by referring to the word importance table. Specifically, when the importance of the word “Singer A child” is 0.17 in the word importance table, a value 0.34 obtained by multiplying the importance by an appropriate constant is stored in the keyword database 9. If the importance is to be registered, the user does not need to be aware of the frequency of appearance of the word itself, and the labor required for registering the importance can be reduced.
[0052]
The content unauthorized use search program 3b includes a traveling unit 41, a content acquisition unit 42, a hypertext determination unit 43, a text analysis unit 44, a content registration unit 45, an unauthorized use determination unit 35, and a warning mail transmission unit 36.
[0053]
From the input I / F unit 4, the user inputs start address information specifying the content to be searched.
[0054]
The traveling unit 41 extracts address information managed by the content database 8 in descending order of priority and outputs it as an acquisition list. Note that, when the priority is within a predetermined range, the circulating unit 41 performs, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, the plurality of ranges generated in order from a maximum value in the predetermined range. The address information is extracted from the content database 8, the extracted address information is sorted in the order of the acquisition date and time, and the oldest address information is preferentially added to the acquisition list. The acquisition list is output at the point when it reaches.
[0055]
The content acquisition unit 42 acquires the search target content based on the address information included in the acquisition list.
[0056]
The hypertext determination unit 43 determines whether the content acquired by the content acquisition unit 42 is a hypertext including link information.
[0057]
When the content acquired by the content acquisition unit 42 is a hypertext including link information, the text analysis unit 44 analyzes the link information included in the hypertext and performs a predetermined process based on the secondary node address information and the link information. A morpheme table is output by combining a set of nearby keywords within the range.
[0058]
The content registration unit 45 searches the keyword database 9 for nearby keywords included in the morpheme table, generates a variation value that changes the priority in the content database 8 according to the search result, and stores the generated variation value together with the address information. Register in the content database 8.
[0059]
[Processing operation of content abuse search device]
Next, the processing operation of the content unauthorized use search device 2b when determining unauthorized use of content will be described with reference to the flowchart shown in FIG.
[0060]
In the process of step S20, the user inputs the address information of the origin node via the input I / F unit 4. Note that the origin node input here indicates a directory service type portal site, and the address information of the origin node means the URL of the portal site.
[0061]
In the process of step S21, the traveling unit 41 extracts address information from the content database 8 in descending order of priority, and generates a content acquisition list. The processing by the traveling unit 41 is performed in a database language SQL (Structured).
Query Language) can be expressed as follows.
[0062]
(Equation 1)
Figure 2004110151
In the process of step S22, the content acquisition unit 42 sequentially extracts address information from the acquisition list generated by the traveling unit 41, accesses the Internet 7 via the communication control unit 5, and acquires the content indicated by the address information.
[0063]
In the process of step S23, the content acquisition unit 42 refers to the content database 8 and subtracts a predetermined attenuation value R from the priority of the address information b from which the content has been acquired. The processing by the content acquisition unit 42 can be expressed as follows in the database language SQL. Note that the address information b indicates the identifier of the address information from which the content was acquired.
[0064]
(Equation 2)
Figure 2004110151
In the process of step S24, the hypertext determination unit 43 analyzes the content type using the binary fingerprint, the header character string, and the like included in the content acquired by the content acquisition unit 42, and determines that the acquired content is a hypertext. Is determined. If the result of the determination is that it is not a hypertext, the process proceeds to the fraud detection processing of step S29. On the other hand, if the result of the determination is that the text is a hypertext, the process proceeds to step S25.
[0065]
In the processing in step S25, the text analysis unit 44 analyzes the hypertext analyzed by the hypertext determination unit 43 and the link information included in the plain text. Note that the “link information” here refers to an A tag (“<ahref =“ secondary address information ”> anchor text </a>) when the hypertext is described in the HTML format, It corresponds to a text tag such as an IMG tag (“<img src =“ secondary node address information “ALT =“ supplementary text ”>”) ”, and stores secondary node address information necessary for accessing content and other Internet sites. Including.
[0066]
In the process of step S26, the text analysis unit 44 cuts out the text near the link information within an appropriate range such as a line unit, and generates a nearby keyword group together with the anchor text and the supplementary text.
[0067]
In the process of step S27, the text analysis unit 44 sets the secondary node address information and the neighborhood keyword group, and outputs the set as a morpheme table that can be read out by designating an arbitrary line, for example, as shown in FIG. Here, in the morpheme table, the secondary node address information is address information similar to a URL, and the total number is o. Further, the secondary node address information is sorted so that the same addresses form a group. On the other hand, the nearby keywords are text and have a unique configuration without duplication. In the morpheme table shown in FIG. 11, the secondary node address information 1 includes the neighborhood keywords 1, 2, 3, the secondary node address information 2 includes only the neighborhood keyword 1, and the secondary node address information 3 illustrates that only the nearby keyword 4 exists.
[0068]
In the process of step S28, the content registration unit 45 analyzes the morpheme table output by the text analysis unit 44 to calculate the variation value h, and adds the calculated variation value h to the priority of the content database 8. The details of the content registration process will be described later.
[0069]
In the process of step S29, the unauthorized use determination unit 35 determines whether or not the content has been illegally used by using a digital watermark extraction algorithm or the like as described in the first embodiment. If the result of the determination is not unauthorized use, the process returns to step S22. If the result of determination is unauthorized use, the process proceeds to step S30.
[0070]
In the process of step S30, the unauthorized use determination unit 35 stores the information of the illegally used content and the address information thereof in the RAM 3, and the warning mail transmitting unit 36 transmits the information of the illegally used content and the information thereof. The user is notified of the address information by electronic mail, and the process returns to step S22.
[0071]
[Content registration process]
Here, with reference to the flowchart shown in FIG. 12, the processing operation of the content unauthorized use search device 2b when performing the content registration process in step S28 will be described in detail.
[0072]
In the flowchart shown in FIG. 12, the process is started by shifting to the process from step S27 to step S28.
[0073]
In the process of step S41, the content registration unit 45 initializes each value by setting the loop variable i to “1”, the secondary node address information a to “φ”, and the fluctuation value h to “0”. .
[0074]
In the process of step S42, the content registration unit 45 reads the data of the i-th row of the morpheme table, and sets the secondary node address information to the work variable u and the nearby keyword to the work variable k.
[0075]
In the process of step S43, the content registration unit 45 determines whether the reading process in step S42 has been successful. Then, as a result of the determination, when the reading is successful, the process proceeds to step S47. On the other hand, as a result of the determination, if the reading has failed, the process proceeds to step S44.
[0076]
In the process of step S44, the content registration unit 45 determines whether or not there is a row of “address information = a” in the content database 8. The processing by the content registration unit 45 can be expressed as follows in a database language SQL.
[0077]
[Equation 3]
Figure 2004110151
If “a = φ”, it is assumed that no corresponding row exists in the content database 8. Then, as a result of the determination, if there is no line where “address information = a” exists, the process proceeds to step S46. On the other hand, as a result of the determination, if there is a row where “address information = a”, the process proceeds to step S45.
[0078]
In the process of step S45, the content registration unit 45 updates the priority associated with the address information a. The processing by the content registration unit 45 can be expressed as follows in a database language SQL.
[0079]
(Equation 4)
Figure 2004110151
In the process of step S46, the content registration unit 45 adds a new line to the content database 8 having a priority obtained by adding the fluctuation value h to the priority of the link information of the upper layer. More specifically, since the upper layer of the address information a is the address information b held by the content registration unit 45 in the process of step S22, the content registration unit 45 stores, for example, the following database The priority w of the address information b is acquired from the content database 11 by the language SQL.
[0080]
(Equation 5)
Figure 2004110151
Then, the content registration unit 45 has a priority obtained by adding the fluctuation value h to the priority of the upper layer and adds a new line with the address information a as a primary key, for example, in the following database language SQL. I do.
[0081]
(Equation 6)
Figure 2004110151
By processing in this way, it is possible to raise the priority of the address in advance on the assumption that the destination linked from a suspicious site is likely to be a suspicious site, and a series of The registration process ends.
[0082]
On the other hand, in the process of step S47, the content registration unit 45 determines whether or not the secondary node address information a and the work variable u are equal, so that the same secondary node address information is continuously displayed on the morpheme table. It is determined whether or not it is.
[0083]
If the secondary node address information a is equal to the work variable u as a result of the determination, the content registration unit 45 performs the process of step S48 by using the nearby keyword set in the work variable k as a search key. The database 12 is searched to extract the importance of the nearby keywords. Then, the content registration unit 45 adds the extracted importance to the fluctuation value h, increments the loop variable i by 1, and returns to the processing of step S42. According to such processing, when the secondary node address information is continuous, the fluctuation value h can be collected for each of the same secondary node address information.
[0084]
On the other hand, if the secondary node address information a is not equal to the work variable u as a result of the determination processing in step S47, the content registration unit 45 determines in step S49 that the secondary node address information a has an empty character string φ. Is determined. If the result of the determination is that the secondary node address information a is not the null character string φ, the process proceeds to step S44a.
[0085]
In the process of step S44a, the content registration unit 45 determines whether or not there is a row in which “address information = a” exists in the content database 8.
[0086]
Then, as a result of the determination processing in step S44a, if there is no line in which “address information = a” exists, the process proceeds to step S46a, and the content registration unit 45 changes the priority of the link information of the upper layer by the variation value. A new row having the value obtained by adding h to the priority is added to the content database 8, the variable value h is set to 0, and the process returns to step S50.
[0087]
Also, as a result of the determination processing in step S44a, if there is a row with “address information = a”, the process proceeds to step S45a, and the content registration unit 45 updates the priority associated with the address information a. Then, the variable value h is set to 0, and the process returns to step S50.
[0088]
On the other hand, if the result of the determination processing in step S49 is that the secondary node address information a is an empty character string φ, the process proceeds to step S50. In the process of step S50, the content registration unit 45 substitutes the contents of the work variable u for the secondary node address information a, and proceeds to step S48. Note that the processing in step S49 corresponds to the processing when reading the morpheme table for the first time.
[0089]
[Third Embodiment]
In the content abuse search device 2b according to the second embodiment, the acquisition list generated at the time of the search process is obtained by sorting all the address information registered in the content database 8 (see the process of step S21 described above). ). However, according to such a configuration of the acquisition list, when the number of sites to be searched increases, the time required for processing one acquisition list and the priority in the content database 11 that is changing sequentially indicate the actual content. The time required to reflect on the acquisition may be long.
[0090]
Therefore, the content unauthorized use search device 2b according to the third embodiment performs the following operation to review the acquisition list every predetermined upper limit order q. Hereinafter, the configuration and operation of the content unauthorized use search device 2b according to the third embodiment of the present invention will be described.
[0091]
[Configuration of content unauthorized use search device]
In the content unauthorized use search device 2b according to the third embodiment, the data format of the table data stored in the content database 8 is different from that of the content unauthorized use search device 2b according to the second embodiment.
[0092]
As shown in FIG. 13, the table data stored in the content database 8 stores the update date and time in addition to the address information and the priority. Here, the “update date and time” is date-type data having a numerical value that can be compared. Here, for simplification, the data of the accumulated seconds (integration of the number of seconds with January 01, 1970 being 0) is used as the date-type data. Is defined as data.
[0093]
The other configuration of the content unauthorized use search device 2b according to the third embodiment is the same as that of the content unauthorized use search device 2b according to the second embodiment, and a description thereof will be omitted.
[0094]
[Processing operation of content abuse search device]
As shown in FIG. 14, in the process of step S60, the user inputs the address information of the origin node via the input I / F unit 4.
[0095]
In the process of step S61, the traveling unit 41 generates a content acquisition list from the content database 8 according to the following four conditions. Note that the acquisition list generation processing by the traveling unit 41 will be described later in detail.
[0096]
(1) The number s of address information in the acquisition list does not exceed the upper limit order number q.
[0097]
(2) Add to the acquisition list from address information with high priority
(3) Add to the acquisition list from the oldest updated address information
(4) Do not add address information for which content was recently acquired
In the process of step S62, the content acquisition unit 42 sequentially extracts address information from the acquisition list generated by the traveling unit 41, accesses the Internet 7 via the communication control unit 5, and acquires the content indicated by the address information. In addition, the content acquisition unit 42 acquires the current date and time now when the content was acquired as date type data with reference to the system clock, and updates the update date and time corresponding to the address information in the content database 8. The update processing of the update date and time can be expressed as follows in the database language SQL. Note that b indicates an identifier of the address information from which the content was acquired.
[0098]
(Equation 7)
Figure 2004110151
In addition, in the processing after step S63, when a new line is added to the content database 8 (corresponding to the processing of step S46), the content registration unit 45 executes, for example, “INSERT INTO content database VALUES (a, w + h, 0); Except that the update date and time are set to the oldest value (0) in the date type by the database language SQL such as "." Here, the description is omitted.
[0099]
[Acquisition list generation processing]
Next, with reference to the flowchart shown in FIG. 15, the processing operation of the content unauthorized use search device 2b when executing the acquisition list generation processing in step S61 will be described.
[0100]
The process shown in the flowchart of FIG. 15 is started when the user shifts from step S60 to step S61.
[0101]
In the process of step S81, the traveling unit 41 searches the content database 8, and sets the priority of the content whose priority is equal to or more than the maximum value MAX to the maximum value MAX and sets the priority of the content whose priority is equal to or less than the minimum value MIN to the minimum value MIN. Set (clipping processing). The processing by the traveling unit 41 can be expressed as follows in the database language SQL.
[0102]
(Equation 8)
Figure 2004110151
The maximum value MAX and the minimum value MIN are determined by using a predetermined constant, or an average value of all priorities contained in the content database 11 and a standard deviation obtained based on a variance value. May be variables calculated statistically each time, such as when the priority values corresponding to the deviation value 25 and the deviation value 75 are assumed to be the maximum value MAX and the minimum value MIN, respectively, assuming that the values follow the normal distribution. .
[0103]
In the process of step S82, the traveling unit 41 initializes each value by setting the value of the loop variable i to d and setting the value of the acquisition list st to φ.
[0104]
In the process of step S83, the traveling unit 41 calculates an acquisition section start point sa (= sd × i) and an acquisition section end point sb (sd × (i + 1)). Here, the variable sd corresponds to an interval variable, and is calculated by the following equation. Note that the variable d is a division constant.
[0105]
(Equation 9)
sd = (maximum value MAX−minimum value MIN) / d
In the process of step S84, the circulating unit 41 acquires the current date and time as a date type by referring to the system clock, and then refers to the content database 11 using, for example, the database language SQL shown below, and ends the section. A candidate list is created by sorting address information having the priority of “point> priority ≧ section start point” in ascending order by update date and time. Note that cut indicates a cut-off date and time constant, and is a predefined value.
[0106]
(Equation 10)
Figure 2004110151
According to such processing, it is possible to generate a candidate list it arranged in chronological order from the address information having the priority included in a certain section.
[0107]
In the process of step S85, the traveling unit 41 calculates the number sm of address information in the acquisition list st and the number im of address information in the candidate list it. If (q−sm)> im, “im”, im ≦ If (q-sm), "q-sm" pieces of address information are extracted from the candidate list it (where the variable q indicates the maximum number of rounds).
[0108]
Then, the traveling unit 41 adds the extracted address information to the acquisition list st.
[0109]
In the process of step S86, the traveling unit 41 determines whether the number sm of address information in the acquisition list st is equal to the maximum traveling number q. If the result of the determination is that they are equal, the process proceeds to step S89. On the other hand, if the result of the determination is not equal, the process proceeds to step S87.
[0110]
In the process of step S87, the traveling unit 41 decrements the value of the loop variable i by one.
[0111]
In the process of step S88, the traveling unit 41 determines whether the value of the loop variable i is negative. If the result of the determination is not negative, the process returns to step S83. On the other hand, if it is negative, the process proceeds to step S89.
[0112]
In the process of step S89, the traveling unit 41 outputs the acquisition list st. After the process of step S89 is completed, the CPU 1 monitors whether or not the acquisition of the content is completed, and upon completion of the acquisition of the content, the CPU 1 executes the generation process again.
[0113]
According to such processing, the priority in the content database 8 fluctuates due to the acquisition and analysis of the content, and the CPU 1 traverses a high-priority site to be acquired next time while referring to the fluctuated priority. Since the selection is made within the range of the number q, the priority can be quickly applied to the content search, and the cyclic processing with high strategy can be performed.
[0114]
As is apparent from the above description, the content unauthorized use search device 2b according to the first embodiment does not search all contents on the Internet 7 but searches each link information based on the input keyword. Since the search priority is assigned and the content is searched based on the priority, the content of interest can be searched efficiently, and the time required for collecting the content and checking the detection of the digital watermark can be reduced.
[0115]
Further, according to the content unauthorized use search device 2b according to the second embodiment or the third embodiment, when a malicious person who manages a certain Internet site performs unauthorized use of the content, a link to the illegally used content is provided. Since hypertexts containing information remain with high priority, even if unauthorized content is moved to another hypertext within the same site or another Internet site, in order to guide an unspecified number of viewing users, Link information including anchor text such as "Click here for destination" must be described in the original hypertext. Also, since the page containing the link information has already been given a high priority, the page is quickly checked, and the relocation destination can be easily found. Furthermore, since the transfer destination is given a high priority from the beginning by inheriting the priority, it is possible to check quickly. That is, according to the contents unauthorized use search device 2b according to the second and third embodiments of the present invention, it is possible to easily cope with the replacement of the link structure or the contents by a malicious person.
[0116]
As described above, the first to third embodiments have been described in detail, but the present invention can be implemented in other various forms without departing from the spirit or main features. Therefore, the above-described embodiment is merely an example in every aspect, and should not be interpreted in a limited manner. The scope of the present invention is defined by the appended claims, and is not limited by the specification. Further, all modifications and changes belonging to the equivalent scope of the claims are within the scope of the present invention.
[0117]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to this invention, the time required for content collection and the detection check of a digital watermark can be shortened, and it can respond easily to the link structure and replacement of content by a malicious user.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a functional configuration of a content unauthorized use search device according to a first embodiment;
FIG. 2 is a block diagram illustrating a hardware configuration of a content unauthorized use search device shown in FIG. 1;
FIG. 3 is a flowchart illustrating a flow of a content unauthorized use search process performed by the content unauthorized use search device illustrated in FIG. 1;
4 is a diagram exemplifying an HTML text analyzed by a text analysis unit in the content unauthorized use search processing shown in FIG. 3;
FIG. 5 is a flowchart showing an application example of the content unauthorized use search processing shown in FIG. 3;
FIG. 6 is a block diagram illustrating a functional configuration of a content unauthorized use search device according to a second embodiment;
FIG. 7 is a block diagram illustrating a hardware configuration of the content abuse search device shown in FIG. 6;
8 is a diagram illustrating a data format of a content database of the content abuse search device shown in FIG. 6;
9 is a diagram illustrating a data format of a keyword database of the content abuse search device shown in FIG. 6;
FIG. 10 is a flowchart illustrating a flow of a content unauthorized use search process performed by the content unauthorized use search device illustrated in FIG. 6;
11 is a diagram illustrating a morpheme table used in the content unauthorized use search processing shown in FIG. 10;
12 is a flowchart illustrating a flow of a content acquisition process in the content unauthorized use search process shown in FIG.
FIG. 13 is a diagram exemplifying a data format of a content database in the content unauthorized use search device according to the third embodiment.
FIG. 14 is a flowchart illustrating a content unauthorized use search processing flow by the content unauthorized use search device according to the third embodiment;
FIG. 15 is a flowchart illustrating a flow of an acquisition list generation process in the content unauthorized use search process shown in FIG. 14;
[Explanation of symbols]
1 ... CPU
2 ... RAM
2a ... Content illegal use search device
2b Content illegal use search device
3 ROM
3a: Content illegal use search program
3b ... Content illegal use search program
4: Input I / F section
5 Communication control unit
6 ... ID data / URL database
7 ... Internet
8 Content database
9 ... Keyword database
11 ... Content database
12 ... Keyword database
31 ... Search target collection unit
32: Text analysis unit
33: priority setting section
34: Search target content check unit
35 ... Unauthorized use determination unit
36 ... Warning mail sending unit
41 ... Circulation section
42 ... Content acquisition unit
43 ... Hypertext determination unit
44 ... Text analysis unit
45 ... Content registration section

Claims (6)

電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置であって、
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力される入力部と、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する探索対象収集部と、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する探索対象コンテンツチェック部と、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を解析するテキスト解析部と、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に優先順位を設定する優先順位設定部とを有し、
前記優先順位設定部は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと前記優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定し、
前記探索対象収集部は、前記優先順位設定部により設定された前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集し、前記探索対象コンテンツチェック部は、前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定すること
を特徴とするコンテンツ不正利用探索装置。
A content abuse search device that searches for unauthorized use of content in an electronic network,
An input unit for inputting a keyword and address information of the highest hierarchy of the content to be searched;
A search target collection unit that collects text information described in a hierarchy specified by the address information input from the input unit, and collects content linked in the collected text information,
A search target content check unit that detects an identifier embedded by an electronic watermark in the content collected by the search target collection unit and determines whether the content is illegally used based on the detected identifier;
A text analysis unit that analyzes link information for searching from a hierarchy of the text information to a lower hierarchy, which is included in the text information collected by the search target collection unit,
Based on the keyword input from the input unit, and a priority setting unit that sets a priority to the link information analyzed by the text analysis unit,
The priority setting unit may include, based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword, link information for searching to the lower hierarchy. Set the priorities,
The search target collection unit collects text information described in a hierarchy specified by the link information according to the priority set by the priority setting unit, and is linked into the collected text information. The search target content check unit detects an identifier embedded in the content collected by the search target collection unit by an electronic watermark, and determines whether the detected identifier is used illegally by the detected identifier. A content unauthorized use search device, characterized in that:
コンテンツ不正利用探索装置に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部から入力されるステップと、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を、探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部により判定するステップと、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部により解析するステップと、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に、優先順位設定部により優先順位を設定するステップと、
前記優先順位設定部が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を、前記探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部により判定するステップとを前記コンテンツ不正利用探索装置に実行させ、
前記優先順位を設定するステップにおいて、前記優先順位設定部が、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定するように機能させること
を特徴とするコンテンツ不正利用探索プログラム。
A content unauthorized use search program for causing a content unauthorized use search device to search for unauthorized use of content in an electronic network,
Inputting the keyword and the address information of the highest hierarchy of the content to be searched from the input unit;
The text information described in the hierarchy specified by the address information input from the input unit is collected by a search target collection unit, and the content linked in the collected text information is collected by the search target collection. Collecting by the department;
Detecting an identifier embedded by a digital watermark in the content collected by the search target collection unit, and determining whether the content is illegally used by the detected identifier by a search target content check unit;
Included in the text information collected by the search target collection unit, link information for searching from the hierarchy of the text information to a lower hierarchy, analyzing by a text analysis unit,
Based on the keyword input from the input unit, the link information analyzed by the text analysis unit, setting a priority by a priority setting unit,
According to the priority order set by the priority order setting unit, text information described in a hierarchy specified by the link information is collected by the search target collection unit, and is linked in the collected text information. Collecting content by the search target collection unit;
Detecting an identifier embedded in the content collected by the search target collection unit with a digital watermark, and determining whether the content is illegally used by the detected identifier by the search target content check unit. Causing the content abuse search device to execute,
In the step of setting the priority, the priority setting unit sets the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. A program for causing a user to set the above-mentioned priorities in link information for searching for contents.
電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置によるコンテンツ不正利用探索方法であって、
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部から入力されるステップと、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を、探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部により判定するステップと、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部により解析するステップと、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に、優先順位設定部により優先順位を設定するステップと、
前記優先順位設定部が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を、前記探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部により判定するステップとを有し、
前記優先順位を設定するステップにおいて、前記優先順位設定部は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定すること
を特徴とするコンテンツ不正利用探索方法。
A content unauthorized use search method by a content unauthorized use search device that searches for unauthorized use of content in an electronic network,
Inputting the keyword and the address information of the highest hierarchy of the content to be searched from the input unit;
The text information described in the hierarchy specified by the address information input from the input unit is collected by a search target collection unit, and the content linked in the collected text information is collected by the search target collection. Collecting by the department;
Detecting an identifier embedded by a digital watermark in the content collected by the search target collection unit, and determining whether the content is illegally used by the detected identifier by a search target content check unit;
Included in the text information collected by the search target collection unit, link information for searching from the hierarchy of the text information to a lower hierarchy, analyzing by a text analysis unit,
Based on the keyword input from the input unit, the link information analyzed by the text analysis unit, setting a priority by a priority setting unit,
According to the priority order set by the priority order setting unit, text information described in a hierarchy specified by the link information is collected by the search target collection unit, and is linked in the collected text information. Collecting content by the search target collection unit;
Detecting an identifier embedded in the content collected by the search target collection unit with a digital watermark, and determining whether the content is illegally used by the detected identifier by the search target content check unit. Have
In the step of setting the priority, the priority setting unit may include the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. A method of searching for unauthorized use of contents, wherein the priority order is set in link information for searching for contents.
電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置であって、
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースと、
キーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースと、
探索対象のコンテンツを特定する起点アドレス情報が入力される入力部と、
前記コンテンツデータベースが管理する前記アドレス情報を前記優先度の高い順に取り出して取得リストとして出力する巡回部と、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツを取得するコンテンツ取得部と、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かを判定するハイパーテキスト判定部と、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するテキスト解析部と、
前記形態素テーブルに含まれる前記近傍キーワードを前記キーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するコンテンツ登録部と、
前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定する不正利用判定部とを有し、
前記巡回部は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力すること
を特徴とするコンテンツ不正利用探索装置。
A content abuse search device that searches for unauthorized use of content in an electronic network,
A content database that manages a set of address information capable of specifying content, the priority of the address information, and the date and time when the content was obtained,
A keyword database that manages the keywords in combination with the importance of the keywords,
An input unit for inputting start address information for specifying content to be searched;
A traveling unit that extracts the address information managed by the content database in order of the priority and outputs the acquired information as an acquisition list;
A content acquisition unit that acquires the search target content based on the address information included in the acquisition list,
A hypertext determination unit that determines whether the content acquired by the content acquisition unit is hypertext including link information,
When the content obtained by the content obtaining unit is hypertext including link information, the link information included in the hypertext is analyzed, and the content is within a predetermined range from the secondary node address information and the link information. A text analysis unit that outputs a morpheme table as a set of neighboring keywords,
The keyword database is searched for the neighboring keywords included in the morphological table, and a variation value for changing the priority in the content database is generated according to a search result. The generated variation value is stored in the content together with the address information. A content registration unit for registering in the database,
An unauthorized use determining unit that determines whether the content obtained by the content obtaining unit is used illegally,
The traveling unit, when the priority is within a predetermined range, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, in order from a maximum value of the predetermined range, The address information is extracted from the content database, the extracted address information is sorted in the order of the oldest acquisition date and time, the oldest address information is preferentially added to the acquisition list, and the number of the address information to be added to the acquisition list is A content abuse search device that outputs the acquisition list when a predetermined maximum number of tours is reached.
コンテンツ不正利用探索装置に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、
探索対象のコンテンツを特定する起点アドレス情報が入力部から入力されるステップと、
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースが管理する前記アドレス情報を、巡回部により前記優先度の高い順に取り出して取得リストとして出力するステップと、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部により取得するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部により判定するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、
コンテンツ登録部により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するステップと、
不正利用判定部により、前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定するステップとを前記コンテンツ不正利用探索装置に実行させ、
前記取得リストを出力するステップにおいて、前記巡回部が、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力するように機能させること
を特徴とするコンテンツ不正利用探索プログラム。
A content unauthorized use search program for causing a content unauthorized use search device to search for unauthorized use of content in an electronic network,
A step in which start address information for specifying the content to be searched is input from the input unit;
The circulating unit extracts the address information managed by the content database that manages the address information capable of specifying the content, the priority of the address information, and the acquisition date and time at which the content was obtained, in the descending order of the priority. Outputting as an acquisition list;
Acquiring the content to be searched based on the address information included in the acquisition list by a content acquisition unit,
A step of determining whether or not the content obtained by the content obtaining unit is hypertext including link information by a hypertext determining unit,
When the content acquired by the content acquisition unit is hypertext including link information, the text analysis unit analyzes the link information included in the hypertext, and performs a predetermined process based on the secondary node address information and the link information. Outputting as a morpheme table a set of neighboring keywords in the range,
A content registration unit searches for the nearby keywords included in the morpheme table from a keyword database that manages the keywords in combination with the importance of the keywords, and changes the priority in the content database according to a search result. Generating a fluctuation value, and registering the generated fluctuation value in the content database together with the address information;
By the unauthorized use determining unit, determining whether the content acquired by the content acquiring unit has been unauthorizedly used, and causing the content unauthorized use search device to execute the
In the step of outputting the acquisition list, when the priority is within a predetermined range, the circulating unit performs the predetermined processing for each of the plurality of ranges generated by dividing the predetermined range by a predetermined constant. Fetching the address information from the content database in order from the maximum value of the range, sorting the fetched address information in chronological order of the acquisition date and time, and preferentially adding to the acquisition list from the oldest address information, A function for outputting the acquisition list when the number of the address information to be added to the predetermined number reaches a predetermined maximum number of tours.
電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置によるコンテンツ不正利用探索方法であって、
探索対象のコンテンツを特定する起点アドレス情報が入力部から入力されるステップと、
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースが管理する前記アドレス情報を、巡回部により前記優先度の高い順に取り出して取得リストとして出力するステップと、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部により取得するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部により判定するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、
コンテンツ登録部により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するステップと、
不正利用判定部により、前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定するステップとを有し、
前記取得リストを出力するステップにおいて、前記巡回部は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力すること
を特徴とするコンテンツ不正利用探索方法。
A content unauthorized use search method by a content unauthorized use search device that searches for unauthorized use of content in an electronic network,
A step in which start address information for specifying the content to be searched is input from the input unit;
The circulating unit extracts the address information managed by the content database that manages the address information capable of specifying the content, the priority of the address information, and the acquisition date and time at which the content was obtained, in the descending order of the priority. Outputting as an acquisition list;
Acquiring the content to be searched based on the address information included in the acquisition list by a content acquisition unit,
A step of determining whether or not the content obtained by the content obtaining unit is hypertext including link information by a hypertext determining unit,
When the content acquired by the content acquisition unit is hypertext including link information, the text analysis unit analyzes the link information included in the hypertext, and performs a predetermined process based on the secondary node address information and the link information. Outputting as a morpheme table a set of neighboring keywords in the range,
A content registration unit searches for the nearby keywords included in the morpheme table from a keyword database that manages the keywords in combination with the importance of the keywords, and changes the priority in the content database according to a search result. Generating a fluctuation value, and registering the generated fluctuation value in the content database together with the address information;
By an unauthorized use determining unit, determining whether or not the content acquired by the content acquiring unit has been illegally used,
In the step of outputting the acquisition list, when the priority is within a predetermined range, the circulating unit performs the predetermined processing for each of the plurality of ranges generated by dividing the predetermined range by a predetermined constant. Fetching the address information from the content database in order from the maximum value of the range, sorting the fetched address information in chronological order of the acquisition date and time, and preferentially adding to the acquisition list from the oldest address information, And outputting the acquisition list when the number of pieces of address information to be added to the predetermined number reaches a predetermined maximum number of rounds.
JP2002268632A 2002-09-13 2002-09-13 Apparatus, program, and method for searching unauthorized utilization of content Withdrawn JP2004110151A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002268632A JP2004110151A (en) 2002-09-13 2002-09-13 Apparatus, program, and method for searching unauthorized utilization of content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002268632A JP2004110151A (en) 2002-09-13 2002-09-13 Apparatus, program, and method for searching unauthorized utilization of content

Publications (1)

Publication Number Publication Date
JP2004110151A true JP2004110151A (en) 2004-04-08

Family

ID=32266804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002268632A Withdrawn JP2004110151A (en) 2002-09-13 2002-09-13 Apparatus, program, and method for searching unauthorized utilization of content

Country Status (1)

Country Link
JP (1) JP2004110151A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122450A (en) * 2005-10-28 2007-05-17 Nippon Telegr & Teleph Corp <Ntt> Automatic information acquisition device and automatic information acquisition method
JP2009522672A (en) * 2006-01-05 2009-06-11 ウエッジ ネットワークス インコーポレーテッド Improved networked content inspection system and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122450A (en) * 2005-10-28 2007-05-17 Nippon Telegr & Teleph Corp <Ntt> Automatic information acquisition device and automatic information acquisition method
JP2009522672A (en) * 2006-01-05 2009-06-11 ウエッジ ネットワークス インコーポレーテッド Improved networked content inspection system and method

Similar Documents

Publication Publication Date Title
KR100514149B1 (en) A method for searching and analysing information in data networks
Kausar et al. Web crawler: a review
US8185530B2 (en) Method and system for web document clustering
JP4358188B2 (en) Invalid click detection device in Internet search engine
US20080016147A1 (en) Method of retrieving an appropriate search engine
US20150033331A1 (en) System and method for webpage analysis
EP1182590A2 (en) Method, system, and program for gathering indexable metadata on content at a data repository
JP2007528520A (en) Method and system for managing websites registered with search engines
US20030018779A1 (en) Method, system and computer program for controlling access in a distributed data processing system
JP2006522382A (en) Method and system for managing websites registered with search engines
JP2004112318A (en) System for searching illegitimate use of contents
CN108574686B (en) Method and device for previewing file online
JP2010049473A (en) Link information extraction device, link information extraction method, and program
KR20120071827A (en) Seed information collecting device for detecting landing, hopping and distribution sites of malicious code and seed information collecting method for the same
JP5030895B2 (en) Access control system and access control method
JP2004110151A (en) Apparatus, program, and method for searching unauthorized utilization of content
JP3539146B2 (en) Use condition violation check method and apparatus for work, and storage medium storing program for use condition violation check for work
JP2004164435A (en) Relay device requesting connection and system, method and program for filtering
JP2007323225A (en) System, terminal, server and dynamic information providing method
CN113132340B (en) Phishing website identification method based on vision and host characteristics and electronic device
JP2004341942A (en) Content classification method, content classification device, content classification program, and storage medium storing content classification program
CN108804444B (en) Information capturing method and device
JP2001282837A (en) Information gathering device
JP5002631B2 (en) Word information collection device, word information collection method, and word information collection program
KR101079802B1 (en) System and Method for Searching Website, Devices for Searching Website and Recording Medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041129

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060824