JP2004110151A - Apparatus, program, and method for searching unauthorized utilization of content - Google Patents
Apparatus, program, and method for searching unauthorized utilization of content Download PDFInfo
- Publication number
- JP2004110151A JP2004110151A JP2002268632A JP2002268632A JP2004110151A JP 2004110151 A JP2004110151 A JP 2004110151A JP 2002268632 A JP2002268632 A JP 2002268632A JP 2002268632 A JP2002268632 A JP 2002268632A JP 2004110151 A JP2004110151 A JP 2004110151A
- Authority
- JP
- Japan
- Prior art keywords
- content
- unit
- priority
- address information
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、例えば著作権情報等の不正利用を防止するための情報が電子透かし情報として埋め込まれたコンテンツを探索し、埋め込まれた情報に基づいてコンテンツが不正利用されているものかどうかを判定するコンテンツ不正利用探索装置、コンテンツ不正利用探索プログラム、コンテンツ不正利用探索方法に関し、特に、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することを可能にする技術に係わる。
【0002】
【従来の技術】
近年、コンテンツの著作権を保護する目的として、コンテンツの著作権情報を電子透かし等でコンテンツに埋め込む技術が精力的に研究されており、様々な情報の埋め込み方式が現在までに提案されている。例えば、MPEG符号、とりわけDCT係数、動きベクトル、量子化特性を変更することによる、情報の埋め込み方式が提案されている(例えば、非特許文献1参照)。また、直接拡散方式に従って、PN系列で画像信号を拡散し、画像に署名情報を合成する方式が提案されている(例えば、非特許文献2参照)。
【0003】
このようなコンテンツへの情報の埋め込み方式に関する研究に伴い、最近では、コンテンツの不正利用を判定するための様々なシステムが提供されるようになっており、例えば、電子透かしを利用して購入者情報を予めコンテンツに埋め込んでおき、不正利用と思われるコンテンツに埋め込まれている情報を読み出してコンテンツが不正利用されているものかどうかを判定するシステムが提案されている。このようなシステムでは、不正利用と思われるコンテンツを探索、入手することが必要となるために、ウェブ上のコンテンツを収集するコンピュータプログラムである「ウェブロボット」を利用して収集したコンテンツの電子透かし情報のチェックを行う。このウェブロボットは、世界中のウェブサイトを常時巡回し、画像等のコンテンツが不正利用されていないかどうかを監視するものであり、監視の結果、コンテンツが不正利用されていると判断した場合には、ウェブロボットはコンテンツの不正利用を行っているウェブサイトに対し何らかの通告を行う。
【0004】
また、入力されたキーワード又はコンテンツの指定情報に応じて収集する調査対象パターンを決定し、決定した調査対象パターンに応じてネットワークを介して調査対象コンテンツを収集し、収集した調査対象コンテンツが不正利用であるかどうかを判定する技術が開示されている(例えば、特許文献1参照)。
【0005】
【特許文献1】
特開平2001−76000号公報
【非特許文献1】
日本電信電話株式会社,”DCTを用いたデジタル動画像における著作権情報埋め込み方式”,電子情報通信学会1997年暗号と情報セキュリティシンポジウム,SCIS ’97−31G
【非特許文献2】
防衛大学校,”PN系列による画像への透かし署名法”,電子情報通信学会1997年暗号と情報セキュリティシンポジウム,SCIS ’97_26B
【0006】
【発明が解決しようとする課題】
しかしながら、上記のようなコンテンツの不正利用を判定するためのシステムでは、インターネット上の全てのコンテンツが調査対象となるために、コンテンツの収集や電子透かしのチェックが完了するまでに膨大な時間を要し、コンテンツを効率的に探索することができない。特に、インターネットのような開放系のネットワークは特定の団体により管理されるものではないために、悪意を持った人間が容易に管理者となり、コンテンツの内容やリンク構造を動的に差し替えることができることを考えると、このような状況は早急に解決すべきである。
【0007】
なお、特開平2001−76000号公報に開示さている技術は、条件に適合するコンテンツのみを探索することによりコンテンツの収集や電子透かしのチェックを行うまでに要する時間をある程度は短縮させることができるが、条件に適合するコンテンツを全て対等に扱って処理を行うために効率的な探索方法であるとは必ずしも言えない。
【0008】
本発明は、以上に述べた状況を鑑みて成されたものであり、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することを可能にする、コンテンツ不正利用探索装置、コンテンツ不正利用探索プログラム、及びコンテンツ不正利用探索方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明によるコンテンツ不正利用探索装置(2a)は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2a)であって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力される入力部(4)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する探索対象収集部(31)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する探索対象コンテンツチェック部(34)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を解析するテキスト解析部(32)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位を設定する優先順位設定部(33)とを有し、前記優先順位設定部(33)は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと前記優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定し、前記探索対象収集部(31)は、前記優先順位設定部(33)により設定された前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集し、前記探索対象コンテンツチェック部(34)は、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定することを特徴とする。
【0010】
また、本発明によるコンテンツ不正利用探索プログラムは、コンテンツ不正利用探索装置(2a)に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部(4)から入力されるステップ(S1,S2)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を探索対象収集部(31)により収集し(S3)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップと(S5)、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部(32)により解析するステップ(S12)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位設定部(33)により優先順位を設定するステップ(S13)と、前記優先順位設定部(33)が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を前記探索対象収集部(31)により収集し(S15)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップ(S5)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)とを前記コンテンツ不正利用探索装置に実行させ(2a)、前記優先順位を設定するステップ(S13)において、前記優先順位設定部(33)が、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定するように機能させることを特徴とする。
【0011】
また、本発明によるコンテンツ不正利用探索方法は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2a)によるコンテンツ不正利用探索方法であって、キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部(4)から入力されるステップ(S1,S2)と、前記入力部(4)から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を探索対象収集部(31)により収集し(S3)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップと(S5)、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)と、前記探索対象収集部(31)が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部(32)により解析するステップ(S12)と、前記入力部(4)から入力された前記キーワードに基づいて、前記テキスト解析部(32)が解析した前記リンク情報に優先順位設定部(33)により優先順位を設定するステップ(S13)と、前記優先順位設定部(33)が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を前記探索対象収集部(31)により収集し(S15)、収集した当該テキスト情報内にリンクされているコンテンツを前記探索対象収集部(31)により収集するステップ(S5)と、前記探索対象収集部(31)が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部(34)により判定するステップ(S6,S7,S8)とを有し、前記優先順位を設定するステップ(S13)において、前記優先順位設定部(33)は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定することを特徴とする。
【0012】
このような構成によれば、電子ネットワーク上の全てのコンテンツを探索対象にするのではなく、入力されたキーワードに基づいて各リンク情報に探索の優先順位を付与し、この優先順位に基づいてコンテンツを探索する。このような構成によれば、注目するコンテンツを効率良く探索し、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮することができる。
【0013】
また、本発明によるコンテンツ不正利用探索装置(2b)は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2b)であって、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)と、キーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)と、探索対象のコンテンツを特定する起点アドレス情報が入力される入力部(4)と、前記コンテンツデータベース(8)が管理する前記アドレス情報を前記優先度の高い順に取り出して取得リストとして出力する巡回部(41)と、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツを取得するコンテンツ取得部(42)と、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かを判定するハイパーテキスト判定部(43)と、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するテキスト解析部(44)と、前記形態素テーブルに含まれる前記近傍キーワードを前記キーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース(8)内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するコンテンツ登録部(45)と、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定する不正利用判定部(35)とを有し、前記巡回部(41)は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力することを特徴とする。
【0014】
また、本発明によるコンテンツ不正利用探索プログラムは、コンテンツ不正利用探索装置(2b)に、電子ネットワークにおけるコンテンツの不正利用の探索を実行させるためのコンテンツ不正利用探索プログラムであって、探索対象のコンテンツを特定する起点アドレス情報が入力部(4)から入力されるステップと、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)が管理する前記アドレス情報を、巡回部(41)により前記優先度の高い順に取り出して取得リストとして出力するステップと、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部(42)により取得するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部(43)により判定するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部(44)により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、コンテンツ登録部(45)により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するステップと、不正利用判定部(35)により、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定するステップとを前記コンテンツ不正利用探索装置に実行させ(2b)、前記取得リストを出力するステップにおいて、前記巡回部(41)が、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力するように機能させることを特徴とする。
【0015】
また、本発明によるコンテンツ不正利用探索方法は、電子ネットワークにおけるコンテンツの不正利用を探索するコンテンツ不正利用探索装置(2b)によるコンテンツ不正利用探索方法であって、探索対象のコンテンツを特定する起点アドレス情報が入力部(4)から入力されるステップと、コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベース(8)が管理する前記アドレス情報を、巡回部(41)により前記優先度の高い順に取り出して取得リストとして出力するステップと、前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部(42)により取得するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部(43)により判定するステップと、前記コンテンツ取得部(42)が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部(44)により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、コンテンツ登録部(45)により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベース(9)から検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベース(8)に登録するステップと、不正利用判定部(35)により、前記コンテンツ取得部(42)が取得した前記コンテンツが不正利用されているか否かを判定するステップとを有し、前記取得リストを出力するステップにおいて、前記巡回部(41)は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベース(8)から前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力することを特徴とする。
【0016】
このような構成によれば、収集したコンテンツがハイパーテキストである場合、リンク情報近傍のキーワードを検索し、キーワードの有無に従って優先度を変動させ、優先度が高く、且つ、古いコンテンツから優先的に収集する。また、優先度が高いサイトからリンクされたサイトは優先度を継承する。このような構成によれば、悪意を持った人間によるリンク構造やコンテンツの差し替えに容易に対応することができる。
【0017】
【発明の実施の形態】
以下、図1〜図15を参照しながら、本発明の実施の形態について説明する。
【0018】
尚、各図面を通じて同一もしくは同等の部位や構成要素には、同一もしくは同等の参照符号を付し、その説明を省略もしくは簡略化する。
【0019】
[第1の実施形態]
〔コンテンツ不正利用探索装置の構成〕
本発明の第1の実施形態となるコンテンツ不正利用探索装置2aは、例えばパーソナルコンピュータ、ワークステーション、汎用コンピュータ等のコンピュータ装置上に構成される。具体的には、コンテンツ不正利用探索装置2aは、図2に示すように、CPU1、RAM2、ROM3、入力I/F部4、通信制御部5、IDデータ/URLデータベース6を備え、インターネット7に接続可能な構成となっている。
【0020】
CPU1は、ROM3内に記憶されたコンピュータプログラムに従ってコンテンツ不正利用探索装置2aの動作制御を行う。また、RAM2は、CPU1が実行する各種処理に関するコンピュータプログラムやデータを一時的に格納するワークエリアを提供する。
【0021】
ROM3は、コンテンツ不正利用探索プログラム3a等の各種コンピュータプログラムやプログラムの実行に必要なデータを記憶する。なお、ROM3は、磁気的、光学的記録媒体若しくは半導体メモリ等といった、CPU1が読み取り可能な記録媒体を含んだ構成となっている。また、この記録媒体に格納されるコンピュータプログラムやデータは、インターネット7を介してその一部若しくは全部を受信するような構成にしても良い。
【0022】
入力インタフェイス(I/F)部4は、後述する不正利用探索処理を実行する際に必要となる各種情報(キーワードと探索するコンテンツの最上位階層のアドレス情報等)を入力する際のインタフェイスの役割を担う。
【0023】
上記通信制御部5は、例えばHTTP(Hyper Text Transfer Protocol)、TCP/IP(Transfer Control Protocol / Internet Protocol)等のデータ通信用プロトコル、例えばSMTP(Simple Mail Transfer Protocol)やPOP(Post Office Protocol)等の電子メイル通信用プロトコルを実装する。通信制御部5は、これらのプロトコルを使用して、インターネット7を介して、各種データを送信すると共に、受信した各種データをCPU1が処理可能な形式に変換する。
【0024】
IDデータ/URLデータベース6は、電子透かしによって管理対象のコンテンツに記録されているIDデータと、そのコンテンツの正当なURLアドレス情報及び正当な持ち主の連絡先となる電子メイルアドレスを格納する。
【0025】
コンテンツ不正利用探索プログラム3aは、図1に示すように、探索対象収集部31、テキスト解析部32と、優先順位設定部33、探索対象コンテンツチェック部34、不正使用判定部35、警告メイル送信部36を有する。
【0026】
探索対象収集部31は、入力I/F部4から入力されたアドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する。
【0027】
探索対象コンテンツチェック部34は、探索対象収集部31が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する。
【0028】
テキスト解析部32は、探索対象収集部31が収集したテキスト情報に含まれる、テキスト情報の階層から下位階層へ探索するためのリンク情報を解析する。
【0029】
優先順位設定部33は、入力I/F部4から入力されたキーワードに基づいて、テキスト解析部32が解析したリンク情報に優先順位を設定する。
【0030】
そして、探索対象収集部31は、優先順位設定部33により設定された優先順位に従って、リンク情報により特定される下位階層に記述されているテキスト情報を収集し、収集した下位階層の当該テキスト情報内にリンクされているコンテンツを収集し、探索対象コンテンツチェック部34は、探索対象収集部31が収集した下位階層の当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する。
【0031】
また、上記キーワードは、優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方を含み、優先順位設定部33は、プラスキーワードとマイナスキーワードのどちらか一方、もしくは両方を含むキーワードに基づいて、下位階層へ探索するためのリンク情報に前記優先順位を設定する。
【0032】
〔コンテンツ不正利用探索装置の処理動作〕
次に、図3に示すフローチャートを参照して、コンテンツの不正利用を探索する際の、第1の実施形態によるコンテンツ不正利用探索装置2aの処理動作について説明する。
【0033】
ステップS1及びステップS2の処理において、ユーザが、入力I/F部4を介して最上位URL(Uniform Resource Locator)のアドレス情報と、探索するURLの優先度のもとになるキーワードを入力する。ここでは、ユーザが、例えば、「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」、「CG」、「絵画」をプラスキーワードとして入力したのもとして、以下の処理を説明する。
【0034】
ステップS3の処理において、探索対象収集部31は、通信制御部5を介して、入力された最上位URLのアドレス位置にあるホームページのHTML文章をRAM2内にダウンロードする。
【0035】
ステップS4の処理において、テキスト解析部32は、探索対象収集部31がダウンロードしたHTML文章内に画像等のコンテンツがリンクされているか否かを判別する。そして、判別の結果、コンテンツがリンクされている場合、ステップS5の処理に進む。一方、ステップS4の判別の結果、探索対象収集部31がダウンロードしたHTML文章内にコンテンツがリンクされていない場合には、ステップS12の処理に進む。
【0036】
ステップS5の処理において、探索対象収集部31は、HTML文章にリンクされているコンテンツをRAM2にダウンロードする。
【0037】
ステップS6の処理では、探索対象コンテンツチェック部34は、RAM2にダウンロードされたコンテンツの中から電子透かしを検出し、検出した電子透かしにより記録されているIDデータを認識する。なお、この電子透かしの方法は様々な方法が想定されるが、例えば、コンテンツが画像データの場合、画素の輝度を表すビット列を操作して電子透かしを埋め込んだり、コンテンツが音楽データの場合は、波形を周波数成分に分解して、位相をずらすなどの処理を施して電子透かしを埋め込んだりする方法などがある。
【0038】
ステップS7〜S8の処理において、不正使用判定部35は、IDデータ/URLデータベース6に格納されているIDデータを読み出して、電子透かしにより記録されているIDデータとを比較し、ダウンロードしたコンテンツが管理対象のコンテンツであるか否かを判別する。そして、判別の結果、管理対象となっている場合には、ステップS10の処理において、不正使用判定部35は、IDデータ/URLデータベース6に格納されているURLアドレスと、検出されたURLアドレスとを比較して、コンテンツをダウンロードしたURLアドレスが正当なものであるか否かを判別する。そして、判別の結果、正当なURLアドレスである場合、ステップS12の処理に進む。一方、ステップS10の判別の結果、正当なURLアドレスでない場合には、ステップS10の処理に進む。
【0039】
ステップS10の処理において、不正使用判定部35は、当該コンテンツは不正利用されているものと判断し、当該コンテンツの情報と送信先のメイルアドレス等を警告メイル送信部36へ送る。
【0040】
ステップS11の処理において、警告メイル送信部36は、当該コンテンツの情報、コンテンツのURLアドレス情報、不正発見日時等を記載した警告メイルを作成し、通信制御部5を介して送信先の電子メイルアドレス宛てに警告メイルを送信し、ステップS12の処理に進む。
【0041】
ステップS12の処理において、テキスト解析部32は、ダウンロードしたHTML文章中の、図4に示すような画像ソースを示すテキスト部分『img src=』(下線部A)と、次の階層へのリンク先URLアドレスを示すテキスト部分『A HREF=』(下線部B)の近傍(例えば、前後1行の計3行のテキスト部分C)において、入力I/F部4を介して入力されたキーワード(「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」、「CG」、「絵画」)が存在するか否かを解析するために、パターン検索を実行する。
【0042】
ステップS13の処理において、優先順位決定部33は、入力されたキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を+1に設定する。ダウンロードしたHTML文章中のリンク先URLアドレスを示すテキスト部分に対して、探索優先順位を設定し終わったら、ステップS14の処理に進む。
【0043】
ステップS14の処理において、優先順位設定部33は、設定した探索優先順位が所定の値(例えば1)以上であって、未処理の画像ソースやリンク先URLアドレスがあるか否か判別する。そして、判別の結果、探索優先順位が所定の値以上の未処理の画像ソースやリンク先URLアドレスがある場合、優先順位設定部33は、探索優先順位が所定の値以上の画像ソースやリンク先URLアドレス、若しくは、探索優先順にソートした画像ソースやリンク先URLアドレスの全部又は一部を探索対象収集部31に送り、ステップS15の処理に進む。一方、判別の結果、探索優先順位が所定の値以上の未処理の画像ソースやリンク先URLアドレスがない場合には、一連の探索処理は終了する。
【0044】
ステップS15の処理において、探索対象収集部31は、送られたリンク先URLアドレスが示すHTML文章を、通信制御部5を介してRAM2内にダウンロードし、ステップS4の処理に戻る。
【0045】
そして、ステップS15の処理にてダウンロードしたHTML文章内に画像などのコンテンツがリンクされている場合、あるいはステップS14の処理において探索優先順位が所定の値以上の画像ソースがあった場合には、前述のステップS5〜ステップS11の処理にてコンテンツをダウンロードし、不正利用されているか否かを判別する。
【0046】
また、ステップS15の処理にてダウンロードしたHTML文章内にコンテンツがリンクされていない場合、且つステップS14の処理において探索優先順位が所定の値以上の画像ソースがなかった場合には、前述のステップS12以降の、さらに次の下位階層を探索するための処理を行う。
【0047】
なお、上記探索処理においては、ユーザは、優先的に探索するコンテンツを示すプラスキーワードを入力したものとして説明したが、探索の対象としないコンテンツを示すマイナスキーワードをプラスキーワードと共に若しくは単独で入力してもよい。この場合、CPU1は、図5のフローチャートに示すように、入力されたプラスキーワード及びマイナスキーワードに基づいてパターン検索を実行し(ステップS12A)、プラスキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を+1に設定し、マイナスキーワードが存在するテキスト部分が示す画像ソースやリンク先URLアドレスの探索優先順位を−1に設定する(ステップS13A,ステップS13B)。
【0048】
このような構成によれば、例えば、「アイドル」、「歌手A子」、「グループB」、「歌手C子」、「歌手D子」等をプラスキーワードとし、「CG」や「絵画」をマイナスキーワードとして入力すると、「CG」や「絵画」と関連する画像コンテンツは探索対象から除外することが可能となり、写真の画像のみを効率的に探索することを可能となる。なお、図5のフローチャートにおける、他の処理ステップは図3のフローチャートに示すそれと同じであるので、ここではその説明は省略する。
【0049】
[第2の実施形態]
〔コンテンツ不正利用探索装置の構成〕
第2の実施形態によるコンテンツ不正利用探索装置2bは、図6及び図7に示すように、第1の実施形態のコンテンツ不正利用探索装置2aが備えるIDデータ/URLデータベース6の代わりに、コンテンツデータベース8とキーワードデータベース9を備える。
【0050】
コンテンツデータベース8は、図8に示すような、コンテンツのアドレス情報に相当するn個のURLが探索の優先度を付与されて記載されたテーブルデータを記憶する。なお、各アドレス情報はテーブル中でユニークなメインキーとなっており、また、優先度は比較可能な値により表現されている。
【0051】
キーワードデータベース9は、図9に示すような、p個のキーワードが重要度を付与されてテキスト形式で記載されたデータを記憶する。具体的には、このキーワードは、例えばアーティスト名「歌手A子」、「グループB」、「歌手C子」、「歌手D子」等の固有名詞に類するテキストであり、重要度の重み付けを行ってユーザにより登録される。なお、重要度は正負どちらの値であっても良く、重要度が正の値である場合には探索の重要度は上がり、逆に重要度が負の値である場合には探索の重要度は下がる。また、ユーザが重要度を細かに指定することが面倒である場合には、多数のハイパーテキストを予め形態素解析し、全文書中の単語出現分布と1文章中の単語出現頻度の統計を取り、TF(Term Frequency)・IDF(Inverted Document Frequency)法等で単語重要度を計算し、単語重要度表を作成し、ユーザがこの単語重要度表を参照して重要度を登録してもよい。具体的には、単語重要度表において、単語「歌手A子」の重要度が0.17であった場合には、この重要度に適当な常数を掛けた値0.34をキーワードデータベース9に登録する重要度とすれば、ユーザが単語自体の出現頻度を意識する必要がなくなり、重要度の登録に要する労力を軽減することができる。
【0052】
コンテンツ不正利用探索プログラム3bは、巡回部41、コンテンツ取得部42、ハイパーテキスト判定部43、テキスト解析部44、コンテンツ登録部45、不正使用判定部35、警告メイル送信部36とから構成される。
【0053】
入力I/F部4からは探索対象のコンテンツを特定する起点アドレス情報がユーザにより入力される。
【0054】
巡回部41は、コンテンツデータベース8が管理するアドレス情報を優先度の高い順に取り出して取得リストとして出力する。なお、巡回部41は、優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、所定の範囲の最大値から近い順に前記コンテンツデータベース8からアドレス情報を取り出し、取り出したアドレス情報を取得日時が古い順にソートし、古いアドレス情報から優先的に取得リストへ追加し、取得リストに追加するアドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力する。
【0055】
コンテンツ取得部42は、取得リストに含まれるアドレス情報に基づいて探索対象のコンテンツを取得する。
【0056】
ハイパーテキスト判定部43は、コンテンツ取得部42が取得したコンテンツがリンク情報を含むハイパーテキストであるか否かを判定する。
【0057】
テキスト解析部44は、コンテンツ取得部42が取得したコンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含むリンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力する。
【0058】
コンテンツ登録部45は、形態素テーブルに含まれる近傍キーワードをキーワードデータベース9から検索し、検索結果に応じてコンテンツデータベース8内の優先度を変動させる変動値を生成し、生成した変動値をアドレス情報と共にコンテンツデータベース8に登録する。
【0059】
〔コンテンツ不正利用探索装置の処理動作〕
次に、図10に示すフローチャートを参照しながら、コンテンツの不正利用を判定する際の、コンテンツ不正利用探索装置2bの処理動作について説明する。
【0060】
ステップS20の処理において、ユーザは、入力I/F部4を介して起点ノードのアドレス情報を入力する。なお、ここで入力される起点ノードとは、ディレクトリサービス型のポータルサイトを示し、起点ノードのアドレス情報はそのポータルサイトのURLを意味する。
【0061】
ステップS21の処理において、巡回部41は、コンテンツデータベース8からアドレス情報を優先度の高い順に取り出し、コンテンツの取得リストを生成する。なお、この巡回部41による処理は、データベース言語SQL(Structured
Query Language)により次のように表現することができる。
【0062】
【数1】
ステップS22の処理において、コンテンツ取得部42は、巡回部41が生成した取得リストから順次アドレス情報を取り出し、通信制御部5を介してインターネット7にアクセスし、アドレス情報が示すコンテンツを取得する。
【0063】
ステップS23の処理において、コンテンツ取得部42は、コンテンツデータベース8を参照して、コンテンツを取得したアドレス情報bの優先度から予め定められた減衰値Rを減算する。なお、このコンテンツ取得部42による処理は、データベース言語SQLにより次のように表現することができる。尚、アドレス情報bはコンテンツを取得したアドレス情報の識別子を示す。
【0064】
【数2】
ステップS24の処理において、ハイパーテキスト判定部43は、コンテンツ取得部42が取得したコンテンツに含まれるバイナリ・フィンガープリントやヘッダ文字列等を用いてコンテンツ種別を解析することにより、取得したコンテンツがハイパーテキストであるか否かを判別する。そして、判別の結果、ハイパーテキストでない場合、ステップS29の不正発見処理に進む。一方、判別の結果、ハイパーテキストである場合には、ステップS25の処理に進む。
【0065】
ステップS25の処理において、テキスト解析部44は、ハイパーテキスト判定部43が解析したハイパーテキスト及びプレーンテキスト内に含まれるリンク情報を解析する。なお、ここでいう「リンク情報」とは、ハイパーテキストがHTML形式で記述されている場合には、Aタグ(『<ahref=”2次アドレス情報”>アンカーテキスト</a>』)や、IMGタグ(『<img src=”2次ノードアドレス情報”ALT=”補足テキスト”>』)等のテキストタグに相当し、コンテンツ及び他のインターネットサイトへのアクセスに必要な2次ノードアドレス情報を含む。
【0066】
ステップS26の処理において、テキスト解析部44は、例えば行単位等の適当な範囲内でリンク情報近傍のテキストを切り出し、アンカーテキスト及び補足テキストと合わせて近傍キーワード群を生成する。
【0067】
ステップS27の処理において、テキスト解析部44は、2次ノードアドレス情報と近傍キーワード群をセットにして、例えば図11に示すような、任意の行を指定した読み出しが可能な形態素テーブルとして出力する。ここで、形態素テーブルにおいて、2次ノードアドレス情報はURLに類するアドレス情報であり、総数はo個となっている。また、2次ノードアドレス情報は同一アドレスが集団と成るようにソートされている。一方、近傍キーワードは、テキストとなっており、重複のないユニークな構成となっている。なお、図11に示す形態素テーブルは、2次ノードアドレス情報1には近傍キーワード1,2,3が存在し、2次ノードアドレス情報2には近傍キーワード1のみが存在し、2次ノードアドレス情報3には近傍キーワード4のみが存在することを例示している。
【0068】
ステップS28の処理において、コンテンツ登録部45は、テキスト解析部44が出力した形態素テーブルを解析して変動値hを算出し、算出した変動値hをコンテンツデータベース8の優先度に加算する。なお、このコンテンツ登録処理の詳細については後述する。
【0069】
ステップS29の処理において、不正使用判定部35は、第1の実施形態で説明したように、電子透かし抽出アルゴリズム等を利用してコンテンツが不正利用されているか否かを判別する。そして、判別の結果、不正利用でない場合には、ステップS22の処理に戻り、判別の結果、不正利用である場合には、ステップS30の処理に進む。
【0070】
ステップS30の処理において、不正使用判定部35は、不正に利用されているコンテンツの情報及びそのアドレス情報をRAM3に記憶し、警告メイル送信部36は、不正に利用されているコンテンツの情報及びそのアドレス情報を、電子メイルを利用してユーザに通知し、ステップS22の処理に戻る。
【0071】
〔コンテンツ登録処理〕
ここで、図12に示すフローチャートを参照しなから、上記ステップS28におけるコンテンツ登録処理を行う際のコンテンツ不正利用探索装置2bの処理動作について詳しく説明する。
【0072】
図12に示すフローチャートは、上記ステップS27からステップS28の処理に移行することで処理が開始される。
【0073】
ステップS41の処理において、コンテンツ登録部45は、ループ変数iに『1』、2次ノードアドレス情報aに『φ』、変動値hに『0』を設定することで、各値を初期化する。
【0074】
ステップS42の処理において、コンテンツ登録部45は、形態素テーブルのi行目のデータを読み込み、2次ノードアドレス情報を作業用変数uに、近傍キーワードを作業用変数kにセットする。
【0075】
ステップS43の処理において、コンテンツ登録部45は、ステップS42における読み込み処理が成功したか否かを判定する。そして、判定の結果、読み込みが成功した場合には、ステップS47の処理に進む。一方、判定の結果、読み込みが失敗した場合には、ステップS44の処理に進む。
【0076】
ステップS44の処理では、コンテンツ登録部45は、コンテンツデータベース8内に『アドレス情報=a』となる行が存在するか否かを判定する。なお、このコンテンツ登録部45による処理は、データベース言語SQLにより次のように表現することができる。
【0077】
【数3】
また、『a=φ』である場合には、コンテンツデータベース8内には対応する行が存在しないものとする。そして、判定の結果、『アドレス情報=a』となる行が存在しない場合には、ステップS46の処理に進む。一方、判定の結果、『アドレス情報=a』となる行が存在する場合には、ステップS45の処理に進む。
【0078】
ステップS45の処理において、コンテンツ登録部45は、アドレス情報aに関連付けされた優先度を更新する。なお、このコンテンツ登録部45による処理は、データベース言語SQLにより次のように表現することができる。
【0079】
【数4】
ステップS46の処理において、コンテンツ登録部45は、上位層のリンク情報の優先度に変動値hを加算した値を優先度とする新たな行をコンテンツデータベース8に追加する。具体的には、今、アドレス情報aの上位層は、上記ステップS22の処理においてコンテンツ登録部45が保持しているアドレス情報bであるので、コンテンツ登録部45は、例えば、次のようなデータベース言語SQLにより、コンテンツデータベース11からアドレス情報bの優先度wを取得する。
【0080】
【数5】
そして、コンテンツ登録部45は、例えば、次のようなデータベース言語SQLにより、上位層が持つ優先度に変動値hを加算した優先度を有し、アドレス情報aを主キーとした新規行を追加する。
【0081】
【数6】
このように処理することにより、「怪しいサイトからリンクを張られた先は怪しいサイトである可能性が高い」という仮定のもとにアドレスの優先度を予め上げておくことが可能となり、一連の登録処理は終了する。
【0082】
一方、ステップS47の処理において、コンテンツ登録部45は、2次ノードアドレス情報aと作業用変数uが等しいか否かを判定することにより、同一の2次ノードアドレス情報が形態素テーブル上で連続しているか否かを判別する。
【0083】
そして、判別の結果、2次ノードアドレス情報aと作業用変数uが等しい場合には、ステップS48の処理として、コンテンツ登録部45は、作業用変数kに設定された近傍キーワードを検索キーとしてキーワードデータベース12を検索し、近傍キーワードの重要度を抽出する。そして、コンテンツ登録部45は、抽出した重要度を変動値hに加算し、ループ変数iを1増数し、ステップS42の処理に戻る。このような処理によれば、2次ノードアドレス情報が連続している場合、同一の2次ノードアドレス情報毎に変動値hをまとめることができる。
【0084】
一方、ステップS47の判別処理の結果、2次ノードアドレス情報aと作業用変数uが等しくない場合には、ステップS49の処理として、コンテンツ登録部45は、2次ノードアドレス情報aが空文字列φであるか否かを判別する。そして、判別の結果、2次ノードアドレス情報aが空文字列φでない場合には、ステップS44aの処理に進む。
【0085】
ステップS44aの処理では、コンテンツ登録部45は、コンテンツデータベース8内に『アドレス情報=a』となる行が存在するか否かを判定する。
【0086】
そして、ステップS44aの判定処理の結果、『アドレス情報=a』となる行が存在しない場合には、ステップS46aの処理に進み、コンテンツ登録部45は、上位層のリンク情報の優先度に変動値hを加算した値を優先度とする新たな行をコンテンツデータベース8に追加し、変数値hに0をセットしてステップS50へ戻る。
【0087】
また、ステップS44aの判定処理の結果、『アドレス情報=a』となる行が存在する場合には、ステップS45aの処理に進み、コンテンツ登録部45は、アドレス情報aに関連付けされた優先度を更新し、変数値hに0をセットしてステップS50へ戻る。
【0088】
一方、ステップS49の判定処理の結果、2次ノードアドレス情報aが空文字列φである場合には、ステップS50の処理に進む。ステップS50の処理において、コンテンツ登録部45は、2次ノードアドレス情報aに作業用変数uの内容を代入し、ステップS48に進む。なお、上記ステップS49の処理は、形態素テーブルを最初に読み始めた時の処理に相当する。
【0089】
[第3の実施形態]
第2の実施形態によるコンテンツ不正利用探索装置2bにおいて、探索処理の際に生成する取得リストはコンテンツデータベース8に登録されている全アドレス情報をソートしたものであった(上記ステップS21の処理を参照)。しかしながら、このような取得リストの構成によれば、探索対象のサイト数が増加した場合、1つの取得リストの処理に要する時間や、逐次変化しているコンテンツデータベース11内の優先度を実際のコンテンツ取得に反映させるまでに要する時間が長くなってしまうことがある。
【0090】
そこで、第3の実施形態となるコンテンツ不正利用探索装置2bは、以下のように動作することにより、予め定められた上限順回数q毎に取得リストの見直しを行うようにした。以下、本発明の第3の実施形態によるコンテンツ不正利用探索装置2bの構成及び動作について説明する。
【0091】
〔コンテンツ不正利用探索装置の構成〕
第3の実施形態によるコンテンツ不正利用探索装置2bでは、コンテンツデータベース8内に格納されるテーブルデータのデータ形式が、第2の実施形態によるコンテンツ不正利用探索装置2bと異なる。
【0092】
コンテンツデータベース8内に格納されるテーブルデータは、具体的には図13に示すように、アドレス情報と優先度に加えて更新日時を格納するようにしている。ここで「更新日時」は、比較可能な数値を持つ日付型のデータであり、ここでは単純化して、累積秒(1970年01月01日を0とした秒数の積算)のデータを日付型のデータとして定義する。
【0093】
なお、第3の実施形態によるコンテンツ不正利用探索装置2bのその他の構成は、第2の実施の形態によるコンテンツ不正利用探索装置2bと同じであるので、その説明を省略する。
【0094】
〔コンテンツ不正利用探索装置の処理動作〕
図14に示すように、ステップS60の処理において、ユーザは、入力I/F部4を介して起点ノードのアドレス情報を入力する。
【0095】
ステップS61の処理では、巡回部41は、以下に示す4つの条件に従って、コンテンツデータベース8からコンテンツの取得リストを生成する。なお、この巡回部41による取得リスト生成処理については、後程詳しく説明する。
【0096】
(1)取得リストのアドレス情報数sが上限順回数qを超えない。
【0097】
(2)優先度が高いアドレス情報から取得リストに追加する
(3)更新日時が古いアドレス情報から取得リストに追加する
(4)最近コンテンツ取得を行ったアドレス情報は追加しない
ステップS62の処理において、コンテンツ取得部42は、巡回部41が生成した取得リストから順次アドレス情報を取り出し、通信制御部5を介してインターネット7にアクセスし、アドレス情報が示すコンテンツを取得する。また、コンテンツ取得部42は、システムクロックを参照して、コンテンツを取得した際の現在日時nowを日付型データとして取得し、コンテンツデータベース8内のアドレス情報に対応した更新日時を更新する。なお、この更新日時の更新処理は、データベース言語SQLにより次のように表現することができる。尚、bはコンテンツを取得したアドレス情報の識別子を示す。
【0098】
【数7】
なお、ステップS63以後の処理は、コンテンツデータベース8に新規行を追加する際(ステップS46の処理に対応)に、コンテンツ登録部45が、例えば『INSERT INTO コンテンツデータベース VALUES (a, w+h, 0);』のようなデータベース言語SQLにより、更新日時を日付型における最も古い値(0)に設定する以外、第2の実施形態によるコンテンツ不正利用探索装置2bのステップS24以後の処理と同じ内容であるので、ここではその説明を省略する。
【0099】
〔取得リスト生成処理〕
次に、図15に示すフローチャートを参照して、ステップS61の取得リスト生成処理を実行する際のコンテンツ不正利用探索装置2bの処理動作について説明する。
【0100】
図15のフローチャートに示す処理は、ユーザが、ステップS60からステップS61の処理に移行することで処理が開始される。
【0101】
ステップS81の処理において、巡回部41は、コンテンツデータベース8を検索し、優先度が最大値MAX以上のコンテンツの優先度を最大値MAXに、最小値MIN以下のコンテンツの優先度を最小値MINに設定する(クリッピング処理)。なお、この巡回部41による処理は、データベース言語SQLにより次のように表現することができる。
【0102】
【数8】
また、最大値MAX及び最小値MINは予め定められた定数、若しくは、コンテンツデータベース11内に含まれる全優先度の平均値、分散値に基づいて求められる標準偏差を利用して、それぞれの優先度が正規分布に従うと仮定した場合の、偏差値25及び偏差値75に対応する優先度値をそれぞれ最大値MAX及び最小値MINとする等、毎回統計的に算出される変数であっても構わない。
【0103】
ステップS82の処理において、巡回部41は、ループ変数iの値をdに設定し、取得リストstの値をφに設定することで、各値を初期化する。
【0104】
ステップS83の処理において、巡回部41は、取得区間開始点sa(=sd×i)と取得区間終了点sb(sd×(i+1))を計算する。ここで、変数sdは区間変量に相当し、次式により計算される。なお、変数dは分割定数である。
【0105】
【数9】
sd=(最大値MAX−最小値MIN)/d
ステップS84の処理において、巡回部41は、システムクロックを参照して現在日時を日付型として取得した後、例えば、次のように示されるデータベース言語SQLにより、コンテンツデータベース11を参照して、区間終了点>優先度≧区間開始点となる優先度を有するアドレス情報を、更新日時で昇順にソートした候補リストを作成する。なお、cutは、足切日時定数を示し、予め定義されている値である。
【0106】
【数10】
このような処理によれば、ある区間に収まった優先度を有するアドレス情報の内、古い順に並んだ候補リストitを生成することができる。
【0107】
ステップS85の処理において、巡回部41は、取得リストst内のアドレス情報数smと候補リストit内のアドレス情報数imを算出し、(q−sm)>imならば『im個』、im≦(q−sm)ならば『q−sm』個のアドレス情報を候補リストitから取り出す(ここで、変数qは最大巡回数を示す)。
【0108】
そして、巡回部41は、取り出したアドレス情報を取得リストstに追加する。
【0109】
ステップS86の処理において、巡回部41は、取得リストst内のアドレス情報数smと最大巡回数qが等しいか否かを判別する。そして、判別の結果、等しい場合には、ステップS89の処理に進む。一方、判別の結果、等しくない場合には、ステップS87の処理に進む。
【0110】
ステップS87の処理において、巡回部41は、ループ変数iの値を1減数する。
【0111】
ステップS88の処理において、巡回部41は、ループ変数iの値が負であるか否かを判別する。そして、判別の結果、負でない場合には、ステップS83の処理に戻る。一方、負である場合には、ステップS89の処理に進む。
【0112】
ステップS89の処理において、巡回部41は、取得リストstを出力する。なお、ステップS89の処理完了後、CPU1は、コンテンツの取得が完了したか否かを監視し、コンテンツの取得が完了するに応じて、CPU1は再び上記生成処理を実行する。
【0113】
このような処理によれば、コンテンツの取得と解析によってコンテンツデータベース8内の優先度は変動し、CPU1は、変動した優先度を参考にしながら、次回に取得すべき優先度の高いサイトを最大巡回数qの範囲内で選択するので、優先度を迅速にコンテンツ探索に適用し、戦略性の高い巡回処理が可能となる。
【0114】
以上の説明から明らかなように、第1の実施形態によるコンテンツ不正利用探索装置2bは、インターネット7上の全てのコンテンツを探索対象にするのではなく、入力されたキーワードに基づいて各リンク情報に探索の優先順位を付与し、この優先順位に基づいてコンテンツを探索するので、注目するコンテンツを効率良く探索し、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮することができる。
【0115】
また、第2の実施形態あるいは第3の実施形態によるコンテンツ不正利用探索装置2bによれば、あるインターネットサイトを管理する悪意を持つ人間がコンテンツの不正利用を行った場合、不正利用コンテンツへのリンク情報を含んだハイパーテキストは優先度が高いまま残るため、同一サイト内の別のハイパーテキスト若しくは他のインターネットサイトに不正利用コンテンツを移動したとしても、不特定多数の閲覧ユーザを導くためには、元のハイパーテキストに「移転先はこちら」等のアンカーテキストを含んだリンク情報を記述しなければならない。また、リンク情報を含んだページは既に優先度が高いために、迅速にチェックされ、移転先を容易に発見することができる。さらに、優先度の継承によって移転先には最初から高い優先度が与えられるので、迅速にチェックすることができる。すなわち、本発明の第2及び第3の実施の形態となるコンテンツ不正利用探索装置2bによれば、悪意を持った人間によるリンク構造やコンテンツの差し替えに容易に対応することができる。
【0116】
以上、第1実施形態ないし第3実施形態について詳細に説明したが、本発明は、その精神または主要な特徴から逸脱することなく、他の色々な形で実施することができる。そのため、前述の実施例はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。
【0117】
【発明の効果】
本発明によれば、コンテンツの収集や電子透かしの検出チェックに要する時間を短縮し、悪意あるユーザによるリンク構造やコンテンツの差し替えに容易に対応することができる。
【図面の簡単な説明】
【図1】第1の実施形態によるコンテンツ不正利用探索装置の機能構成を例示するブロック図である。
【図2】図1に示すコンテンツ不正利用探索装置のハードウェア構成を例示するブロック図である。
【図3】図1に示すコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理の流れを例示するフローチャートである。
【図4】図3に示すコンテンツ不正利用探索処理において、テキスト解析部により解析されるHTMLテキストを例示する図である。
【図5】図3に示すコンテンツ不正利用探索処理の応用例を示すフローチャートである。
【図6】第2の実施形態によるコンテンツ不正利用探索装置の機能構成を例示するブロック図である。
【図7】図6に示すコンテンツ不正利用探索装置のハードウェア構成を例示するブロック図である。
【図8】図6に示すコンテンツ不正利用探索装置のコンテンツデータベースのデータ形式を例示する図である。
【図9】図6に示すコンテンツ不正利用探索装置のキーワードデータベースのデータ形式を例示する図である。
【図10】図6に示すコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理の流れを例示するフローチャートである。
【図11】図10に示すコンテンツ不正利用探索処理において用いられる形態素テーブルを例示する図である。
【図12】図10に示すコンテンツ不正利用探索処理における、コンテンツ取得処理の流れを例示するフローチャートである。
【図13】第3の実施形態によるコンテンツ不正利用探索装置における、コンテンツデータベースのデータ形式を例示する図である。
【図14】第3の実施形態のコンテンツ不正利用探索装置によるコンテンツ不正利用探索処理流れを例示するフローチャートである。
【図15】図14に示すコンテンツ不正利用探索処理における、取得リスト生成処理の流れを例示するフローチャートである。
【符号の説明】
1…CPU
2…RAM
2a…コンテンツ不正利用探索装置
2b…コンテンツ不正利用探索装置
3…ROM
3a…コンテンツ不正利用探索プログラム
3b…コンテンツ不正利用探索プログラム
4…入力I/F部
5…通信制御部
6…IDデータ/URLデータベース
7…インターネット
8…コンテンツデータベース
9…キーワードデータベース
11…コンテンツデータベース
12…キーワードデータベース
31…探索対象収集部
32…テキスト解析部
33…優先順位設定部
34…探索対象コンテンツチェック部
35…不正使用判定部
36…警告メイル送信部
41…巡回部
42…コンテンツ取得部
43…ハイパーテキスト判定部
44…テキスト解析部
45…コンテンツ登録部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention searches for content in which information for preventing unauthorized use such as copyright information is embedded as digital watermark information, and determines whether the content is illegally used based on the embedded information. In particular, the present invention relates to a content abuse search device, a content abuse search program, and a content abuse search method, which reduce the time required for collecting content and checking for detection of a digital watermark, and making it easy for a malicious user to replace the link structure or the content. The present invention relates to a technology that makes it possible to respond to
[0002]
[Prior art]
In recent years, for the purpose of protecting the copyright of content, techniques for embedding copyright information of the content into the content with a digital watermark or the like have been energetically studied, and various information embedding methods have been proposed to date. For example, a method of embedding information by changing an MPEG code, especially a DCT coefficient, a motion vector, and a quantization characteristic has been proposed (for example, see Non-Patent Document 1). In addition, a method has been proposed in which an image signal is spread using a PN sequence according to the direct spreading method and signature information is combined with the image (for example, see Non-Patent Document 2).
[0003]
Along with research on such a method of embedding information in content, recently, various systems for judging unauthorized use of content have been provided. For example, purchasers using digital watermarks have been provided. A system has been proposed in which information is embedded in content in advance, and information embedded in content considered to be illegally used is read to determine whether the content is illegally used. In such a system, since it is necessary to search for and obtain contents that are considered to be illegally used, digital watermarking of contents collected using a "web robot", which is a computer program for collecting contents on the Web, is required. Check the information. This web robot constantly visits websites all over the world and monitors whether contents such as images are illegally used. If the result of the monitoring determines that the contents are illegally used, In, the web robot gives some notice to the website that is abusing the content.
[0004]
In addition, the search target pattern to be collected is determined in accordance with the input information of the specified keyword or content, the search target content is collected via the network in accordance with the determined search target pattern, and the collected search target content is illegally used. There is disclosed a technique for judging whether or not the above is the case (for example, see Patent Document 1).
[0005]
[Patent Document 1]
JP-A-2001-76000
[Non-patent document 1]
Nippon Telegraph and Telephone Corporation, "Copyright Information Embedding Method in Digital Video Using DCT", IEICE 1997 Symposium on Cryptography and Information Security, SCIS '97 -31G
[Non-patent document 2]
National Defense Academy, "Watermark Signature Method for Images Using PN Sequence", IEICE 1997 Symposium on Cryptography and Information Security, SCIS '97_26B
[0006]
[Problems to be solved by the invention]
However, in the system for determining unauthorized use of content as described above, since all the content on the Internet is subject to investigation, it takes an enormous amount of time to complete collection of content and checking of digital watermarks. However, the content cannot be searched efficiently. In particular, since an open network such as the Internet is not managed by a specific organization, a malicious person can easily become the administrator and dynamically replace the content and link structure of the content. Given this situation, such a situation should be resolved immediately.
[0007]
Note that the technique disclosed in Japanese Patent Application Laid-Open No. 2001-76000 can reduce the time required for collecting contents and checking digital watermarks to some extent by searching only contents that meet the conditions. However, this method is not necessarily an efficient search method because all the contents that meet the conditions are treated equally.
[0008]
The present invention has been made in view of the circumstances described above, and reduces the time required for content collection and digital watermark detection check, and can easily respond to a link structure or content replacement by a malicious user. It is an object of the present invention to provide a content unauthorized use search device, a content unauthorized use search program, and a content unauthorized use search method, which make it possible to do so.
[0009]
[Means for Solving the Problems]
The content abuse search device (2a) according to the present invention is a content abuse search device (2a) for searching for unauthorized use of content in an electronic network, in which a keyword and address information of the highest hierarchy of the content to be searched are input. Input section (4), and text information described in a hierarchy specified by the address information input from the input section (4), and contents linked in the collected text information And an identifier embedded in the content collected by the search target collecting unit by an electronic watermark, and whether the content is illegally used is determined by the detected identifier. The search target content check unit (34) for determining whether A text analysis unit (32) for analyzing link information for searching from the hierarchy of the text information to a lower hierarchy included in the text information, and the keyword input from the input unit (4), A priority setting unit (33) for setting a priority order to the link information analyzed by the text analysis unit (32), wherein the priority order setting unit (33) includes the priority order included in the keyword. The priority is set in the link information for searching to the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority, and the search target collection unit (31) Are described in a hierarchy specified by the link information according to the priority set by the priority setting unit (33). The text information is collected, and the content linked in the collected text information is collected, and the search target content check unit (34) adds the content collected by the search target collection unit (31) to the content by electronic watermarking. The embedded identifier is detected, and it is determined whether or not the content is illegally used based on the detected identifier.
[0010]
Further, a content unauthorized use search program according to the present invention is a content unauthorized use search program for causing a content unauthorized use search device (2a) to search for unauthorized use of content in an electronic network. (S1, S2) of inputting the address information of the highest level of the input from the input unit (4), and text described in the level specified by the address information input from the input unit (4) Collecting information by the search target collection unit (31) (S3), and collecting the content linked in the collected text information by the search target collection unit (31) (S5); The unit (31) detects an identifier embedded in the content collected by the digital watermark. A step (S6, S7, S8) of judging whether or not the content is illegally used based on the detected identifier by the search target content check unit (34); and the text collected by the search target collection unit (31). A text analyzing unit (32) for analyzing link information for searching from a hierarchy of the text information to a lower hierarchy included in the information (S12); Setting a priority of the link information analyzed by the text analysis unit (32) by a priority setting unit (33) (S13), and setting the priority set by the priority setting unit (33). In accordance with the above, the text information described in the hierarchy specified by the link information is collected by the search target collecting unit (31). (S15), collecting the content linked in the collected text information by the search target collecting unit (31) (S5), and electronically adding the content collected by the search target collecting unit (31). (S6, S7, S8) detecting the identifier embedded by the watermark and determining whether the content is illegally used by the detected identifier by the search target content check unit (34). In the step (S13) of causing the unauthorized use search device to execute (2a) and setting the priority order, the priority order setting unit (33) determines a plus keyword and a priority order, which are included in the keyword and increase the priority order. Search to the lower hierarchy based on one or both of the negative keywords to lower In order to set the priority order in the link information to be used.
[0011]
Further, a content unauthorized use search method according to the present invention is a content unauthorized use search method by a content unauthorized use search device (2a) for searching for unauthorized use of content in an electronic network, wherein a keyword and a top-level hierarchy of the content to be searched are provided. Steps (S1, S2) in which address information is input from an input unit (4), and search target collection of text information described in a hierarchy specified by the address information input from the input unit (4) (S3) collecting the content linked in the collected text information by the search target collection unit (31); and (S5) collecting the content linked in the collected text information. An identifier embedded in the collected content by a digital watermark is detected, and based on the detected identifier, A step (S6, S7, S8) of determining whether or not the content is illegally used by the search target content check unit (34); and a step of determining whether the content is illegally used is included in the text information collected by the search target collection unit (31). A step (S12) of analyzing link information for searching from a hierarchy of the text information to a lower hierarchy by a text analysis unit (32), and the text information based on the keyword input from the input unit (4). Setting a priority order by the priority order setting unit (33) to the link information analyzed by the analyzing unit (32) (S13); and setting the link information according to the priority order set by the priority order setting unit (33). The text information described in the hierarchy specified by is collected by the search target collection unit (31) (S15) and collected. A step (S5) of collecting the content linked in the text information by the search target collection unit (31), and an identifier embedded in the content collected by the search target collection unit (31) by an electronic watermark. (S6, S7, S8) determining by the search target content check unit (34) whether the content is illegally used based on the detected identifier, and setting the priority order. In step (S13), the priority setting unit (33) determines the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. And setting the priority order in the link information for searching for the link.
[0012]
According to such a configuration, not all contents on the electronic network are to be searched, but a search priority is assigned to each link information based on the input keyword, and the contents are determined based on the priority. To explore. According to such a configuration, it is possible to efficiently search for the content of interest and reduce the time required for collecting the content and checking the detection of the digital watermark.
[0013]
Further, a content unauthorized use search device (2b) according to the present invention is a content unauthorized use search device (2b) for searching for unauthorized use of content in an electronic network, and includes address information capable of specifying content and priority of the address information. A content database (8) that manages a set of a degree and an acquisition date and time at which the content was obtained, a keyword database (9) that manages a set of a keyword and the importance of the keyword, and a content to be searched. An input unit (4) for inputting starting address information to be input, a circulating unit (41) for extracting the address information managed by the content database (8) in descending order of the priority, and outputting it as an acquisition list; The content to be searched based on the address information included in the list A content acquisition unit (42) to be acquired, a hypertext determination unit (43) that determines whether the content acquired by the content acquisition unit (42) is hypertext including link information, and the content acquisition unit (42) When the acquired content is a hypertext including link information, the link information included in the hypertext is analyzed, and a neighborhood within a predetermined range from the secondary node address information and the link information is analyzed. A text analysis unit (44) that outputs a set of keywords as a morpheme table, and a search for the nearby keywords included in the morpheme table from the keyword database (9), and according to a search result, the content database (8). Generating a fluctuation value for changing the priority within A content registration unit (45) for registering the content with the address information in the content database (8); and an unauthorized use determination unit (42) for determining whether or not the content acquired by the content acquisition unit (42) is illegally used. 35), and when the priority is within a predetermined range, the circulating unit (41) performs, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, The address information is extracted from the content database (8) in order from the closest to the maximum value of the predetermined range, and the extracted address information is sorted in the order of the date and time of acquisition, and the address information is preferentially added to the acquisition list from the oldest address information. Outputting the acquisition list when the number of the address information to be added to the acquisition list reaches a predetermined maximum number of times. Sign.
[0014]
Further, a content unauthorized use search program according to the present invention is a content unauthorized use search program for causing a content unauthorized use search device (2b) to search for unauthorized use of content in an electronic network. A step of inputting the starting address information to be specified from the input unit (4), a content database for managing a set of the address information capable of specifying the content, the priority of the address information, and the date and time when the content was obtained ( 8) fetching the address information managed by the circulating unit (41) in descending order of the priority and outputting the acquired information as an acquisition list; and retrieving the content to be searched based on the address information included in the acquisition list. Steps acquired by the content acquisition section (42) Determining by the hypertext determination unit (43) whether or not the content obtained by the content obtaining unit (42) is hypertext including link information; and obtaining by the content obtaining unit (42) When the content is hypertext including link information, the text analysis unit (44) analyzes the link information included in the hypertext and is within a predetermined range from the secondary node address information and the link information. Outputting a set of neighboring keywords as a morpheme table as a morpheme table, and a content registration unit (45) for managing the neighboring keywords included in the morpheme table as a set of keywords and the importance of the keywords ( 9) and search for the Generating a change value for changing the priority in the contents database and registering the generated change value together with the address information in the content database (8); (42) causing the content unauthorized use search device to execute the step of determining whether or not the acquired content has been illegally used (2b), and outputting the acquisition list, wherein the traveling unit (41) When the priority is within a predetermined range, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, the content database ( 8), the address information is extracted, and the extracted address information is sorted in ascending order of the acquisition date and time. The address information to be added to the acquisition list preferentially, and the acquisition list is output when the number of the address information to be added to the acquisition list reaches a predetermined cyclic maximum number. I do.
[0015]
Further, a content unauthorized use search method according to the present invention is a content unauthorized use search method by a content unauthorized use search device (2b) for searching for unauthorized use of content in an electronic network, wherein starting address information for specifying content to be searched is provided. Is input from the input unit (4), and is managed by a content database (8) that manages a set of address information capable of specifying content, the priority of the address information, and the date and time when the content was obtained. Fetching the address information by the circulating unit (41) in the descending order of the priority and outputting it as an acquisition list; and fetching the search target content based on the address information included in the acquisition list. ) And obtaining the content A step of determining whether or not the content obtained by (42) is hypertext including link information by a hypertext determining unit (43); and a step of determining whether the content obtained by the content obtaining unit (42) is link information. If the hypertext includes the hypertext, the text analysis unit (44) analyzes the link information included in the hypertext, and forms a pair of secondary node address information and a nearby keyword within a predetermined range from the link information. Outputting as a morpheme table by a content registration unit (45), searching for the neighboring keywords included in the morpheme table from a keyword database (9) that manages the keywords in combination with the importance of the keywords; Depending on the search results, Generating a fluctuation value for changing the degree, registering the generated fluctuation value together with the address information in the content database (8), and acquiring the content by the content acquisition unit (42) by the unauthorized use determination unit (35) Determining whether or not the content has been illegally used. In the step of outputting the acquisition list, when the priority is within a predetermined range, For each of a plurality of ranges generated by dividing a predetermined range by a predetermined constant, the address information is extracted from the content database (8) in the order from the maximum value of the predetermined range, and the extracted address information is The acquisition date and time are sorted in chronological order, oldest address information is preferentially added to the acquisition list, and added to the acquisition list. The acquisition list is output when the number of the address information to be added reaches a predetermined maximum number of tours.
[0016]
According to such a configuration, when the collected content is a hypertext, a keyword near the link information is searched, and the priority is changed according to the presence or absence of the keyword. collect. Also, sites linked from sites with higher priority inherit the priority. According to such a configuration, it is possible to easily cope with replacement of a link structure or content by a malicious person.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[0018]
It should be noted that the same or equivalent parts and components are denoted by the same or equivalent reference symbols throughout the drawings, and the description thereof will be omitted or simplified.
[0019]
[First Embodiment]
[Configuration of content unauthorized use search device]
The content unauthorized use search device 2a according to the first embodiment of the present invention is configured on a computer device such as a personal computer, a workstation, and a general-purpose computer. Specifically, as shown in FIG. 2, the content unauthorized use search device 2a includes a
[0020]
The
[0021]
The
[0022]
The input interface (I / F)
[0023]
The
[0024]
The ID data /
[0025]
As shown in FIG. 1, the content unauthorized
[0026]
The search
[0027]
The search target
[0028]
The
[0029]
The
[0030]
Then, the search
[0031]
The keyword includes one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority. The
[0032]
[Processing operation of content abuse search device]
Next, with reference to a flowchart shown in FIG. 3, a description will be given of a processing operation of the content unauthorized use search device 2a according to the first embodiment when searching for unauthorized use of content.
[0033]
In the processing in steps S1 and S2, the user inputs address information of the highest URL (Uniform Resource Locator) via the input I /
[0034]
In the process of step S3, the search
[0035]
In the process of step S4, the
[0036]
In the process of step S5, the search
[0037]
In the process of step S6, the search target
[0038]
In the processing of steps S7 to S8, the unauthorized
[0039]
In the process of step S10, the unauthorized
[0040]
In the processing of step S11, the warning
[0041]
In the process of step S12, the
[0042]
In the process of step S13, the
[0043]
In the process of step S14, the
[0044]
In the process of step S15, the search
[0045]
If content such as an image is linked in the HTML sentence downloaded in the process of step S15, or if there is an image source whose search priority is equal to or more than a predetermined value in the process of step S14, In steps S5 to S11, the content is downloaded, and it is determined whether or not the content is illegally used.
[0046]
If no content is linked in the HTML sentence downloaded in the process of step S15, and if there is no image source whose search priority is equal to or higher than the predetermined value in the process of step S14, the above-described step S12 is performed. Thereafter, processing for searching for the next lower hierarchy is performed.
[0047]
In the above-described search processing, the user has been described as having input a plus keyword indicating content to be searched with priority. However, the user may input a minus keyword indicating content not to be searched together with the plus keyword or alone. Is also good. In this case, as shown in the flowchart of FIG. 5, the
[0048]
According to such a configuration, for example, “CG” or “painting” is used as a plus keyword for “idol”, “singer A child”, “group B”, “singer C child”, “singer D child”, and the like. When input as a negative keyword, image contents related to “CG” and “painting” can be excluded from search targets, and only a picture image can be efficiently searched. The other processing steps in the flow chart of FIG. 5 are the same as those shown in the flow chart of FIG. 3, and the description thereof is omitted here.
[0049]
[Second embodiment]
[Configuration of content unauthorized use search device]
As shown in FIGS. 6 and 7, the content unauthorized
[0050]
The
[0051]
The
[0052]
The content unauthorized
[0053]
From the input I /
[0054]
The traveling
[0055]
The
[0056]
The
[0057]
When the content acquired by the
[0058]
The
[0059]
[Processing operation of content abuse search device]
Next, the processing operation of the content unauthorized
[0060]
In the process of step S20, the user inputs the address information of the origin node via the input I /
[0061]
In the process of step S21, the traveling
Query Language) can be expressed as follows.
[0062]
(Equation 1)
In the process of step S22, the
[0063]
In the process of step S23, the
[0064]
(Equation 2)
In the process of step S24, the
[0065]
In the processing in step S25, the
[0066]
In the process of step S26, the
[0067]
In the process of step S27, the
[0068]
In the process of step S28, the
[0069]
In the process of step S29, the unauthorized
[0070]
In the process of step S30, the unauthorized
[0071]
[Content registration process]
Here, with reference to the flowchart shown in FIG. 12, the processing operation of the content unauthorized
[0072]
In the flowchart shown in FIG. 12, the process is started by shifting to the process from step S27 to step S28.
[0073]
In the process of step S41, the
[0074]
In the process of step S42, the
[0075]
In the process of step S43, the
[0076]
In the process of step S44, the
[0077]
[Equation 3]
If “a = φ”, it is assumed that no corresponding row exists in the
[0078]
In the process of step S45, the
[0079]
(Equation 4)
In the process of step S46, the
[0080]
(Equation 5)
Then, the
[0081]
(Equation 6)
By processing in this way, it is possible to raise the priority of the address in advance on the assumption that the destination linked from a suspicious site is likely to be a suspicious site, and a series of The registration process ends.
[0082]
On the other hand, in the process of step S47, the
[0083]
If the secondary node address information a is equal to the work variable u as a result of the determination, the
[0084]
On the other hand, if the secondary node address information a is not equal to the work variable u as a result of the determination processing in step S47, the
[0085]
In the process of step S44a, the
[0086]
Then, as a result of the determination processing in step S44a, if there is no line in which “address information = a” exists, the process proceeds to step S46a, and the
[0087]
Also, as a result of the determination processing in step S44a, if there is a row with “address information = a”, the process proceeds to step S45a, and the
[0088]
On the other hand, if the result of the determination processing in step S49 is that the secondary node address information a is an empty character string φ, the process proceeds to step S50. In the process of step S50, the
[0089]
[Third Embodiment]
In the content
[0090]
Therefore, the content unauthorized
[0091]
[Configuration of content unauthorized use search device]
In the content unauthorized
[0092]
As shown in FIG. 13, the table data stored in the
[0093]
The other configuration of the content unauthorized
[0094]
[Processing operation of content abuse search device]
As shown in FIG. 14, in the process of step S60, the user inputs the address information of the origin node via the input I /
[0095]
In the process of step S61, the traveling
[0096]
(1) The number s of address information in the acquisition list does not exceed the upper limit order number q.
[0097]
(2) Add to the acquisition list from address information with high priority
(3) Add to the acquisition list from the oldest updated address information
(4) Do not add address information for which content was recently acquired
In the process of step S62, the
[0098]
(Equation 7)
In addition, in the processing after step S63, when a new line is added to the content database 8 (corresponding to the processing of step S46), the
[0099]
[Acquisition list generation processing]
Next, with reference to the flowchart shown in FIG. 15, the processing operation of the content unauthorized
[0100]
The process shown in the flowchart of FIG. 15 is started when the user shifts from step S60 to step S61.
[0101]
In the process of step S81, the traveling
[0102]
(Equation 8)
The maximum value MAX and the minimum value MIN are determined by using a predetermined constant, or an average value of all priorities contained in the
[0103]
In the process of step S82, the traveling
[0104]
In the process of step S83, the traveling
[0105]
(Equation 9)
sd = (maximum value MAX−minimum value MIN) / d
In the process of step S84, the circulating
[0106]
(Equation 10)
According to such processing, it is possible to generate a candidate list it arranged in chronological order from the address information having the priority included in a certain section.
[0107]
In the process of step S85, the traveling
[0108]
Then, the traveling
[0109]
In the process of step S86, the traveling
[0110]
In the process of step S87, the traveling
[0111]
In the process of step S88, the traveling
[0112]
In the process of step S89, the traveling
[0113]
According to such processing, the priority in the
[0114]
As is apparent from the above description, the content unauthorized
[0115]
Further, according to the content unauthorized
[0116]
As described above, the first to third embodiments have been described in detail, but the present invention can be implemented in other various forms without departing from the spirit or main features. Therefore, the above-described embodiment is merely an example in every aspect, and should not be interpreted in a limited manner. The scope of the present invention is defined by the appended claims, and is not limited by the specification. Further, all modifications and changes belonging to the equivalent scope of the claims are within the scope of the present invention.
[0117]
【The invention's effect】
ADVANTAGE OF THE INVENTION According to this invention, the time required for content collection and the detection check of a digital watermark can be shortened, and it can respond easily to the link structure and replacement of content by a malicious user.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a functional configuration of a content unauthorized use search device according to a first embodiment;
FIG. 2 is a block diagram illustrating a hardware configuration of a content unauthorized use search device shown in FIG. 1;
FIG. 3 is a flowchart illustrating a flow of a content unauthorized use search process performed by the content unauthorized use search device illustrated in FIG. 1;
4 is a diagram exemplifying an HTML text analyzed by a text analysis unit in the content unauthorized use search processing shown in FIG. 3;
FIG. 5 is a flowchart showing an application example of the content unauthorized use search processing shown in FIG. 3;
FIG. 6 is a block diagram illustrating a functional configuration of a content unauthorized use search device according to a second embodiment;
FIG. 7 is a block diagram illustrating a hardware configuration of the content abuse search device shown in FIG. 6;
8 is a diagram illustrating a data format of a content database of the content abuse search device shown in FIG. 6;
9 is a diagram illustrating a data format of a keyword database of the content abuse search device shown in FIG. 6;
FIG. 10 is a flowchart illustrating a flow of a content unauthorized use search process performed by the content unauthorized use search device illustrated in FIG. 6;
11 is a diagram illustrating a morpheme table used in the content unauthorized use search processing shown in FIG. 10;
12 is a flowchart illustrating a flow of a content acquisition process in the content unauthorized use search process shown in FIG.
FIG. 13 is a diagram exemplifying a data format of a content database in the content unauthorized use search device according to the third embodiment.
FIG. 14 is a flowchart illustrating a content unauthorized use search processing flow by the content unauthorized use search device according to the third embodiment;
FIG. 15 is a flowchart illustrating a flow of an acquisition list generation process in the content unauthorized use search process shown in FIG. 14;
[Explanation of symbols]
1 ... CPU
2 ... RAM
2a ... Content illegal use search device
2b Content illegal use search device
3 ROM
3a: Content illegal use search program
3b ... Content illegal use search program
4: Input I / F section
5 Communication control unit
6 ... ID data / URL database
7 ... Internet
8 Content database
9 ... Keyword database
11 ... Content database
12 ... Keyword database
31 ... Search target collection unit
32: Text analysis unit
33: priority setting section
34: Search target content check unit
35 ... Unauthorized use determination unit
36 ... Warning mail sending unit
41 ... Circulation section
42 ... Content acquisition unit
43 ... Hypertext determination unit
44 ... Text analysis unit
45 ... Content registration section
Claims (6)
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力される入力部と、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集する探索対象収集部と、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定する探索対象コンテンツチェック部と、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を解析するテキスト解析部と、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に優先順位を設定する優先順位設定部とを有し、
前記優先順位設定部は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと前記優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定し、
前記探索対象収集部は、前記優先順位設定部により設定された前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を収集し、収集した当該テキスト情報内にリンクされているコンテンツを収集し、前記探索対象コンテンツチェック部は、前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを判定すること
を特徴とするコンテンツ不正利用探索装置。A content abuse search device that searches for unauthorized use of content in an electronic network,
An input unit for inputting a keyword and address information of the highest hierarchy of the content to be searched;
A search target collection unit that collects text information described in a hierarchy specified by the address information input from the input unit, and collects content linked in the collected text information,
A search target content check unit that detects an identifier embedded by an electronic watermark in the content collected by the search target collection unit and determines whether the content is illegally used based on the detected identifier;
A text analysis unit that analyzes link information for searching from a hierarchy of the text information to a lower hierarchy, which is included in the text information collected by the search target collection unit,
Based on the keyword input from the input unit, and a priority setting unit that sets a priority to the link information analyzed by the text analysis unit,
The priority setting unit may include, based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword, link information for searching to the lower hierarchy. Set the priorities,
The search target collection unit collects text information described in a hierarchy specified by the link information according to the priority set by the priority setting unit, and is linked into the collected text information. The search target content check unit detects an identifier embedded in the content collected by the search target collection unit by an electronic watermark, and determines whether the detected identifier is used illegally by the detected identifier. A content unauthorized use search device, characterized in that:
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部から入力されるステップと、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を、探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部により判定するステップと、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部により解析するステップと、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に、優先順位設定部により優先順位を設定するステップと、
前記優先順位設定部が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を、前記探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部により判定するステップとを前記コンテンツ不正利用探索装置に実行させ、
前記優先順位を設定するステップにおいて、前記優先順位設定部が、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定するように機能させること
を特徴とするコンテンツ不正利用探索プログラム。A content unauthorized use search program for causing a content unauthorized use search device to search for unauthorized use of content in an electronic network,
Inputting the keyword and the address information of the highest hierarchy of the content to be searched from the input unit;
The text information described in the hierarchy specified by the address information input from the input unit is collected by a search target collection unit, and the content linked in the collected text information is collected by the search target collection. Collecting by the department;
Detecting an identifier embedded by a digital watermark in the content collected by the search target collection unit, and determining whether the content is illegally used by the detected identifier by a search target content check unit;
Included in the text information collected by the search target collection unit, link information for searching from the hierarchy of the text information to a lower hierarchy, analyzing by a text analysis unit,
Based on the keyword input from the input unit, the link information analyzed by the text analysis unit, setting a priority by a priority setting unit,
According to the priority order set by the priority order setting unit, text information described in a hierarchy specified by the link information is collected by the search target collection unit, and is linked in the collected text information. Collecting content by the search target collection unit;
Detecting an identifier embedded in the content collected by the search target collection unit with a digital watermark, and determining whether the content is illegally used by the detected identifier by the search target content check unit. Causing the content abuse search device to execute,
In the step of setting the priority, the priority setting unit sets the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. A program for causing a user to set the above-mentioned priorities in link information for searching for contents.
キーワードと探索するコンテンツの最上位階層のアドレス情報とが入力部から入力されるステップと、
前記入力部から入力された前記アドレス情報により特定される階層に記述されているテキスト情報を、探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、探索対象コンテンツチェック部により判定するステップと、
前記探索対象収集部が収集した前記テキスト情報に含まれる、前記テキスト情報の階層から下位階層へ探索するためのリンク情報を、テキスト解析部により解析するステップと、
前記入力部から入力された前記キーワードに基づいて、前記テキスト解析部が解析した前記リンク情報に、優先順位設定部により優先順位を設定するステップと、
前記優先順位設定部が設定した前記優先順位に従って、前記リンク情報により特定される階層に記述されているテキスト情報を、前記探索対象収集部により収集し、収集した当該テキスト情報内にリンクされているコンテンツを、前記探索対象収集部により収集するステップと、
前記探索対象収集部が収集した当該コンテンツに電子透かしによって埋め込まれた識別子を検出し、検出した識別子により当該コンテンツが不正利用されているか否かを、前記探索対象コンテンツチェック部により判定するステップとを有し、
前記優先順位を設定するステップにおいて、前記優先順位設定部は、前記キーワードに含まれる、前記優先順位を上げるプラスキーワードと優先順位を下げるマイナスキーワードのどちらか一方、もしくは両方に基づいて、前記下位階層へ探索するためのリンク情報に前記優先順位を設定すること
を特徴とするコンテンツ不正利用探索方法。A content unauthorized use search method by a content unauthorized use search device that searches for unauthorized use of content in an electronic network,
Inputting the keyword and the address information of the highest hierarchy of the content to be searched from the input unit;
The text information described in the hierarchy specified by the address information input from the input unit is collected by a search target collection unit, and the content linked in the collected text information is collected by the search target collection. Collecting by the department;
Detecting an identifier embedded by a digital watermark in the content collected by the search target collection unit, and determining whether the content is illegally used by the detected identifier by a search target content check unit;
Included in the text information collected by the search target collection unit, link information for searching from the hierarchy of the text information to a lower hierarchy, analyzing by a text analysis unit,
Based on the keyword input from the input unit, the link information analyzed by the text analysis unit, setting a priority by a priority setting unit,
According to the priority order set by the priority order setting unit, text information described in a hierarchy specified by the link information is collected by the search target collection unit, and is linked in the collected text information. Collecting content by the search target collection unit;
Detecting an identifier embedded in the content collected by the search target collection unit with a digital watermark, and determining whether the content is illegally used by the detected identifier by the search target content check unit. Have
In the step of setting the priority, the priority setting unit may include the lower hierarchy based on one or both of a plus keyword for increasing the priority and a minus keyword for decreasing the priority included in the keyword. A method of searching for unauthorized use of contents, wherein the priority order is set in link information for searching for contents.
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースと、
キーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースと、
探索対象のコンテンツを特定する起点アドレス情報が入力される入力部と、
前記コンテンツデータベースが管理する前記アドレス情報を前記優先度の高い順に取り出して取得リストとして出力する巡回部と、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツを取得するコンテンツ取得部と、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かを判定するハイパーテキスト判定部と、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するテキスト解析部と、
前記形態素テーブルに含まれる前記近傍キーワードを前記キーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するコンテンツ登録部と、
前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定する不正利用判定部とを有し、
前記巡回部は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力すること
を特徴とするコンテンツ不正利用探索装置。A content abuse search device that searches for unauthorized use of content in an electronic network,
A content database that manages a set of address information capable of specifying content, the priority of the address information, and the date and time when the content was obtained,
A keyword database that manages the keywords in combination with the importance of the keywords,
An input unit for inputting start address information for specifying content to be searched;
A traveling unit that extracts the address information managed by the content database in order of the priority and outputs the acquired information as an acquisition list;
A content acquisition unit that acquires the search target content based on the address information included in the acquisition list,
A hypertext determination unit that determines whether the content acquired by the content acquisition unit is hypertext including link information,
When the content obtained by the content obtaining unit is hypertext including link information, the link information included in the hypertext is analyzed, and the content is within a predetermined range from the secondary node address information and the link information. A text analysis unit that outputs a morpheme table as a set of neighboring keywords,
The keyword database is searched for the neighboring keywords included in the morphological table, and a variation value for changing the priority in the content database is generated according to a search result. The generated variation value is stored in the content together with the address information. A content registration unit for registering in the database,
An unauthorized use determining unit that determines whether the content obtained by the content obtaining unit is used illegally,
The traveling unit, when the priority is within a predetermined range, for each of a plurality of ranges generated by dividing the predetermined range by a predetermined constant, in order from a maximum value of the predetermined range, The address information is extracted from the content database, the extracted address information is sorted in the order of the oldest acquisition date and time, the oldest address information is preferentially added to the acquisition list, and the number of the address information to be added to the acquisition list is A content abuse search device that outputs the acquisition list when a predetermined maximum number of tours is reached.
探索対象のコンテンツを特定する起点アドレス情報が入力部から入力されるステップと、
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースが管理する前記アドレス情報を、巡回部により前記優先度の高い順に取り出して取得リストとして出力するステップと、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部により取得するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部により判定するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、
コンテンツ登録部により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するステップと、
不正利用判定部により、前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定するステップとを前記コンテンツ不正利用探索装置に実行させ、
前記取得リストを出力するステップにおいて、前記巡回部が、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力するように機能させること
を特徴とするコンテンツ不正利用探索プログラム。A content unauthorized use search program for causing a content unauthorized use search device to search for unauthorized use of content in an electronic network,
A step in which start address information for specifying the content to be searched is input from the input unit;
The circulating unit extracts the address information managed by the content database that manages the address information capable of specifying the content, the priority of the address information, and the acquisition date and time at which the content was obtained, in the descending order of the priority. Outputting as an acquisition list;
Acquiring the content to be searched based on the address information included in the acquisition list by a content acquisition unit,
A step of determining whether or not the content obtained by the content obtaining unit is hypertext including link information by a hypertext determining unit,
When the content acquired by the content acquisition unit is hypertext including link information, the text analysis unit analyzes the link information included in the hypertext, and performs a predetermined process based on the secondary node address information and the link information. Outputting as a morpheme table a set of neighboring keywords in the range,
A content registration unit searches for the nearby keywords included in the morpheme table from a keyword database that manages the keywords in combination with the importance of the keywords, and changes the priority in the content database according to a search result. Generating a fluctuation value, and registering the generated fluctuation value in the content database together with the address information;
By the unauthorized use determining unit, determining whether the content acquired by the content acquiring unit has been unauthorizedly used, and causing the content unauthorized use search device to execute the
In the step of outputting the acquisition list, when the priority is within a predetermined range, the circulating unit performs the predetermined processing for each of the plurality of ranges generated by dividing the predetermined range by a predetermined constant. Fetching the address information from the content database in order from the maximum value of the range, sorting the fetched address information in chronological order of the acquisition date and time, and preferentially adding to the acquisition list from the oldest address information, A function for outputting the acquisition list when the number of the address information to be added to the predetermined number reaches a predetermined maximum number of tours.
探索対象のコンテンツを特定する起点アドレス情報が入力部から入力されるステップと、
コンテンツを特定可能なアドレス情報と当該アドレス情報の優先度と前記コンテンツを取得した取得日時とを組にして管理するコンテンツデータベースが管理する前記アドレス情報を、巡回部により前記優先度の高い順に取り出して取得リストとして出力するステップと、
前記取得リストに含まれる前記アドレス情報に基づいて前記探索対象のコンテンツをコンテンツ取得部により取得するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストであるか否かをハイパーテキスト判定部により判定するステップと、
前記コンテンツ取得部が取得した前記コンテンツがリンク情報を含むハイパーテキストである場合に、テキスト解析部により当該ハイパーテキストが含む前記リンク情報を解析して、2次ノードアドレス情報と当該リンク情報から所定の範囲内にある近傍キーワードとを組にして形態素テーブルとして出力するステップと、
コンテンツ登録部により、前記形態素テーブルに含まれる前記近傍キーワードをキーワードと当該キーワードの重要度とを組にして管理するキーワードデータベースから検索し、検索結果に応じて前記コンテンツデータベース内の優先度を変動させる変動値を生成し、生成した前記変動値を前記アドレス情報と共に前記コンテンツデータベースに登録するステップと、
不正利用判定部により、前記コンテンツ取得部が取得した前記コンテンツが不正利用されているか否かを判定するステップとを有し、
前記取得リストを出力するステップにおいて、前記巡回部は、前記優先度が所定の範囲内にある時、当該所定の範囲を所定の定数で割ることにより生成される複数の範囲の各々について、前記所定の範囲の最大値から近い順に前記コンテンツデータベースから前記アドレス情報を取り出し、取り出した前記アドレス情報を前記取得日時が古い順にソートし、古いアドレス情報から優先的に前記取得リストへ追加し、前記取得リストに追加する前記アドレス情報の数が所定の巡回最大数に達した時点で当該取得リストを出力すること
を特徴とするコンテンツ不正利用探索方法。A content unauthorized use search method by a content unauthorized use search device that searches for unauthorized use of content in an electronic network,
A step in which start address information for specifying the content to be searched is input from the input unit;
The circulating unit extracts the address information managed by the content database that manages the address information capable of specifying the content, the priority of the address information, and the acquisition date and time at which the content was obtained, in the descending order of the priority. Outputting as an acquisition list;
Acquiring the content to be searched based on the address information included in the acquisition list by a content acquisition unit,
A step of determining whether or not the content obtained by the content obtaining unit is hypertext including link information by a hypertext determining unit,
When the content acquired by the content acquisition unit is hypertext including link information, the text analysis unit analyzes the link information included in the hypertext, and performs a predetermined process based on the secondary node address information and the link information. Outputting as a morpheme table a set of neighboring keywords in the range,
A content registration unit searches for the nearby keywords included in the morpheme table from a keyword database that manages the keywords in combination with the importance of the keywords, and changes the priority in the content database according to a search result. Generating a fluctuation value, and registering the generated fluctuation value in the content database together with the address information;
By an unauthorized use determining unit, determining whether or not the content acquired by the content acquiring unit has been illegally used,
In the step of outputting the acquisition list, when the priority is within a predetermined range, the circulating unit performs the predetermined processing for each of the plurality of ranges generated by dividing the predetermined range by a predetermined constant. Fetching the address information from the content database in order from the maximum value of the range, sorting the fetched address information in chronological order of the acquisition date and time, and preferentially adding to the acquisition list from the oldest address information, And outputting the acquisition list when the number of pieces of address information to be added to the predetermined number reaches a predetermined maximum number of rounds.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002268632A JP2004110151A (en) | 2002-09-13 | 2002-09-13 | Apparatus, program, and method for searching unauthorized utilization of content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002268632A JP2004110151A (en) | 2002-09-13 | 2002-09-13 | Apparatus, program, and method for searching unauthorized utilization of content |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004110151A true JP2004110151A (en) | 2004-04-08 |
Family
ID=32266804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002268632A Withdrawn JP2004110151A (en) | 2002-09-13 | 2002-09-13 | Apparatus, program, and method for searching unauthorized utilization of content |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004110151A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122450A (en) * | 2005-10-28 | 2007-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Automatic information acquisition device and automatic information acquisition method |
JP2009522672A (en) * | 2006-01-05 | 2009-06-11 | ウエッジ ネットワークス インコーポレーテッド | Improved networked content inspection system and method |
-
2002
- 2002-09-13 JP JP2002268632A patent/JP2004110151A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122450A (en) * | 2005-10-28 | 2007-05-17 | Nippon Telegr & Teleph Corp <Ntt> | Automatic information acquisition device and automatic information acquisition method |
JP2009522672A (en) * | 2006-01-05 | 2009-06-11 | ウエッジ ネットワークス インコーポレーテッド | Improved networked content inspection system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100514149B1 (en) | A method for searching and analysing information in data networks | |
Kausar et al. | Web crawler: a review | |
US8185530B2 (en) | Method and system for web document clustering | |
JP4358188B2 (en) | Invalid click detection device in Internet search engine | |
US20080016147A1 (en) | Method of retrieving an appropriate search engine | |
US20150033331A1 (en) | System and method for webpage analysis | |
EP1182590A2 (en) | Method, system, and program for gathering indexable metadata on content at a data repository | |
JP2007528520A (en) | Method and system for managing websites registered with search engines | |
US20030018779A1 (en) | Method, system and computer program for controlling access in a distributed data processing system | |
JP2006522382A (en) | Method and system for managing websites registered with search engines | |
JP2004112318A (en) | System for searching illegitimate use of contents | |
CN108574686B (en) | Method and device for previewing file online | |
JP2010049473A (en) | Link information extraction device, link information extraction method, and program | |
KR20120071827A (en) | Seed information collecting device for detecting landing, hopping and distribution sites of malicious code and seed information collecting method for the same | |
JP5030895B2 (en) | Access control system and access control method | |
JP2004110151A (en) | Apparatus, program, and method for searching unauthorized utilization of content | |
JP3539146B2 (en) | Use condition violation check method and apparatus for work, and storage medium storing program for use condition violation check for work | |
JP2004164435A (en) | Relay device requesting connection and system, method and program for filtering | |
JP2007323225A (en) | System, terminal, server and dynamic information providing method | |
CN113132340B (en) | Phishing website identification method based on vision and host characteristics and electronic device | |
JP2004341942A (en) | Content classification method, content classification device, content classification program, and storage medium storing content classification program | |
CN108804444B (en) | Information capturing method and device | |
JP2001282837A (en) | Information gathering device | |
JP5002631B2 (en) | Word information collection device, word information collection method, and word information collection program | |
KR101079802B1 (en) | System and Method for Searching Website, Devices for Searching Website and Recording Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041129 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20060824 |