まず、図1を参照して、本発明の本実施形態の機能構成について説明する。図1は、本実施形態に係る違法コンテンツ探索装置1の機能ブロック図である。
図1に示すように、違法コンテンツ探索装置1は、違法語句モデル生成部11と、違法語句モデル記憶部12と、検索クエリ生成規則記憶部13と、検索クエリ生成部14と、照合候補取得部15と、プロフィール推定モデル生成部16と、プロフィール推定モデル記憶部17と、コンテンツプロフィール取得・推定部18と、例外コンテンツ除去部19と、照合優先度計算部20と、照合パラメータ設定部23と、コンテンツDL(Download:ダウンロード)・照合部24と、違法語句モデル更新部25と、プロフィール推定モデル更新部26とを備える。
違法コンテンツ探索装置1は、照合元のコンテンツの正規タイトル及びメタ情報に基づいて、インターネット上のコンテンツ取得元に記憶されている違法コンテンツを探索する。違法コンテンツは、非権利者によって投稿されたコンテンツである。メタ情報は、照合元の(正規)コンテンツに付随する属性情報であって、例えば、サブタイトル、コンテンツに登場する出演者、キャラクターの名称、放送回番号、放送日時、出演者、略称、コンテンツのジャンルを含む。
コンテンツ取得元は、インターネット上に存在する、コンテンツが投稿されているサイト(例えば、コンテンツ投稿サイト、違法コンテンツのURL(Uniform Resource Locator)をまとめたサイト等)のことである。コンテンツ取得元は、投稿ユーザの要求に基づいて通信端末からのコンテンツの投稿を受け付け、投稿されたコンテンツを記憶する。また、コンテンツ取得元は、ユーザの要求に基づいて、記憶しているコンテンツを通信端末にダウンロードさせる。なお、コンテンツ取得元は、例えば、コンテンツ投稿サイトなどを管理するサーバ装置、複数台のサーバによって構成される分散システム、クラウドサービスなどである。また、「投稿する」とは、コンテンツをアップロードし、記憶させることである。また、「投稿ユーザ」とは、コンテンツ取得元を利用するユーザのうちコンテンツを投稿するユーザである。
違法語句モデル生成部11は、違法又は非違法を示すラベルが付与されたコンテンツのタイトルを学習データとする機械学習によって違法語句モデルを生成する。違法語句モデルは、任意の語句に対して、違法コンテンツに用いられることが想定される違法語句を出力するモデルである。
違法語句モデル記憶部12は、違法語句モデル生成部11によって生成された違法語句モデルを記憶する。
検索クエリ生成規則記憶部13は、違法コンテンツをコンテンツ取得元から探索するための検索クエリを、照合元のコンテンツ(正規コンテンツ)の正規タイトルから生成するための規則である検索クエリ生成規則を記憶する。上述したように、違法コンテンツが権利者から発見されるのを回避しつつも、正規コンテンツとの関連性をユーザに認識させるために、違法コンテンツのタイトルは、例えば、正規コンテンツの正規タイトルの全部あるいは一部が、仮名変換、漢字変換、ローマ字又は略称などの類似の語句に変換され(言い換えられ)たものであることがある。検索クエリ生成規則は、コンテンツのタイトルに含まれる語句から、上述したような言い換えに得られる語句を生成する規則である。なお、上述したような言い換えは、例えば、Word2Vec等の言語処理手法を用いて出力することができる。また、検索クエリ生成規則は、コンテンツのタイトルに含まれる語句の表記揺れを含む語句を生成する規則である。検索クエリ生成規則記憶部13は、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)ごとに異なる傾向をもつ検索クエリ生成規則に基づいて語句を生成してもよい。
検索クエリ生成規則は、任意の語句を、例えば、仮名変換、ローマ字変換、漢字変換することという規則である。また、検索クエリ生成規則は、任意の語句を外国語へ翻訳するという規則である。また、検索クエリ生成規則は、任意の語句が表記ゆれした語句に変換するという規則である。
検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、並びに該コンテンツの正規タイトル及びメタ情報を入力する。
検索クエリ生成部14は、違法語句モデル記憶部12に記憶されている違法語句モデル、検索クエリ生成規則記憶部13に記憶されている検索クエリ生成規則を用いて、正規タイトルに関連する違法語句を含む検索クエリを生成する。
具体的には、検索クエリ生成部14は、正規タイトルに基づいて、上述の違法語句モデルから算出される確率値が閾値以上となる違法語句を含む検索クエリを生成する。また、検索クエリ生成部14は、正規タイトルに含まれる語句と同一又は類似の意味内容を有する、異なる表記の語句を含む検索クエリを生成する。例えば、検索クエリ生成部14は、上述の検索クエリ生成規則に従って正規タイトルに含まれる語句を仮名変換、漢字変換、又はローマ字変換することによって検索クエリを生成する。
また、検索クエリ生成部14は、入力した正規タイトルを検索クエリとして生成してもよい。
また、検索クエリ生成部14は、メタ情報を含む検索クエリを生成することができる。検索クエリ生成部14は、検索クエリ生成規則を用いて、正規タイトル及びメタ情報の1つ以上を含む、例えば「タイトル サブタイトル」、「タイトル 日付」、「タイトル 放送回番号」、「出演者」、「略称 日付」等を検索クエリとして生成する。図3に示す例では、検索クエリ生成部14は、例えば、正規タイトルが「火曜ドラマ『トリオ』」であり、検索クエリ生成規則が、話数表記(1)である場合、「トリオ 1話」という検索クエリを生成する。
また、検索クエリ生成部14は、違法語句モデル又は検索クエリ生成規則を用いて、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)よる傾向に応じて正規タイトルを言い換えた語句を検索クエリとして生成することができる。
検索クエリ生成部14は、上述のように生成した検索クエリを照合候補取得部15に出力する。
照合候補取得部15は、検索クエリ生成部14によって出力された検索クエリに基づいて、通信ネットワーク上のコンテンツ取得元を検索して、検索クエリに合致するコンテンツを、違法コンテンツの可能性がある候補コンテンツとして、該候補コンテンツの識別情報をコンテンツ取得元から取得する。識別情報は、候補コンテンツを一意に識別するための情報であり、例えば、インターネット上でのコンテンツのアドレス、すなわちURLなどである。また、照合候補取得部15は、検索クエリに合致するコンテンツのタイトル及びコンテンツに付随するプロフィール(付随プロフィール)をコンテンツ取得元から取得する。ここで、照合候補取得部15が取得するプロフィールは、図4に示すコンテンツ長、投稿時刻、投稿ユーザ名等を含む。
具体的には、照合候補取得部15は、検索クエリ生成部14から出力された検索クエリにより、コンテンツ取得元にコンテンツ群の中から検索クエリを含むタイトルを有する1つ以上のコンテンツを抽出させる。そして、照合候補取得部15は、コンテンツ取得元によって抽出されたコンテンツのうち、一定数のコンテンツを候補コンテンツとして、それぞれの識別情報、タイトル、及び付随プロフィールを取得する。例えば、照合候補取得部15は、検索クエリとの合致度が高いとして抽出されたコンテンツのうち、上位一定数のコンテンツそれぞれの識別情報、タイトル、及び付随プロフィールを取得する。
また、コンテンツ取得元の中には、検索クエリを用いた検索により抽出されたコンテンツだけでなく、検索クエリを用いた検索により抽出されたコンテンツとの関連性が高い関連コンテンツ(例えば、視聴するユーザ層が同じコンテンツなど)を1つ以上、抽出し、抽出された関連コンテンツのタイトル、サムネイル、付随プロフィール等を提示する機能を有するものがある。このような場合、照合候補取得部15は、コンテンツ取得元により抽出された関連コンテンツを候補コンテンツとし、該候補コンテンツの識別情報、タイトル及び付随プロフィールを取得してもよい。このとき、照合候補取得部15は、関連コンテンツの、検索クエリによって抽出されたコンテンツとの関連度合いを示す関連度を取得してもよい。
また、照合候補取得部15は、コンテンツ取得元に新たに記憶されたコンテンツ(新着コンテンツ)を上位一定数、抽出させてもよい。この場合、更に、照合候補取得部15は、新着コンテンツを候補コンテンツとして、該候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する。新着コンテンツは、例えば、照合候補取得部15がコンテンツを取得するタイミングを基準として、該基準の所定の時間前から該基準までの間に、コンテンツ取得元に投稿されたコンテンツである。これにより、照合候補取得部15は、検索クエリに基づいて取得したコンテンツ、関連コンテンツだけでは取得しきれないコンテンツに違法コンテンツが含まれている場合に、違法コンテンツを漏れなく探索することができる。
照合候補取得部15が取得する候補コンテンツの数は、コンテンツ取得元及びコンテンツに応じた設定パラメータとして、リスト形式等で予め設定された適切な数である。例えば、特定のジャンル(ドラマ、アニメ等)について違法コンテンツが多く投稿される傾向が強いコンテンツ取得元が存在する場合、照合候補取得部15は、当該コンテンツ取得元からは、特定のジャンルの候補コンテンツを他のジャンルの候補コンテンツより多く取得する。また、照合候補取得部15は、違法コンテンツの投稿率が高い投稿ユーザに係るコンテンツを、他の投稿ユーザに係るコンテンツより多く取得してもよい。これにより、候補コンテンツで識別されるコンテンツに違法コンテンツが含まれる可能性を高めることができる。
照合候補取得部15は、コンテンツ取得元から取得した、候補コンテンツの識別情報、タイトル、及び付随プロフィールをコンテンツプロフィール取得・推定部18に出力する。
プロフィール推定モデル生成部16は、コンテンツのタイトル、及び該コンテンツに付随する付随プロフィールに基づき、該コンテンツに関する統計的な情報である統計プロフィールを出力するプロフィール推定モデルを生成する。プロフィール推定モデルは、タイトルと違法性との対応、付随プロフィールと違法性との対応をそれぞれ示すモデルである。
具体的には、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度をタイトルごとに示すタイトル違法確度を学習し、タイトルとタイトル違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。プロフィール推定モデル生成部16は、各クラスに分類される確度を算出できる統計モデル(SVM、ナイーブベイズ等)を用いた学習によってプロフィール推定モデルを生成することが望ましい。クラス分類は、違法/非違法の2値分類、コンテンツタイトル(複数)と非違法等との多値分類のどちらでもよい。なお、プロフィール推定モデルを生成する具体的な手法は、既知の任意の手法とすることができる。例えば、「言語処理のための機械学習入門(奥村学監修、高村大也著、コロナ社、p101−117)」にその手法の一例が記載されている。この方法では、学習データとなるテキストを形態素解析し、含有される単語を抽出して学習を行っているが、形態素解析を行わずにテキストを文字列として学習に用いることも可能である。
また、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度を投稿ユーザごとに示す投稿ユーザ違法確度を学習し、該投稿ユーザと投稿ユーザ違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。投稿ユーザ違法確度は、過去に各投稿ユーザによって投稿されたコンテンツの違法性に基づいて推定される。具体的には、プロフィール推定モデル生成部16は、投稿ユーザが過去に投稿したコンテンツにおける違法確度の高いタイトルを有するコンテンツの含有率、コンテンツ自体の削除率等の特徴量と、投稿ユーザの違法確度との対応を示す違法確度学習データに基づいてプロフィール推定モデルを作成する。
プロフィール推定モデル記憶部17は、プロフィール推定モデル生成部16によって生成されたプロフィール推定モデルを記憶する。
コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに基づいて、候補コンテンツの統計プロフィールを取得する。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツの統計プロフィールは、コンテンツの内容に関する情報及び投稿ユーザに関する情報である。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツのプロフィールは、図4に示すように、上述のコンテンツ長、投稿時刻、投稿ユーザ名、に加えてタイトルの違法確度、投稿ユーザの違法確度、投稿ユーザが投稿したコンテンツの削除率、ユーザ種別、投稿ユーザの編集傾向種別(画像編集あり)、投稿ユーザの編集傾向種別(音声編集あり)を含む。これらのプロフィールのうち、追って詳細に説明する、プロフィール推定モデルを用いて推定されるタイトルの違法確度、及び投稿ユーザの違法確度を統計プロフィールという。
ユーザ種別は、コンテンツの投稿ユーザが、上述した照合元のコンテンツを生成した(もしくは権利をもつ)正規ユーザであるか否かを示す種別である。ユーザ種別は、予め作成された正規ユーザリスト等に基づいて決定される。編集傾向種別は、コンテンツに対して施された編集、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無を示す種別である。編集傾向種別は、少なくとも一部の投稿ユーザについて予め作成された、該投稿ユーザの編集傾向種別のリストに基づいて決定される。
具体的には、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに含まれるコンテンツ長及び投稿時刻を候補コンテンツのコンテンツ長及び投稿時刻として取得する。
また、コンテンツプロフィール取得・推定部18は、予めメモリに記憶された正規ユーザリストに基づいて、照合候補取得部15から出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザのユーザ種別を推定する。具体的には、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれている場合、該投稿ユーザのユーザ種別が正規であると推定する。また、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれていない場合、該投稿ユーザのユーザ種別が非正規であると推定する。
また、コンテンツプロフィール取得・推定部18は、編集傾向種別リストに基づいて、照合候補取得部15によって出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザの編集傾向種別を推定する。編集傾向種別リストは、予めメモリに記憶されているリストであって、投稿ユーザと、編集傾向種別との対応を示すリストである。編集傾向種別は、該投稿ユーザに係るコンテンツについて多く行われた編集方式の種別である。種別には、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無等が含まれる。コンテンツプロフィール取得・推定部18は、推定した編集方式を編集傾向種別として取得する。
また、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された候補コンテンツのタイトル及び投稿ユーザ名に基づいてそれぞれタイトル違法確度又は投稿ユーザ違法確度をプロフィール推定モデル記憶部17に記憶されているプロフィール推定モデルに基づいて推定する。なお、以降の説明では、コンテンツプロフィール推定部18によって取得又は推定された付随プロフィール及び統計プロフィール、並びにコンテンツプロフィール推定部18によって各種リストを用いて推定されたプロフィールを単に「プロフィール」ということがある。
さらに、コンテンツプロフィール取得・推定部18は、上述のように取得又は推定したプロフィールを識別情報及びタイトルとともに例外コンテンツ除去部19に出力する。
例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18から出力されたプロフィールに基づいて、違法コンテンツの候補から除去する例外コンテンツを決定する。具体的には、例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18によって取得されたプロフィールが所定の条件を満たす場合、該プロフィールに対応する候補コンテンツを例外コンテンツとして除去する。所定の条件は、例えば、プロフィールに含まれるユーザ種別が正規であることとしてもよい。また、所定の条件は、例えば、付随プロフィールに含まれる投稿時刻が照合元のコンテンツの公開時刻より前であることとしてもよいし、付随プロフィールに含まれるコンテンツ長が所定の長さ(例えば、数秒程度)より短いこととしてもよい。所定の条件はこれらに限られず、候補コンテンツが違法コンテンツでない可能性が高いことを示す任意の条件とすることができる。
例外コンテンツ除去部19は、除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールを照合優先度計算部20に出力する。
照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールに基づいて、後述する照合処理における優先度を計算する。
具体的には、照合優先度計算部20は、候補コンテンツの違法確度に基づいて、優先度計算モデルを用いて優先度を計算する。
まず、照合優先度計算部20は、候補コンテンツのタイトルを示す文字列と、照合元のコンテンツのタイトルを示す文字列との編集距離を計算する。編集距離は、2つの文字列がどの程度異なっているかを示す距離の一種であり、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。すなわち、編集距離が小さいほど、候補コンテンツのタイトルを示す文字列と照合元のコンテンツのタイトルを示す文字列とは関連性が高いことを示している。また、照合優先度計算部20は、照合元のコンテンツのタイトルを示す文字列の代わりに、例えば、照合元のコンテンツのメタ情報に含まれる、該照合元のコンテンツに登場するキャラクターの名称、出演者名、サブタイトル等の文字列と、候補コンテンツのタイトルを示す文字列との編集距離を計算してもよい。
また、照合優先度計算部20は、編集距離が所定の値より小さいタイトルに係る候補コンテンツの識別情報、タイトル、及びプロフィールを抽出する。
また、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離との両方に基づいて関連性を判定してもよい。例えば、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離とにそれぞれ重み付けしたうえで足し合わせたスコアを計算してもよい。この場合、照合優先度計算部20は、所定の値より小さいスコアに係る候補コンテンツを抽出する。
上述のように、照合候補取得部15は、検索クエリに基づいて抽出されたコンテンツ、該コンテンツの関連コンテンツの他に、新着コンテンツを含めた幅広い範囲の候補コンテンツの識別情報を取得する。これにより、識別情報で識別される候補コンテンツには、照合元のコンテンツと関連性の低いコンテンツが多く含有されている可能性がある。そこで、照合優先度計算部20が、編集距離の小さい、すなわち関連性の高いと見込まれる候補コンテンツのみを照合の対象として抽出することにより、後述する照合に係る処理負荷を軽減することが可能となる。
照合優先度計算部20は、編集距離に基づいて候補コンテンツを抽出すると、抽出された候補コンテンツのタイトル違法確度に基づいて優先度を決定する。このとき、候補コンテンツのタイトル違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれるタイトル違法確度が用いられる。また、照合優先度計算部20は、抽出された候補コンテンツのタイトル違法確度に代えて、投稿ユーザ違法確度を用いて優先度を決定してもよい。候補コンテンツの投稿ユーザ違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれる投稿ユーザ違法確度が用いられる。また、照合優先度計算部20は、タイトル違法確度及び投稿ユーザ違法確度の両方に基づいて優先度を決定してもよい。例えば、照合優先度計算部20は、タイトル違法確度と投稿ユーザ違法確度とのそれぞれに重み付けをした値の和を優先度とすることができる。また、照合優先度計算部20は、先に計算された編集距離と、各違法確度との組合せにより優先度を決定してもよい。
さらに、照合優先度計算部20は、照合優先度計算部20が計算した優先度を、該優先度に係る候補コンテンツの識別情報、タイトル、及びプロフィールとともにコンテンツDL・照合部24に出力する。
照合パラメータ設定部23は、予め記憶された設定パラメータのリストを用いて、候補コンテンツの特徴に基づいて、照合の処理で用いられる照合用パラメータを設定する。照合とは、候補コンテンツと照合元のコンテンツとが合致するか否かを判定することである。設定パラメータは、例えば、フレーム長、照合手法である。フレーム長は、照合処理における照合の基本単位となるフレームの長さである。照合手法には、音声によって照合を行う手法、画像によって照合を行う手法等が含まれる。
照合手法として、既知の任意の手法を用いることができる。例えば、「音楽や映像を特定するメディア指紋技術とその応用(川西隆仁、他、The Japan Society for Industrial and Applied Mathematics、応用数理 21(4)、P.289−292、2011年12月22日」にその手法の一例が記載されている。
設定パラメータリストは、候補コンテンツのプロフィール又はプロフィールの組合せに対応して、適切な設定が記載されているリストである。設定パラメータリストで用いられる候補コンテンツのプロフィールは、照合の精度が確保される程度に必要とされるフレーム長を推定するためのものであって、例えば、ジャンルである。候補コンテンツのジャンルがスポーツのマッシュアップコンテンツである場合、該候補コンテンツは、数秒程度の短い動画を編集して構成される。このため、設定パラメータリストにおいて、例えば、スポーツのマッシュアップコンテンツというジャンルに対応して、短いフレーム長(例えば2秒から3秒程度)という設定が記載されている。これにより、コンテンツDL・照合部24が、設定された短いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを検出することができる。
一方、候補コンテンツのジャンルがドラマや映画である場合、コンテンツ長は数十分から数時間程度の長さである。このため、設定パラメータリストにおいて、例えば、ドラマ又は映画というジャンルに対応して、長いフレーム長(例えば5分程度)という設定が記載されている。これにより、コンテンツDL・照合部24は、設定された長いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
また、設定パラメータリストで用いられる候補コンテンツのプロフィールは、例えば、編集手法であってもよい。編集手法は、コンテンツに対して行われた編集の手法であり、例えば、画像のなかに画像を埋め込むPinP、時間伸縮等が含まれる。照合パラメータ設定部23は、候補コンテンツの編集手法を、コンテンツプロフィール取得・推定部18が取得した投稿ユーザの編集傾向種別としてもよい。
例えば、候補コンテンツの編集手法がPinPであり、異なる画像の中に照合元のコンテンツの画像と同様の画像が埋め込まれている場合、候補コンテンツは画像全体として照合元のコンテンツと異なると認識される。そのため、画像による照合によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、PinPという編集手法に対応して、音声による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、音声による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
また、例えば、候補コンテンツの編集手法が時間伸縮である場合、候補コンテンツの音声は、編集前の音声とは抽出される特徴量が大きく異なる。そのため、候補コンテンツが正規コンテンツを時間伸縮したものである場合、音声による照合処理によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、時間伸縮という編集手法に対応して、画像による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、画像による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
コンテンツDL・照合部24は、照合優先度計算部20によって計算された優先度が高い順に、候補コンテンツをコンテンツ取得元からダウンロードする。そして、コンテンツDL・照合部24は、ダウンロードした候補コンテンツを、照合パラメータ設定部23による設定に従い、照合元のコンテンツと照合することによって、候補コンテンツが照合元のコンテンツに合致するか否かを判定する。コンテンツDL・照合部24は、照合元のコンテンツに合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。
また、コンテンツDL・照合部24は、コンテンツのコンテンツ長が長い場合、優先度が高い候補コンテンツから順にダウンロードし、ダウンロードしたコンテンツから順に照合することによって、効率的に違法コンテンツを探索することが可能である。
また、コンテンツDL・照合部24は、コンテンツ長が長い候補コンテンツ(例えば数十分〜数時間の動画コンテンツ等)をダウンロードするとともに、並行してダウンロードされた部分から照合を開始してもよい。この場合、コンテンツDL・照合部24は、候補コンテンツと照合元のコンテンツとが合致したとき、候補コンテンツの残り時間のダウンロードを中止する。コンテンツDL・照合部24は、合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。そして、コンテンツDL・照合部24は、次に優先度の高い候補コンテンツのダウンロードおよび照合を行う。これにより、コンテンツDL・照合部24によって、1つの候補コンテンツの照合に要する時間を短縮させる、すなわち、単位時間あたりに照合される候補コンテンツの数を増加させることができる。
また、コンテンツDL・照合部24は、違法コンテンツのタイトルを、違法を示すラベルとともに違法語句モデル更新部25に出力する。また、コンテンツDL・照合部24は、違法コンテンツのプロフィールを、違法を示すラベルとともにプロフィール推定モデル更新部26に出力する。
違法語句モデル更新部25は、コンテンツDL・照合部24から出力された違法コンテンツのタイトルに基づいて違法語句モデルを更新する。具体的には、違法語句モデル更新部25は、違法コンテンツのタイトルを新たな学習データとした機械学習により、違法語句モデル生成部11に違法語句モデルを更新させる。これにより、違法語句モデルの精度が高まることが期待される。
プロフィール推定モデル更新部26は、コンテンツDL・照合部24から出力された違法コンテンツのプロフィールに基づいてプロフィール推定モデルを更新する。具体的には、プロフィール推定モデル更新部26は、違法コンテンツのプロフィールを新たな学習データとした機械学習により、プロフィール推定モデル生成部16にプロフィール推定モデルを更新させる。これにより、プロフィール推定モデルの精度が高まることが期待される。
続いて、本実施形態における違法コンテンツ探索装置1が実行するコンテンツ探索方法について図5に示すフローチャートを参照して説明する。図5は、コンテンツ探索方法の一例を示すフローチャートである。
まず、検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、タイトル、及びメタ情報を入力する(ステップS1)。
ステップS1で照合元のコンテンツ、タイトル及びメタ情報が入力されると、検索クエリ生成部14は、違法語句モデル、検索クエリ生成規則を用いて検索クエリを生成する(ステップS2)。
ステップS2で検索クエリが生成されると、照合候補取得部15は、検索クエリに基づいて、コンテンツ取得元に該検索クエリに対応する候補コンテンツを抽出させ、抽出された候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する(ステップS3)。
ステップS3で識別情報、タイトル、及び付随プロフィールが取得されると、コンテンツプロフィール取得・推定部18は、取得された付随プロフィールに基づいて、候補コンテンツのプロフィールをさらに取得又は推定する(ステップS4)。
ステップS4でプロフィールが取得又は推定されると、例外コンテンツ除去部19は、取得されたプロフィールに基づいて、該プロフィールが所定の条件を満たす候補コンテンツを違法コンテンツの候補から除去する(ステップS5)。
ステップS5で例外コンテンツの識別情報が除去されると、照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった各識別情報で識別される候補コンテンツのタイトル及びプロフィールに基づいて、各候補コンテンツの優先度を計算する(ステップS6)。
ステップS6で各候補コンテンツの優先度が計算されると、コンテンツDL・照合部24は、優先度が高い順に候補コンテンツをコンテンツ取得元からダウンロードし、ダウンロードされた候補コンテンツを、ステップS1で入力された照合元のコンテンツと照合する(ステップS7)。
なお、上述した違法コンテンツ探索装置1として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、違法コンテンツ探索装置1の各機能を実現する処理内容を記述したプログラムを該コンピュータのデータベースに格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMやDVD−ROMなどの記録媒体であってもよい。
以上説明したように、本実施形態によれば、違法コンテンツ探索装置1は、コンテンツのタイトル及びプロフィールに基づき、該コンテンツ又はコンテンツの投稿ユーザについての違法確度を含むプロフィールを推定するためのプロフィール推定モデルを生成する。そして、違法コンテンツ探索装置1は、コンテンツのプロフィールをプロフィール推定モデルにより推定する。このため、通信ネットワーク上の膨大なコンテンツをダウンロードして照合処理を行う前に、候補コンテンツの付随プロフィールに基づいて照合処理の対象とするコンテンツを適切に抽出することができる。また、タイトルの違法確度及び投稿ユーザの違法確度に応じた順にコンテンツをダウンロードすることができる。すなわち、利用者は効率的に違法コンテンツを探索することが可能となる。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。