JP6762678B2

JP6762678B2 - 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム

Info

Publication number: JP6762678B2
Application number: JP2018059681A
Authority: JP
Inventors: 博子武藤; 川西　隆仁; 隆仁川西; 吉岡　理; 理吉岡; 亮北原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2020-09-30
Anticipated expiration: 2038-03-27
Also published as: US20210026930A1; JP2019174926A; WO2019187920A1

Description

本発明は、正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラムに関する。

近年、通信ネットワーク技術の発展、および、スマートフォン、ＰＣ（Personal Computer）などの通信端末の進歩に伴い、動画などのコンテンツをアップロードおよびダウンロード可能なコンテンツ配信サイトが多数、開設されている。この種のコンテンツ配信サイトにおいては、ユーザはコンテンツを手軽にアップロードできるため、コンテンツ配信サイトにアップロードされるコンテンツ数が年々増加している。このようなコンテンツ配信サイトでは、正規コンテンツの権利を有さない非権利者により、正規コンテンツに関連する違法コンテンツが違法にアップロードされることが問題となっている。そのため、違法コンテンツを検知する技術が求められている。

例えば、非特許文献１には、違法・有害文書に特徴的に出現する語句の抽出、および、文書内の係り受け関係にある分節組の学習により、違法・有害文書を検出する手法が記載されている。

また、非特許文献２には、通信ネットワークを介してアクセスされ得る多数のサイトから有害サイトを検出する手法が記載されている。この手法では、有害サイトのＨＴＭＬ（Hyper Text Markup Language）に含まれる文字列をＳＶＭ（Support Vector Machine）により統計的に学習し、学習に基づいて抽出された文字列をＨＴＭＬに含むサイトを、有害サイトとして検出する。

池田和史、他３名、「係り受け関係に基づく違法・有害情報の高精度検出方式の提案」、ＤＥＩＭＦｏｒｕｍ２０１０Ｃ９−５池田和史、他５名、「ＨＴＭＬ要素に基づく有害サイト検出方法」、情報処理学会論文誌、Ｖｏｌ．５２、Ｎｏ．８、Ｐ．２４７４−２４８３

上述したような違法コンテンツの探索においては、正規コンテンツのタイトルなどに基づき検索クエリを生成し、生成した検索クエリに基づき、コンテンツ配信サイトなどのコンテンツ取得元から違法コンテンツの候補である候補コンテンツが取得される。そして、取得された候補コンテンツと正規コンテンツとの照合により、候補コンテンツが違法コンテンツであるか否かが判定される。ここで、違法・有害文書に特徴的に出現する語句を検索クエリとして生成することで、ユーザが所望するコンテンツと関連のあるコンテンツが抽出される可能性が高くなった。

しかしながら、違法コンテンツを投稿する非権利者は、該違法コンテンツが探索されるのを回避しつつも、正規のコンテンツとの関連性を閲覧者に認識させるようなタイトルを違法コンテンツに付与することがある。この場合、違法コンテンツを適切に抽出することができないことがある。

上記のような問題点に鑑みてなされた本発明の目的は、違法コンテンツの探索の適切化を図ることができる違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る違法コンテンツ探索装置は、正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置において、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書を記憶するクエリ生成用辞書記憶部と、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するクエリ生成用辞書作成部と、前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成する検索クエリ生成部と、を備え、前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、前記クエリ生成用辞書作成部は、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、前記検索クエリ生成部は、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成する。

また、上記課題を解決するため、本発明に係る違法コンテンツ探索方法は、正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索方法において、クエリ生成用辞書作成部が、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するステップと、検索クエリ生成部が、前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成するステップと、を含み、前記クエリ生成用辞書に登録ステップでは、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、前記クエリ生成用辞書に登録するステップでは、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、前記検索クエリを生成するステップでは、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成する。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の違法コンテンツ探索装置として機能させる。

本発明に係る違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラムによれば、違法コンテンツの探索の適切化を図ることができる。

本発明の一実施形態に係る違法コンテンツ探索装置の構成例を示す機能ブロック図である。図１に示すクエリ生成用辞書作成部が作成するクエリ生成用辞書の構成例を示す図である。図１に示す違法コンテンツ探索装置が実行する違法コンテンツ探索方法の一例を示すフローチャートである。

以下、本発明を実施するための形態について、図面を参照しながら説明する。

図１は、本発明の一実施形態に係る違法コンテンツ探索装置１の構成例を示す機能ブロック図である。

図１に示す違法コンテンツ探索装置１は、クエリ生成用辞書作成部１１と、クエリ生成用辞書記憶部１２と、検索クエリ生成規則記憶部１３と、検索クエリ生成部１４と、照合候補取得部１５と、コンテンツプロフィール取得部１６と、例外コンテンツ除去部１７と、フィッシングコンテンツ検知部１８と、検知済み違法コンテンツ除去部１９と、違法確度推定モデル生成部２０と、違法確度推定モデル記憶部２１と、照合優先度計算部２２と、照合用パラメータ設定部２３と、コンテンツＤＬ（Download：ダウンロード）・照合部２４と、クエリ生成用辞書更新部２５と、フィッシングコンテンツ更新部２６と、違法コンテンツプロフィール更新部２７と、違法確度推定モデル更新部２８とを備える。

違法コンテンツ探索装置１は、正規コンテンツのタイトル（正規タイトル）およびメタ情報などに基づく検索クエリを用いて、インターネット上のコンテンツ取得元に記憶されている違法コンテンツを検索する。違法コンテンツは、正規コンテンツの権利を有さない非権利者により投稿された、正規コンテンツに関連するコンテンツである。メタ情報は、正規コンテンツに付随する属性情報である。メタ情報は、例えば、サブタイトル、コンテンツに登場する出演者、キャラクターの名称、放送回番号、放送日時、出演者、略称、コンテンツのジャンルなどを含む。

コンテンツ取得元は、インターネット上に存在する、コンテンツの投稿、閲覧、ダウンロードなどが可能なサイトである。コンテンツ取得元は、投稿ユーザの要求に基づき、通信端末からのコンテンツの投稿を受け付け、投稿されたコンテンツを記憶する。また、コンテンツ取得元は、ユーザの要求に基づいて、記憶されているコンテンツを通信端末にダウンロードさせる。なお、コンテンツ取得元は、例えば、コンテンツ投稿サイトなどを管理するサーバ装置、複数台のサーバ装置により構成される分散システム、クラウドサービスなどである。また、「投稿する」とは、コンテンツをアップロードし、記憶させることである。また、「投稿ユーザ」とは、コンテンツ取得元を利用するユーザのうち、コンテンツを投稿するユーザである。

コンテンツ取得元の例としては、ユーザ投稿型コンテンツ投稿サイト、ウェブ検索サイト、違法コンテンツのＵＲＬ（Uniform Resource Locator）まとめサイト、寄生型コンテンツ共有サイトなどがある。

ユーザ投稿型コンテンツ投稿サイトは、検索クエリを用いて検索することで、そのサイトに投稿されているコンテンツを取得（閲覧、ダウンロードなど）することができるサイトである。ユーザ投稿型コンテンツ投稿サイトにおいては、検索結果は、サイト独自の基準でランク付けされている。

ウェブ検索サイトは、検索クエリを用いて検索することで、インターネット上に存在するコンテンツを横断的に取得することができるサイトである。ウェブ検索サイトにおいては、検索結果は、サイト独自の基準でランク付けされている。

違法コンテンツのＵＲＬまとめサイトは、サイト管理者が違法コンテンツへのリンクをまとめたサイトである。人手を介して運用されているため、違法コンテンツのＵＲＬまとめサイトを由来とするコンテンツは、違法コンテンツである可能性が高い。

寄生型コンテンツ共有サイトは、ユーザ投稿型コンテンツ投稿サイトなど、他のサイトに投稿されているコンテンツを表示・再生することができるサイトである。

上述したユーザ投稿型コンテンツ投稿サイトなどの中には、コンテンツごとに、そのコンテンツと関連度の高いコンテンツ（関連コンテンツ）を一定数、取得することができる機能が実装されたサイトがある。例えば、コンテンツを利用したユーザの多くが利用している別のコンテンツを関連コンテンツとするなど、関連コンテンツの特定には、サイト独自の基準が設けられている。関連コンテンツが関連付けられた元のコンテンツが違法コンテンツであれば、関連コンテンツも同じく違法コンテンツである可能性が高い。違法コンテンツ探索装置１は、このような関連コンテンツもコンテンツ取得元から取得する。関連コンテンツを取得することで、コンテンツのタイトルなどに基づく検索クエリを用いた検索では発見することができない違法コンテンツを発見することができる場合がある。ただし、発見したいコンテンツとは関係のないコンテンツが含まれることも多いため、関連コンテンツを用いるか否かは適宜、決定する必要がある。

クエリ生成用辞書作成部１１は、違法コンテンツのタイトルから、正規コンテンツのタイトル（正規タイトル）に含まれる語句に関連する関連語句を抽出し、クエリ生成用辞書に登録する。クエリ生成用辞書は、違法コンテンツの検索に用いる検索クエリを生成するための語句が登録された辞書である。クエリ生成用辞書作成部１１は、関連語句として、正規タイトルに対する表記揺れ語句、外国語表記などを抽出し、抽出した語句をクエリ生成用辞書に登録する。

また、クエリ生成用辞書作成部１１は、抽出した関連語句を用いてコンテンツ取得元を検索してもよい。クエリ生成用辞書作成部１１は、検索結果から、関連語句をタイトルに含むコンテンツ（含有コンテンツ）の数、含有コンテンツにおける違法コンテンツの数、および、含有コンテンツに対する違法コンテンツの比率（違法コンテンツ率）を取得し、関連語句に対応付けてクエリ生成用辞書に登録してもよい。すなわち、クエリ生成用辞書作成部１１は、関連語句をタイトルに含む含有コンテンツの数に対する、関連語句をタイトルに含む違法コンテンツの数である違法コンテンツ率を計算し、関連語句に対応付けてクエリ生成用辞書に登録してもよい。

違法コンテンツを投稿する違法投稿ユーザは、投稿する違法コンテンツが権利者などから発見・削除されるのを避けるために、投稿する違法コンテンツのタイトルを、正規タイトルから故意に変形して投稿することが多い。例えば、違法コンテンツのタイトルは、正規タイトルの全部あるいは一部が、仮名変換、漢字変換、ローマ字または略称などの類似の語句（表記揺れ語句）に変換されることがある。また、違法コンテンツのタイトルは、正規タイトルの全部あるいは一部が、外国語表記に変換されることがある。このようなタイトルの変換が行われた違法コンテンツは、正規タイトルに基づいて生成した検索クエリを用いて検索しても、発見できないことがある。そのため、違法コンテンツで実際に使われた語句を取得し、検索クエリを生成するためのクエリ生成用辞書に登録することで、より広範囲の違法コンテンツを収集することができる。

図２は、クエリ生成用辞書作成部１１が生成するクエリ生成用辞書の構成例を示す図である。

図２に示すように、クエリ生成用辞書作成部１１は、正規コンテンツのタイトルをクエリ生成用辞書に登録する。また、クエリ生成用辞書作成部１１は、「正規タイトル」、「サブタイトル」、「放送日」などの、検索クエリの生成に用いる語句（表記）に対する表記揺れ語句、外国語表記などの、違法コンテンツで実際に利用された表記を関連語句としてクエリ生成用辞書に登録する。また、クエリ生成用辞書作成部１１は、登録した語句が、正規タイトルから得られた正規表現であるのか、表記揺れ語句であるのか、外国語表記であるのかといった、その語句の種別を、クエリ生成用辞書に登録する。

また、クエリ生成用辞書作成部１１は、コンテンツ取得元を検索して、抽出した関連語句をタイトルに含む含有コンテンツの数、含有コンテンツに対する、関連語句をタイトルに含む違法コンテンツの数、および、含有コンテンツに対する違法コンテンツの比率である違法コンテンツ率を求め、関連語句に対応付けてクエリ生成用辞書に登録してもよい。含有コンテンツの数、含有コンテンツに対する違法コンテンツの数および違法コンテンツ率のような、違法コンテンツの発見に有用な指標を取得・登録することで、検索クエリ生成のために、より有用な辞書を作成することができる。

本実施形態に係る違法コンテンツ探索装置１においては、違法であることが既知のコンテンツのタイトルから関連語句を抽出し、クエリ生成用辞書の登録語句数を増やすことを前提としている。そのため、クエリ生成用辞書作成部１１は、人手を介して違法・非違法のラベルが付与されたタイトル、後述するコンテンツＤＬ・照合部２４により違法コンテンツであると判定されたコンテンツのタイトルなどを用いて、関連語句の収集および辞書登録を行う。コンテンツＤＬ・照合部２４により違法コンテンツであると判定されたコンテンツのタイトルを用いる場合、違法コンテンツのタイトルが十分な量だけ収集されるまでは、使用頻度が高い表記揺れ語句などを外部リソースから取得する、あるいは、予め定められたルールに従い生成するなどして、初期状態の語句として、クエリ生成用辞書に登録してもよい。具体的には、正規タイトルを平仮名表記に変換した語句、正規タイトルをローマ字表記に変換した語句、インターネット上の辞書サイトなどから取得した外国語表記などを、初期状態の語句として、クエリ生成用辞書に登録してもよい。

以下では、違法コンテンツのタイトルから表記揺れ語句および外国語表記を取得し、クエリ生成用辞書に登録する手順について説明する。まず、違法コンテンツのタイトルから表記揺れ語句を取得し、クエリ生成用辞書に登録する手順について説明する。

クエリ生成用辞書作成部１１は、違法コンテンツのタイトル一覧から、クエリ生成用辞書に登録済みの語句が完全一致で含まれないタイトル群を抽出し、処理対象とする。すなわち、クエリ生成用辞書作成部１１は、クエリ生成用辞書に登録済みの語句が完全一致で含まれるタイトルを処理対象から除外する。

次に、クエリ生成用辞書作成部１１は、抽出したタイトル群に対して言語解析（例えば、形態素解析）を行い、コンテンツのタイトルのテキストを語句分割する。

次に、クエリ生成用辞書作成部１１は、言語解析により得られた語句（コンテンツのタイトルを分割した語句）のうち、出現頻度が所定値より高い語句を抽出する。なお、語句の抽出の基準は、言語解析により特定の品詞に分類された語句、構文解析でタイトル部位として判定された語句などでもよい。

次に、クエリ生成用辞書作成部１１は、抽出した語句について、クエリ生成用辞書に登録されている語句との編集距離を計算する。すなわち、クエリ生成用辞書作成部１１は、違法コンテンツのタイトルに含まれる語句の、クエリ生成用辞書に登録されている語句との編集距離を計算する。具体的には、クエリ生成用辞書作成部１１は、違法コンテンツのタイトルに含まれる語句のうち、出現頻度が所定値より高い語句について、クエリ生成用辞書に登録されている語句との編集距離を計算する。なお、編集距離とは、２つの文字列がどの程度異なっているかを示す距離の一種である。編集距離は、１文字の挿入・削除・置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数として定義される。編集距離が小さいほど、２つの文字列間の差分が少ないことを示している。クエリ生成用辞書作成部１１は、編集距離が所定値以下である語句を表記揺れ語句として抽出する。

次に、クエリ生成用辞書作成部１１は、クエリ生成用辞書に登録されている語句との編集距離が所定値以下である語句を検索クエリとして、コンテンツ取得元に対するコンテンツの検索を行う。そして、クエリ生成用辞書作成部１１は、検索により得られた含有コンテンツの数が上位の所定数の語句に対して、含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を求め、これらの値が一定値以上の語句を、関連語句（表記揺れ語句）として、クエリ生成用辞書に登録する。クエリ生成用辞書作成部１１は、クエリ生成用辞書に登録されている語句との編集距離が所定値以下である語句を、関連語句（表記揺れ語句）として、クエリ生成用辞書に登録してもよい。ただし、後述するように、抽出した語句を用いた検索により得られた含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を、クエリ生成用辞書への登録の指標とすることで、より質の高いクエリ生成用辞書を作成することができる。なお、クエリ生成用辞書作成部１１は、検索したコンテンツが違法であるか否かは、動画・音声照合により判断する。

表記揺れ語句を抽出する対象の違法コンテンツとしては、通常の検索により得られるコンテンツ以外のコンテンツ、例えば、関連コンテンツあるいは違法コンテンツのＵＲＬまとめサイトを由来とするコンテンツを用いることが望ましい。これらのコンテンツには、通常の検索では発見できないコンテンツが含まれることが多く、新たな表記揺れ語句を取得することができる可能性が高い。ただし、関連コンテンツには、違法でないコンテンツも多く含まれることがあるため、語句の抽出前に、動画・音声照合を行い、違法であると判定したコンテンツのみを用いることが望ましい。

次に、違法コンテンツのタイトルから外国語表記を取得し、クエリ生成用辞書に登録する２つの手順について説明する。まず、違法コンテンツのタイトルから外国語表記を取得し、クエリ生成用辞書に登録するための、１つ目の手順について説明する。１つ目の手順は、日本語タイトルと併記されている外国語タイトルから外国語表記を取得する手順である。

クエリ生成用辞書作成部１１は、違法コンテンツのタイトルに対して言語解析を行い、コンテンツのタイトルのテキストを語句分割する。

次に、クエリ生成用辞書作成部１１は、言語解析により得られた語句のうち、日本語タイトル（正規タイトルおよびクエリ生成用辞書に登録されている関連語句（表記揺れ語句））に対する共起の出現頻度が所定値以上である共起語句を抽出する。共起語句は、例えは、Ｗｏｒｄ２Ｖｅｃなどの統計モデルを用いて抽出することができる。

次に、クエリ生成用辞書作成部１１は、抽出した共起語句に対して言語判定を行い、外国語と判定された語句を外国語表記として抽出する。

次に、クエリ生成用辞書作成部１１は、外国語表記として抽出した語句を検索クエリとして、コンテンツ取得元に対するコンテンツの検索を行う。そして、クエリ生成用辞書作成部１１は、検索により得られた含有コンテンツの数が上位の所定数の語句に対して、含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を求め、これらの値が一定値以上の語句を、関連語句（外国語表記）として、クエリ生成用辞書に登録する。なお、クエリ生成用辞書作成部１１は、検索したコンテンツが違法であるか否かは、動画・音声照合により判断する。

クエリ生成用辞書作成部１１は、違法コンテンツのタイトルから、正規コンテンツのタイトル、または、クエリ生成用辞書に登録されている関連語句（表記揺れ語句）と共起する頻度が所定値以上である共起語句を抽出し、抽出した共起語句が、正規コンテンツのタイトルとは異なる言語である場合、その共起語句を関連語句（外国語表記）として、クエリ生成用辞書に登録してもよい。ただし、後述するように、抽出した語句を用いた検索により得られた含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を、クエリ生成用辞書への登録の指標とすることで、より質の高いクエリ生成用辞書を作成することができる。

次に、違法コンテンツのタイトルから外国語表記を取得し、クエリ生成用辞書に登録するための、２つ目の手順について説明する。２つ目の手順は、日本語タイトルを外国語に翻訳して外国語表記を取得する手順である。

クエリ生成用辞書作成部１１は、日本語の正規タイトルを外国語に翻訳する。ここで、クエリ生成用辞書作成部１１は、日本語の正規タイトルの単純な直訳だけでなく、シソーラス（類語辞典）から類似の意味を有する単語を抽出して用いてもよい。こうすることで、様々なバリエーションの外国語表記を生成することができる。

次に、クエリ生成用辞書作成部１１は、翻訳した語句を検索クエリとして、コンテンツ取得元に対するコンテンツの検索を行う。そして、クエリ生成用辞書作成部１１は、検索により得られた含有コンテンツの数が上位の一定数の語句に対して、含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を求め、これらの値が一定値以上の語句を、関連語句（外国語表記）として、クエリ生成用辞書に登録する。なお、クエリ生成用辞書作成部１１は、検索したコンテンツが違法であるか否かは、動画・音声照合により判断する。

クエリ生成用辞書作成部１１は、正規コンテンツのタイトルを、そのタイトルを示す言語とは異なる言語に変換した語句を、関連語句（外国語表記）として、クエリ生成用辞書に登録してもよい。ただし、後述するように、抽出した語句を用いた検索により得られた含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を、クエリ生成用辞書への登録の指標とすることで、より質の高いクエリ生成用辞書を作成することができる。

上述した、違法コンテンツのタイトルから関連語句を取得し、クエリ生成用辞書に登録する手順において、言語解析の目的は、コンテンツのタイトルのテキストを語句分割することである。言語解析には種々の手法が存在するが、形態素解析、構文解析による単語分割、あるいは、ＣＲＦ（Conditional random field）などの統計モデルを用いてタスクに対して適切な分割を学習・利用するのが一般的な手法である。

日本語を対象とする場合は、形態素解析で十分な場合が多い。一方、外国語を対象とする場合は、一般的な形態素解析器では、分割精度が低下することがある。そのため、ＣＲＦなどの統計学習方式を用いて外国語の語句分割を学習したモデルを用いることが望ましい。また、十分な学習データを用意することができる場合には、日本語を対象とする場合にも、語句分割のための専用の統計モデルを構築・利用した方が、高精度な語句分割を行うことができることがある。そのため、言語解析の手法は適宜、選択することができる。十分な学習データを用意することができない場合には、区切り文字（スペース、コロン、カギカッコなど）の辞書を用意し、ルールを設計することで、自動的に語句分割を行うことも可能である。形態素解析を用いる方法では、分割精度が、形態素解析の辞書の規模に依存する。一方、上述した区切り文字を用いた方法では、辞書の規模に依存しないため、形態素解析を用いる方法と比べて、状況によっては、より高精度な語句分割を行うことができる。

また、上述した、違法コンテンツのタイトルから関連語句を取得し、クエリ生成用辞書に登録する手順においては、抽出した語句を用いた検索により得られた含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を、クエリ生成用辞書への登録の指標としている。上述したように、クエリ生成用辞書は、違法コンテンツを検索するための検索クエリの生成に用いられる。ここで、違法コンテンツのタイトルにおける語句の出現頻度のみを基準として、クエリ生成用辞書への語句の登録数を増加させても、検索結果に違法コンテンツが含まれないなど、検索結果の質が低下する可能性がある。そこで、本実施形態のように、抽出した語句を用いた検索により得られた含有コンテンツにおける違法コンテンツの数および違法コンテンツ率を、クエリ生成用辞書への登録の指標とすることで、違法コンテンツをより高精度に検出可能な、質の高いクエリ生成用辞書を作成することができる。

図１を再び参照すると、クエリ生成用辞書記憶部１２は、クエリ生成用辞書を記憶する。

検索クエリ生成規則記憶部１３は、検索クエリを生成するための規則である検索クエリ生成規則を記憶する。一般に、検索したい違法コンテンツのジャンルによって、有効な検索クエリは異なる。検索クエリ生成規則記憶部１３は、検索クエリ生成規則として、例えば、検索したい違法コンテンツのジャンルごとの語句の組み合わせ方の規則などを記憶する。

検索クエリ生成規則の一例としては、コンテンツのタイトルとサブタイトルとを組み合わせた検索クエリ（例えば、「タイトルサブタイトル」）を生成するという規則がある。また、別の検索クエリ生成規則として、コンテンツのタイトルと日付とを組み合わせた検索クエリ（例えば、「タイトル２０１７０１０１」、「タイトル２０１７年１月１日」）を生成するという規則がある。また、さらに別の検索クエリ生成規則として、コンテンツのタイトルと放送回番号とを組み合わせた検索クエリ（例えば、「タイトル第１話」、「タイトルｅｐ．１」）を生成するという規則がある。さらに別の検索クエリ生成規則として、コンテンツのタイトルと出演者とを組み合わせた検索クエリを生成するという規則がある。さらに別の検索クエリ生成規則として、コンテンツのタイトルの略称と日付とを組み合わせた検索クエリを生成するという規則がある。さらに別の検索クエリ生成規則として、コンテンツのタイトルの表記揺れ語句を含む検索クエリを生成するという規則がある。さらに別の検索クエリ生成規則として、コンテンツのタイトルの外国語表記と日付とを組み合わせた検索クエリを生成するという規則がある。なお、上述した例は一例であり、任意のメタ情報を組み合わせて、検索クエリを生成することができる。

検索クエリ生成部１４は、正規コンテンツのタイトル（正規タイトル）およびメタ情報に基づき、クエリ生成用辞書に登録されている関連語句を用いて検索クエリを生成する。ここで、検索クエリ生成部１４は、検索クエリ生成規則記憶部１３に記憶されている検索クエリ生成規則に従い、検索クエリを生成する。上述したように、検索したい違法コンテンツのジャンルによって、有効な検索クエリは異なる。したがって、検索したい違法コンテンツのジャンルによって、適切なメタ情報を用いてクエリを生成することが効果的である。検索したい違法コンテンツのジャンルに応じた検索クエリ生成規則としては、検索したい違法コンテンツのジャンルごとの語句の組み合わせ方の規則などがある。この規則に従い、テレビ放送されたコンテンツに関連する違法コンテンツを検索するための検索クエリを生成する場合、検索クエリ生成部１４は、コンテンツのジャンルがバラエティであれば、放送日付を含む検索クエリを生成し、コンテンツのジャンルがドラマ・アニメであれば、放送回番号を含む検索クエリを生成する。

上述したように、クエリ生成用辞書には、関連語句と、その関連語句を用いた検索により得られた含有コンテンツに対する違法コンテンツ率とが対応付けて記憶されている。検索クエリ生成部１４は、クエリ生成用辞書に登録されている違法コンテンツ率に基づいて、検索クエリの生成に用いる関連語句を選択してもよい。例えば、検索クエリ生成部１４は、クエリ生成用辞書に登録されている関連語句のうち、違法コンテンツ率が高い関連語句を優先的に用いて検索クエリを生成してもよい。こうすることで、違法コンテンツを多く含む検索結果を得ることが期待できる。

検索クエリ生成部１４は、生成した検索クエリ（検索クエリ１〜検索クエリＮ）を照合候補取得部１５に出力する。

照合候補取得部１５は、検索クエリ生成部１４から出力された検索クエリを用いて、通信ネットワーク上のコンテンツ取得元を検索する。そして、照合候補取得部１５は、検索クエリにタイトルが合致するコンテンツとして検索されたコンテンツを、違法コンテンツの候補である候補コンテンツとして決定し、候補コンテンツの識別情報をコンテンツ取得元から取得する。識別情報は、候補コンテンツを一意に識別するための情報であり、例えば、インターネット上のコンテンツのアドレス、すなわち、ＵＲＬなどである。

具体的には、照合候補取得部１５は、検索クエリ生成部１４から出力された検索クエリにより、コンテンツ取得元にコンテンツ群の中から検索クエリを含むタイトルを有する１以上のコンテンツを抽出させる。そして、照合候補取得部１５は、コンテンツ取得元により抽出されたコンテンツのうち、一定数のコンテンツを候補コンテンツとして決定し、候補コンテンツの識別情報を取得する。例えば、照合候補取得部１５は、検索クエリとの合致度が高いとして抽出されたコンテンツのうち、合致度が上位の所定数のコンテンツを候補コンテンツとして決定し、識別情報を取得する。

照合候補取得部１５が識別情報を取得する候補コンテンツの件数は、コンテンツ取得元におけるコンテンツの投稿傾向、および、投稿ユーザによるコンテンツの投稿傾向が明らかである場合には、その投稿傾向に応じた適切な値を設定することで、違法コンテンツの含有率を高めることができる。例えば、特定のジャンル（ドラマ、アニメなど）について違法コンテンツが多く投稿される傾向があるコンテンツ取得元、あるいは、違法コンテンツの投稿率が高い投稿ユーザについては、取得件数を多く設定するなどしてもよい。コンテンツ取得元／投稿ユーザの投稿傾向に応じた取得件数は予め、設定パラメータとして、例えば、リスト形式で照合候補取得部１５が保持していてもよい。

照合候補取得部１５は、取得した候補コンテンツ（候補コンテンツ１〜候補コンテンツＭ）の識別情報をコンテンツプロフィール取得部１６に出力する。

コンテンツプロフィール取得部１６は、照合候補取得部１５から出力された識別情報で識別される候補コンテンツのプロフィールを取得する。候補コンテンツのプロフィールは、候補コンテンツに関連する情報であり、例えば、候補コンテンツのタイトル、コンテンツ長（時間長など）、投稿時間（正規コンテンツの公開日から候補コンテンツが投稿されるまでの経過時間）、視聴回数、サムネイル画像、コンテンツ取得元、サブスクライブ数（サイトユーザによるお気に入り登録数）、コンテンツに付けられたコメント数およびコメント本文、違法コンテンツに関連付けられた数などが含まれる。

サムネイル画像とは、動画コンテンツから取得できる、コンテンツを代表する静止画像である。サムネイル画像の取得基準、取得枚数などは、コンテンツ取得元によって異なる。また、違法コンテンツに関連付けられた数とは、候補コンテンツに関連付けられた違法コンテンツの数である。違法コンテンツ探索装置１においては、探索した違法コンテンツごとに、その違法コンテンツの関連コンテンツとの関連付けを記憶しておくことができる。コンテンツプロフィール取得部１６は、このような関連付けに基づき、候補コンテンツに関連付けられた違法コンテンツの数を取得することができる。違法コンテンツに関連付けられた数は、違法度合いに寄与する重要なプロフィールである。

また、候補コンテンツのプロフィールには、候補コンテンツを投稿したユーザのプロフィール、例えば、ユーザアカウント名、ユーザアカウントの作成日、ユーザアカウントの概要文、ユーザアカウントのサブスクライブ数、投稿したコンテンツおよび関連コンテンツのタイトル、投稿したコンテンツの削除履歴、投稿したコンテンツの投稿頻度、投稿したコンテンツの視聴回数およびその推移、違法コンテンツの投稿履歴の有無、違法コンテンツの含有率、編集傾向種別などが含まれてもよい。

コンテンツプロフィール取得部１６は、投稿ユーザが過去に投稿したコンテンツについて、正規コンテンツとの動画・音声照合あるいは違法コンテンツとのサムネイル画像の照合を行い、違法コンテンツの投稿履歴の有無および投稿コンテンツにおける違法コンテンツの含有率を計算する。なお、これらの照合は手間がかかる。そのため、コンテンツプロフィール取得部１６は、これらの情報を一度取得した投稿ユーザについては、取得した情報をリストに保持して参照可能とし、定期的にリストを更新するようにしてもよい。また、コンテンツプロフィール取得部１６は、上記の照合時に、例えば、カットによる編集、時間伸縮、ＰｉｎＰ（Picture in Picture）処理などの、特殊編集処理の有無を判定し、判定傾向種別を取得する。一般に、上述したような特殊編集処理が施されたコンテンツは、違法コンテンツである可能性が高い。

また、候補コンテンツのプロフィールには、世間での話題度に関するプロフィールが含まれてもよい。世間での話題度に関するプロフィールとしては、例えば、ＳＮＳ（Social Networking Service）、ニュースなどの検索サービスから取得できる、検索数の急上昇語句のスコアあるいはランキングがある。また、世間での話題度に関するプロフィールとしては、例えば、候補コンテンツがテレビ番組に関連するものである場合、そのテレビ番組の視聴率などがある。

世間での話題度が高いコンテンツは、違法コンテンツの需要も高く、違法コンテンツが多く投稿される可能性が高い。上述したような、世間での話題度を示すプロフィールの取得は、違法コンテンツの効率的な探索に有用である。

コンテンツプロフィール取得部１６は、候補コンテンツ（候補コンテンツ１〜候補コンテンツＭ）の識別情報および取得したプロフィールを例外コンテンツ除去部１７に出力する。

例外コンテンツ除去部１７は、コンテンツプロフィール取得部１６から出力された候補コンテンツのプロフィールに基づいて、違法コンテンツである確率が低く、違法コンテンツの候補から除去するコンテンツである例外コンテンツを決定する。具体的には、例外コンテンツ除去部１７は、候補コンテンツのプロフィールが所定の条件を満たす場合、その候補コンテンツを例外コンテンツとして決定し、候補コンテンツから除外する。所定の条件は、例えば、プロフィールに含まれる候補コンテンツを投稿した投稿ユーザのユーザアカウントが正規ユーザであるという条件である。また、所定の条件は、例えば、プロフィールに含まれる投稿時間が、正規コンテンツの公開より前であるという条件である。また、所定の条件は、例えば、プロフィールに含まれるコンテンツ長が、極端に短い（例えば、数秒程度）という条件である。所定の条件はこれらに限られず、候補コンテンツが違法コンテンツでない可能性が高いことを示す任意の条件とすることができる。

例外コンテンツ除去部１７は、例外コンテンツとして除去されなかった候補コンテンツの識別情報およびプロフィールをフィッシングコンテンツ検知部１８に出力する。

フィッシングコンテンツ検知部１８は、例外コンテンツ除去部１７から出力された候補コンテンツのプロフィールを用いて、候補コンテンツの中から、ユーザの閲覧を誘導する非違法なコンテンツであるフィッシングコンテンツを検知する。

候補コンテンツの中には、非違法なコンテンツをあたかも違法コンテンツのように見せかけて、違法コンテンツを利用しようとするユーザを騙して視聴数・再生数を増加させようとするコンテンツ、いわゆるフィッシングコンテンツが含まれることがある。フィッシングコンテンツは、タイトル、コンテンツ長、サムネイル画像などの、人間がコンテンツの利用を判断する際の指針となるプロフィールにおいて、違法コンテンツと同じような特徴を有しており、一見すると、違法コンテンツのように見える。フィッシングコンテンツは、実際のコンテンツの内容自体は非違法な内容で構成されており、権利者などによる削除の対象とならないコンテンツである。このようなフィッシングコンテンツは、誤って利用するユーザが多いことから、検索結果の上位に多く含まれる傾向にあり、候補コンテンツの中にも多く含まれることがある。そこで、フィッシングコンテンツを検知し、候補コンテンツから除去する、もしくは、後述する照合処理を行う優先度を下げることで、違法コンテンツの探索の効率化を図ることができる。

以下では、フィッシングコンテンツの検知方法の例について説明する。

まず、候補コンテンツのタイトルを用いた検知方法について説明する。

フィッシングコンテンツ検知部１８は、候補コンテンツのプロフィールに含まれるタイトルに正規タイトルが含まれる場合、その候補コンテンツをフィッシングコンテンツの候補として検知する。

フィッシングコンテンツは、ユーザから発見されやすくするため、違法コンテンツとは異なり、正規タイトルをそのまま含むタイトルで投稿される傾向がある。そのため、正規タイトルをそのまま含むタイトルのコンテンツは、フィッシングコンテンツである可能性が高い。したがって、フィッシングコンテンツ検知部１８は、候補コンテンツのタイトルに正規タイトルが含まれる場合、その候補コンテンツをフィッシングコンテンツの候補として検知する。そして、フィッシングコンテンツ検知部１８は、フィッシングコンテンツの候補として検知した候補コンテンツから、フィッシングコンテンツの絞り込み（フィッシングコンテンツの検知）を行う。

次に、フィッシングコンテンツの絞り込みを行う方法について説明する。１つめの方法は、候補コンテンツのタイトルを用いた方法である。

フィッシングコンテンツ検知部１８は、フィッシングコンテンツの候補として検知した候補コンテンツのプロフィールに含まれるタイトルに、予めフィッシングコンテンツデータベース（ＤＢ：Database）１８ａに登録された所定の文字列が含まれる場合、その候補コンテンツをフィッシングコンテンツとして検知する。

フィッシングコンテンツのタイトルには、例えば、「無料」、「裏技」などの、違法コンテンツの利用者が魅力的に感じる語句が含まれる傾向がある。そのため、このような所定の文字列をタイトルに含むコンテンツは、フィッシングコンテンツである可能性が高い。したがって、フィッシングコンテンツ検知部１８は、フィッシングコンテンツの候補として検知した候補コンテンツのタイトルに、上述したような所定の文字列が含まれる場合、その候補コンテンツをフィッシングコンテンツとして検知する。なお、フィッシングコンテンツの検知に用いる所定の文字列は、フィッシングコンテンツのタイトルを学習データとし、上述した共起語句を抽出した方法と同様の方法により抽出することができる。

次に、フィッシングコンテンツの絞り込みを行う２つめの方法について説明する。この検知方法では、フィッシングコンテンツＤＢ１８ａに、フィッシングコンテンツを投稿したことがある投稿ユーザの識別情報（ユーザアカウント名）のリストが登録されているものとする。

フィッシングコンテンツ検知部１８は、フィッシングコンテンツの候補として検知した候補コンテンツのプロフィールに含まれる、その候補コンテンツの投稿ユーザの識別情報が、予めフィッシングコンテンツＤＢ１８ａに登録されている場合、その候補コンテンツをフィッシングコンテンツとして検知する。

フィッシングコンテンツを投稿するユーザは、違法コンテンツを投稿するユーザと比べて、アカウントが削除されにくいという傾向がある。また、フィッシングコンテンツを投稿するユーザは、フィッシングコンテンツのみを投稿する傾向がある。そのため、フィッシングコンテンツ検知部１８は、フィッシングコンテンツを投稿したことがあるユーザの識別情報をリスト化して管理するフィッシングコンテンツＤＢ１８ａに、候補コンテンツの投稿ユーザの識別情報が登録されている場合、その候補コンテンツをフィッシングコンテンツとして検知する。

フィッシングコンテンツ検知部１８は、例えば、上述した方法のいずれかにより、フィッシングコンテンツであると検知された候補コンテンツを、フィッシングコンテンツであると判定する。なお、上述した例では、フィッシングコンテンツ検知部１８は、候補コンテンツのプロフィールに含まれるタイトルに正規タイトルが含まれる場合、その候補コンテンツをフィッシングコンテンツの候補として検知する例を用いて説明したが、これに限られるものではない。フィッシングコンテンツ検知部１８は、正規タイトルがプロフィールのタイトルに含まれる候補コンテンツを、フィッシングコンテンツとして検知してもよい。

上述したように、フィッシングコンテンツＤＢ１８ａには、フィッシングコンテンツのタイトルに含まれる可能性が高い所定の文字列、および、フィッシングコンテンツを投稿したことがあるユーザの識別情報が登録される。違法コンテンツ探索装置１において新たに検知されたフィッシングコンテンツに基づき、フィッシングコンテンツＤＢ１８ａを更新することで、フィッシングコンテンツの検知精度の向上を図ることができる。

フィッシングコンテンツ検知部１８は、フィッシングコンテンツであると判定した候補コンテンツ以外の候補コンテンツの識別情報およびプロフィールを検知済み違法コンテンツ除去部１９に出力する。すなわち、フィッシングコンテンツ検知部１８は、フィッシングコンテンツであると判定したコンテンツを、候補コンテンツから除去する。あるいは、フィッシングコンテンツ検知部１８は、フィッシングコンテンツであると判定したコンテンツのプロフィールに、そのコンテンツがフィッシングコンテンツであることを示すフラグを付与して、検知済み違法コンテンツ除去部１９に出力してもよい。

検知済み違法コンテンツ除去部１９は、フィッシングコンテンツ検知部１８から出力された候補コンテンツのプロフィールに基づき、検知済みの違法コンテンツのプロフィールと同一性を有する（類似度が所定値以上の）プロフィールのコンテンツを検知する。

違法コンテンツの投稿ユーザの中には、投稿した違法コンテンツが権利者などにより削除されても、繰り返し同一の違法コンテンツを投稿するユーザが存在する。また、他者が投稿した違法コンテンツをそのまま、再投稿するユーザが存在する。同一コンテンツの場合、複数のプロフィールが完全に一致する。そのため、収集した候補コンテンツのプロフィールと、既に検知済みの違法コンテンツのプロフィールとの類似度が高い場合、その候補コンテンツは、違法コンテンツであると推定することができる。したがって、検知済み違法コンテンツ除去部１９は、検知済みの違法コンテンツのプロフィールと同一性を有するプロフィールの候補コンテンツについては、後述する照合処理を行うことなく、違法コンテンツであると判定する。その結果、正規コンテンツとの照合処理を行う候補コンテンツの数を減らし、違法コンテンツの探索の効率化を図ることができる。以下では、検知済み違法コンテンツのプロフィールと同一性を有するプロフィールを有し、違法コンテンツであると推定されるとして検知済み違法コンテンツ除去部１９により検知されたコンテンツを、推定違法コンテンツと称することがある。

検知済み違法コンテンツ除去部１９は、同一性の判定基準となるプロフィールとして、サムネイル画像、コンテンツ長、コンテンツのタイトルおよびユーザアカウント名の少なくとも１つを用いる。

検知済み違法コンテンツ除去部１９は、上述したプロフィールが一致する、もしくは、差分が所定の閾値以下の候補コンテンツを推定違法コンテンツであると判定する。そして、検知済み違法コンテンツ除去部１９は、推定違法コンテンツであると判定したコンテンツに、そのコンテンツが違法コンテンツであることを示すフラグを付与して、後述する照合済みコンテンツのリストに加える。また、検知済み違法コンテンツ除去部１９は、推定違法コンテンツであると判定した候補コンテンツを候補コンテンツから除去する。

なお、検知済み違法コンテンツ除去部１９による処理には、検知済みの違法コンテンツのプロフィールが違法コンテンツプロフィールＤＢ１９ａに登録されている必要がある。そのため、違法コンテンツプロフィールＤＢ１９ａに違法コンテンツのプロフィールが登録されていない初期状態では、検知済み違法コンテンツ除去部１９による処理は行われない。

以下では、サムネイル画像を用いた同一性の判定方法（サムネイル画像の照合方法）について説明する。

検知済み違法コンテンツ除去部１９は、候補コンテンツのプロフィールに含まれるサムネイル画像と、違法コンテンツプロフィールＤＢ１９ａに登録されている検知済みの違法コンテンツのプロフィールに含まれるサムネイル画像とを照合し、類似度を計算する。サムネイル画像の照合は、候補コンテンツのプロフィールに含まれる全てのサムネイル画像と、検知済みの違法コンテンツのプロフィールに含まれる全てのサムネイル画像との全ての組み合わせについて行われる。例えば、候補コンテンツのプロフィールに含まれるサムネイル画像を４枚とし、検知済みの違法コンテンツのプロフィールに含まれるサムネイル画像を１００枚とすると、検知済み違法コンテンツ除去部１９は、１候補コンテンツあたり、４００回の照合を行うことになる。検知済み違法コンテンツ除去部１９は、サムネイル画像の照合には、例えば、画像の編集処理の影響を受けにくい、ｄＨａｓｈ（difference hash）などのアルゴリズムを用いる。

なお、違法コンテンツプロフィールＤＢ１９ａには、例えば、予め動画投稿サイトなどから取得され、動画照合を行うことで違法コンテンツであると判定されたコンテンツからサムネイル画像が、そのコンテンツと対応付けて登録される。

候補コンテンツのプロフィールに含まれる全てのサムネイル画像と、検知済みの違法コンテンツのプロフィールに含まれる全てのサムネイル画像との全ての組み合わせについて照合を行うと、照合処理の負荷が大きくなる。そこで、検知済み違法コンテンツ除去部１９は、検知済みの違法コンテンツのプロフィールに含まれるサムネイル画像として、１のサムネイル画像と類似する１または複数のサムネイル画像（類似サムネイル画像）が存在する場合、その類似サムネイル画像を、候補コンテンツのサムネイル画像との照合の対象から除外してもよい。こうすることで、照合処理の負荷を軽減することができる。

検知済み違法コンテンツ除去部１９は、推定違法コンテンツであると判定した候補コンテンツ以外の候補コンテンツ（候補コンテンツ１〜候補コンテンツＰ）の識別情報およびプロフィールを照合優先度計算部２２に出力する。

違法確度推定モデル生成部２０は、コンテンツのプロフィールと、そのコンテンツが違法コンテンツである確度（違法確度）との関係を統計的に学習した違法確度推定モデルを生成する。違法確度推定モデルを生成するための学習データとしては、違法・非違法のラベルが付与されたコンテンツのプロフィールのデータを用いる。違法・非違法のラベルは、作業者がコンテンツを目視し、違法・非違法の判定を行って付与されることが望ましい。違法・非違法の判断基準は、例えば、正規コンテンツとの同一箇所を一定以上含むか否かとすることができる。

統計モデルとしては、言語学習に適したモデルであれば任意のモデルを用いることができる。ただし、優先度付けを行う必要があるため、ＳＶＭなどの、推定した違法確度を数値として算出することができるモデルを用いることが望ましい。違法確度推定モデルを生成するための具体的な手法は、既知の任意の手法とすることができる。例えば、「言語処理のための機械学習入門（奥村学監修、高村大也著、コロナ社、ｐ１０１−１１７）」にその手法の一例が記載されている。

違法確度推定モデル生成部２０は、統計学習を行う際に、プロフィールの値を学習で扱いやすい値に変換する必要がある。以下では、プロフィールの変換例について説明する。

違法確度推定モデル生成部２０は、コンテンツのタイトル、ユーザアカウント名などのテキストの場合、例えば、Ｂａｇ−ｏｆ−Ｗｏｒｄｓ形式に基づき変換する。Ｂａｇ−ｏｆ−Ｗｏｒｄｓ形式の場合、違法確度推定モデル生成部２０は、テキストでの特定の語句の出現回数に応じたラベルを付与する。例えば、違法確度推定モデル生成部２０は、テキストに、違法コンテンツに特徴的に出現する語句である「高画質」が１回以上含まれる場合には、そのテキストに対して「１」のラベルを付与し、それ以外の場合には、そのテキストに対して「０」のラベルを付与する。例えば、違法確度推定モデル生成部２０は、「動画タイトル第１話高画質ＨＤ」というテキストに対して、「１」のラベルを付与し、「動画タイトル第１話」というテキストに対して、「０」のラベルを付与する。

また、違法確度推定モデル生成部２０は、コンテンツ長、投稿時間、視聴回数、コンテンツ取得元、ユーザの投稿履歴などについては、値に応じてクラス分類する。例えば、違法確度推定モデル生成部２０は、コンテンツ長を、「１０分以下」、「１０分〜６０分」、「６０分以上」の３つのクラスに分類する。また、違法確度推定モデル生成部２０は、投稿時間を、「１日以内」、「１日〜１週間」、「１週間以上」の３つのクラスに分類する。また、違法確度推定モデル生成部２０は、視聴回数を、「１０００回以下」、「１０００〜１００００回」、「１００００回以上」の３つのクラスに分類する。また、違法確度推定モデル生成部２０は、コンテンツ取得元を、「動画サイト１の場合はＡ」、「動画サイト２の場合はＢ」、「まとめサイト１の場合はＣ」というように、コンテンツ取得元の数と同数のクラスに分類する。また、違法確度推定モデル生成部２０は、ユーザの投稿履歴を、「違法コンテンツを１度でも投稿したことがあれば１」、「違法コンテンツを１度も投稿したことがなければ０」という２つのクラスに分類する。

なお、上述したクラスの分類数および分類の閾値はあくまでも一例であり、学習データの値の分散、および、違法確度推定モデルの設計方針などに応じて、適切な値を設計すればよい。また、数値の場合は、クラス分類を行わず、正規化して連続値として扱ってもよい。

違法確度推定モデル記憶部２１は、違法確度推定モデル生成部２０が生成した違法確度推定モデルを記憶する。

照合優先度計算部２２は、検知済み違法コンテンツ除去部１９から出力された複数の候補コンテンツ（候補コンテンツ１〜候補コンテンツＰ）のプロフィールに基づき、複数の候補コンテンツが違法コンテンツであるか否かを判定するにあたっての、複数の候補コンテンツの優先度を計算する。すなわち、照合優先度計算部２２は、複数の候補コンテンツそれぞれについて、後述する正規コンテンツとの照合処理を行う順番となる優先度を決定する。より具体的には、照合優先度計算部２２は、検知済み違法コンテンツ除去部１９から出力された複数の候補コンテンツのプロフィールに基づき、各候補コンテンツの違法確度を計算し、違法確度が高いコンテンツほど優先度を高くする。候補コンテンツと正規コンテンツとの照合処理には時間がかかり、全ての候補コンテンツに対して照合を行うのは困難なことが多い。そこで、違法確度が高い順に照合を行い、効率的な違法コンテンツの探索を行うために、優先度が決定される。

優先度は、統計学習もしくはルールの設計により決定することができる。単独で違法確度に大きく影響するプロフィールについては、個別にルールを設計し、そのルールに適合した候補コンテンツの優先度を高くすることが有効である。一方、複数のプロフィールが複合的に機能して違法確度を判定することができる場合は、複数のプロフィールと違法確度との関係を学習する統計学習による手法を用いることが有効である。統計学習を用いる場合は、多くの学習データが必要となるため、用意することができる学習データの量および取得することができるプロフィールの種類に応じて、有効な手法を選択または組み合わせて優先度を決定すればよい。

以下では、ルールの設計により有効に機能するプロフィールおよびルールの設計例について説明する。

ルールの設計により有効に機能するプロフィールとしては、コンテンツのタイトルがある。正規タイトルに近い語句をタイトルに含むコンテンツが、探索したい違法コンテンツである可能性が高い。そのため、コンテンツのタイトルを用いたルールを設定することが有効である。例えば、候補コンテンツのタイトルと、正規タイトルとの編集距離が小さい順に、すなわち、正規タイトルとの文字列の差分が少ない順に、候補コンテンツの優先度を決定するというルールを設計する方法が考えられる。また、正規タイトルだけでなく、クエリ生成用辞書に登録されている関連語句（表記揺れ語句、外国語表記）との編集距離を計算するというルールを設計する方法も考えられる。この場合、関連語句と対応付けて登録されている違法コンテンツ数および違法コンテンツ率を、優先度の決定に利用してもよい。例えば、クエリ生成用辞書に登録されている関連語句のうち、違法コンテンツ率が高い複数の関連語句に対して編集距離を計算し、これらを重み付きで足し合わせたスコアを基準として、優先度を決定してもよい。

また、ルールの設計により有効に機能するプロフィールとしては、コンテンツ取得元がある。例えば、人手を介して違法コンテンツのＵＲＬを纏めている違法コンテンツのまとめサイトを由来とする候補コンテンツは、違法コンテンツである可能性が高いと考えられる。そこで、違法コンテンツのまとめサイトをコンテンツ取得元とする候補コンテンツの優先度を高くするというルールを設計する方法も考えられる。このルールによれば、照合優先度計算部２２は、所定のコンテンツ取得元（例えば、違法コンテンツのまとめサイト）を由来とする候補コンテンツの優先度を、他のコンテンツ取得元を由来とする候補コンテンツの優先度よりも高くする。

また、照合優先度計算部２２は、候補コンテンツのプロフィールに含まれるコンテンツ長を用いて優先度を計算してもよい。一般に、正規コンテンツのコンテンツ長に対して、候補コンテンツのコンテンツ長が極端に短い場合、その候補コンテンツは、違法コンテンツではない可能性が高い。そこで、照合優先度計算部２２は、候補コンテンツのコンテンツ長が、正規コンテンツのコンテンツ長に応じた所定値（例えば、正規コンテンツのコンテンツ長の数％程度）より短いほど、候補コンテンツの優先度を低くしてもよい。

また、照合優先度計算部２２は、候補コンテンツのプロフィールに含まれる投稿時間を用いて優先度を計算してもよい。一般に、正規コンテンツが公開された直後に、その正規コンテンツに関連する違法コンテンツの需要が増大し、時間が経過するにつれて、需要が減少するという傾向がある。そのため、正規コンテンツが公開されてから、所定期間内は違法コンテンツの投稿数が多く、その期間を過ぎると、違法コンテンツの投稿数は減少する。そこで、照合優先度計算部２２は、候補コンテンツの投稿時間（正規コンテンツが公開されてから、候補コンテンツが投稿されるまでの期間）が短いほど、候補コンテンツの優先度を高くしてもよい。

また、照合優先度計算部２２は、候補コンテンツのプロフィールに含まれる、候補コンテンツが違法コンテンツに関連付けられた数を用いてもよい。一般に、候補コンテンツの関連コンテンツが違法コンテンツである場合、その候補コンテンツも違法コンテンツである可能性が高い。そこで、照合優先度計算部２２は、候補コンテンツが違法コンテンツに関連付けられた数が多いほど、候補コンテンツの優先度を高くしてもよい。

また、照合優先度計算部２２は、候補コンテンツのプロフィールに含まれる違法コンテンツの投稿履歴を用いて優先度を計算してもよい。一般に、過去に違法コンテンツを投稿したことがあるユーザによって投稿された候補コンテンツは違法コンテンツである可能性が高い。そこで、照合優先度計算部２２は、投稿履歴に違法コンテンツを投稿した履歴が含まれる場合、違法コンテンツを投稿した履歴が含まれない場合に比べて、違法コンテンツの優先度を高くしてもよい。

なお、上述した照合優先度計算部２２が優先度の計算に用いるプロフィールはあくまでも一例であり、候補コンテンツのプロフィールに含まれる種々の項目を用いて、優先度を計算することができる。

照合優先度計算部２２は、違法確度推定モデルを用いて優先度を決定する場合、検知済み違法コンテンツ除去部１９から出力された候補コンテンツのプロフィールに基づき、違法確度推定モデルを用いて違法確度を算出し、算出した違法確度が高いコンテンツほど優先度を高くする。具体的には、照合優先度計算部２２は、候補コンテンツのプロフィールを違法確度推定モデルに入力し、候補コンテンツの違法・非違法の分類および違法確度の算出を行う。そして、照合優先度計算部２２は、算出した違法確度が高いコンテンツほど優先度を高くする。

照合優先度計算部２２は、コンテンツの違法確度に関するプロフィールだけでなく、世間での話題度に関するプロフィールを併用して、優先度を決定してもよい。上述したように、世間での話題度に関するプロフィールは、ＳＮＳ、ニュースなどの検索サービスから取得することができる検索数の急上昇語句、および、番組視聴率などが該当する。一般に、世間での話題度が高いコンテンツは違法コンテンツの需要が高いと考えられる。そのため、世間での話題度が高い候補コンテンツについては、世間での話題度が低いコンテンツと比べて違法確度が低くても、優先的に処理する方がよい場合がある。具体的には、照合優先度計算部２２は、世間での話題度が高いほど、候補コンテンツの優先度を高くする。世間での話題度に関するプロフィールを用いることで、このような場合にも、適切な優先度を決定することができる。

統計学習により世間での話題度に関するプロフィールを用いる場合、コンテンツおよび投稿ユーザの特徴に関するプロフィールと違法確度との関係を学習した統計モデルと、世間での話題度に関するプロフィールと違法確度との関係を学習した統計モデルとが用意される。そして、照合優先度計算部２２は、例えば、それぞれの統計モデルから算出されるスコアを重み付けして足し合わせたスコアを用いて、優先度を決定する。

照合優先度計算部２２は、例外コンテンツ、フィッシングコンテンツおよび検知済み違法コンテンツ除去部１９により検知された推定違法コンテンツを除く候補コンテンツ（候補コンテンツ１〜候補コンテンツＰ）の識別情報、プロフィールおよび決定した優先度を、照合用パラメータ設定部２３およびコンテンツＤＬ・照合部２４に出力する。

照合用パラメータ設定部２３は、予め記憶された設定パラメータリストを用いて、候補コンテンツの特徴に基づいて、照合処理で用いられる照合用パラメータを設定する。照合処理とは、候補コンテンツと正規コンテンツとが合致するか否かを判定する処理である。設定パラメータは、例えば、フレーム長、照合手法である。フレーム長は、照合処理における照合の基本単位となるフレームの長さである。照合手法には、音声によって照合を行う方法、画像によって照合を行う方法などが含まれる。

照合手法としては、既知の任意の手法を用いることができる。例えば、「音楽や映像を特定するメディア指紋技術とその応用（川西隆仁、他、The Japan Society for Industrial and Applied Mathematics、応用数理２１（４）、Ｐ．２８９−２９２、２０１１年１２月２２日」にその手法の一例が記載されている。

設定パラメータリストは、候補コンテンツのプロフィールまたはプロフィールの組み合わせに対応して、適切な設定が記載されているリストである。設定パラメータリストで用いられる候補コンテンツのプロフィールは、照合の精度が確保される程度に必要とされるフレーム長を推定するためのものであって、例えば、ジャンルである。候補コンテンツのジャンルがスポーツのマッシュアップコンテンツである場合、その候補コンテンツは、数秒程度の短い動画を編集して構成される。そのため、設定パラメータリストにおいて、例えば、スポーツのマッシュアップコンテンツというジャンルに対応して、短いフレーム長（例えば、２秒から３秒程度）という設定が記載される。これにより、コンテンツＤＬ・照合部２４は、設定された短いフレーム長で照合処理を行い、正規コンテンツに合致する候補コンテンツを正確に検出することができる。

一方、候補コンテンツがドラマまたは映画である場合、コンテンツ長は数十分から数時間程度の長さである。そのため、設定パラメータリストにおいて、例えば、ドラマまたは映画というジャンルに対応して、長いフレーム長（例えば、５分程度）という設定が記載される。これにより、コンテンツＤＬ・照合部２４は、設定された長いフレーム長で照合処理を行い、正規コンテンツに合致する候補コンテンツを正確に検出することができる。

また、設定パラメータリストで用いられる候補コンテンツのプロフィールは、例えば、編集手法であってもよい。編集手法は、コンテンツに対して行われた編集の手法であり、例えば、画像（親フレーム）に別の画像（子フレーム）を埋め込むＰｉｎＰ、時間伸縮などが含まれる。照合用パラメータ設定部２３は、候補コンテンツの編集手法を、コンテンツプロフィール取得部１６が取得したユーザの編集傾向種別により決定してもよい。

例えば、候補コンテンツの編集手法がＰｉｎＰであり、正規コンテンツの画像と同様の画像が別の画像に埋め込まれている場合、候補コンテンツは画像全体として正規コンテンツとは異なると認識される。そのため、画像による照合処理では、候補コンテンツと正規コンテンツとの一致度が高いとは判定されにくい。そこで、設定パラメータリストにおいて、例えば、ＰｉｎＰという編集手法に対して、音声による照合を行うという設定が記載される。これにより、コンテンツＤＬ・照合部２４は、音声による照合を行い、正規コンテンツに合致する候補コンテンツを正確に検出することができる。

また、例えば、候補コンテンツの編集手法が時間伸縮である場合、候補コンテンツの音声は、正規コンテンツの音声とは特徴量が大きく異なる。そのため、候補コンテンツが正規コンテンツを時間伸縮したものである場合、音声による照合処理では、候補コンテンツと正規コンテンツとの一致度が高いとは判定されにくい。そこで、設定パラメータリストにおいて、例えば、時間伸縮という編集手法に対して、画像による照合を行うという設定が記載される。これにより、コンテンツＤＬ・照合部２４は、画像による照合を行い、正規コンテンツに合致する候補コンテンツを正確に検出することができる。

コンテンツＤＬ・照合部２４は、照合優先度計算部２２により計算された優先度が高い順に、候補コンテンツをコンテンツ取得元からダウンロード（取得）する。そして、コンテンツＤＬ・照合部２４は、ダウンロードした候補コンテンツを、照合用パラメータ設定部２３による設定に従い、正規コンテンツと照合することにより、候補コンテンツが正規コンテンツに合致するか否かを判定する。コンテンツＤＬ・照合部２４は、正規コンテンツに合致した候補コンテンツを違法コンテンツであると判定する。

また、コンテンツＤＬ・照合部２４は、コンテンツ長が長い候補コンテンツ（例えば、数十分〜数時間の動画コンテンツなど）をダウンロードするとともに、並行してダウンロードした部分から照合を開始してもよい。この場合、コンテンツＤＬ・照合部２４は、候補コンテンツと正規コンテンツとが合致すると判定すると、以降の候補コンテンツのダウンロードを中止する。そして、コンテンツＤＬ・照合部２４は、次に優先度の高い候補コンテンツのダウンロードおよび照合を行う。これにより、コンテンツＤＬ・照合部２４によって、１つの候補コンテンツの照合に要する時間を短縮させる、すなわち、単位時間あたりに照合される候補コンテンツの数を増加させることができる。

コンテンツＤＬ・照合部２４は、探索結果として、照合済みコンテンツのリストをクエリ生成用辞書更新部２５、フィッシングコンテンツ更新部２６、違法コンテンツプロフィール更新部２７および違法確度推定モデル更新部２８に出力する。具体的には、コンテンツＤＬ・照合部２４は、照合済みコンテンツの識別情報およびプロフィールを探索結果として出力する。ここで、コンテンツＤＬ・照合部２４は、違法コンテンツであると判定した候補コンテンツについては、その候補コンテンツの識別情報およびプロフィールを、その候補コンテンツが違法コンテンツであることを示すラベルとともに出力する。また、コンテンツＤＬ・照合部２４は、フィッシングコンテンツであると判定した候補コンテンツについては、その候補コンテンツの識別情報およびプロフィールを、その候補コンテンツがフィッシングコンテンツであることを示すラベルとともに出力する。なお、コンテンツＤＬ・照合部２４は、例えば、タイトルに正規タイトルを完全一致で含んでおり、正規コンテンツとの照合度合いが所定値以下の候補コンテンツを、フィッシングコンテンツであると判定する。

クエリ生成用辞書更新部２５は、コンテンツＤＬ・照合部２４の探索結果に基づき、クエリ生成用辞書作成部１１に入力するための違法コンテンツタイトル一覧を更新する。具体的には、クエリ生成用辞書更新部２５は、コンテンツＤＬ・照合部２４の探索結果から、正規コンテンツとの合致度が高いコンテンツ、すなわち、違法コンテンツであることを示すラベルを付されたコンテンツのプロフィール（タイトルおよび取得元）を抽出し、違法コンテンツのタイトル一覧を更新して、クエリ生成用辞書作成部１１に出力する。

フィッシングコンテンツ更新部２６は、コンテンツＤＬ・照合部２４の探索結果に基づき、フィッシングコンテンツＤＢ１８ａを更新する。具体的には、フィッシングコンテンツ更新部２６は、コンテンツＤＬ・照合部２４の探索結果から、新たなフィッシングコンテンツのプロフィール（タイトル、投稿ユーザのユーザアカウント名）を抽出し、フィッシングコンテンツＤＢ１８ａに登録する。こうすることで、フィッシングコンテンツの新たな特徴が表れても対応が可能となり、フィッシングコンテンツの検知精度を高めることができる。

違法コンテンツプロフィール更新部２７は、コンテンツＤＬ・照合部２４の探索結果に基づき、違法コンテンツプロフィールＤＢ１９ａを更新する。具体的には、違法コンテンツプロフィール更新部２７は、コンテンツＤＬ・照合部２４の探索結果から、違法コンテンツであることを示すラベルを付されたコンテンツのプロフィールを抽出し、違法コンテンツプロフィールＤＢ１９ａに登録する。こうすることで、検知済み違法コンテンツ除去部１９による違法コンテンツの除去に用いるデータ量を増やすことができ、違法コンテンツの探索の効率化を図ることができる。

違法確度推定モデル更新部２８は、コンテンツＤＬ・照合部２４の探索結果に基づき、違法確度推定モデルの生成に用いる学習データを更新する。具体的には、違法確度推定モデル更新部２８は、コンテンツＤＬ・照合部２４の探索結果から、各コンテンツの違法・非違法の判定結果と、各コンテンツのプロフィールとを、違法確度推定モデル生成部２０が違法確度推定モデルを生成するための学習データとして抽出し、違法確度推定モデル生成部２０に出力する。こうすることで、違法確度推定モデル生成部２０により生成される違法確度推定モデルの精度を高め、違法コンテンツの探索の効率化を図ることができる。

次に、本実施形態に係る違法コンテンツ探索装置１が実行する違法コンテンツ探索方法について、図３に示すフローチャートを参照して説明する。図３は、違法コンテンツ探索方法の一例を示すフローチャートである。

まず、クエリ生成用辞書作成部１１は、違法コンテンツのタイトル一覧から、正規タイトルに含まれる語句に関連する関連語句を抽出し、抽出した関連語句を登録したクエリ生成用辞書を作成する（ステップＳ１１）。

検索クエリ生成部１４は、正規タイトルに基づき、クエリ生成用辞書に登録されている関連語句を用いて、検索クエリを生成する（ステップＳ１２）。

検索クエリ生成部１４により検索クエリが生成されると、照合候補取得部１５は、生成された検索クエリに基づき、コンテンツ取得元を検索し、検索により得られた、違法コンテンツの候補である候補コンテンツを識別する識別情報を取得する（ステップＳ１３）。

照合候補取得部１５により候補コンテンツの識別情報が取得されると、コンテンツプロフィール取得部１６は、候補コンテンツのプロフィールを取得する（ステップＳ１４）。

コンテンツプロフィール取得部１６により候補コンテンツのプロフィールが取得されると、例外コンテンツ除去部１７は、取得されたプロフィールに基づき、プロフィールが所定の条件を満たす例外コンテンツを候補コンテンツから除去する（ステップＳ１５）。

例外コンテンツ除去部１７により例外コンテンツが除去されると、フィッシングコンテンツ検知部１８は、候補コンテンツのプロフィールに基づき、候補コンテンツの中から、ユーザの閲覧を誘導する非違法なコンテンツであるフィッシングコンテンツを検知する（ステップＳ１６）。

また、例外コンテンツ除去部１７により例外コンテンツが除去されると、検知済み違法コンテンツ除去部１９は、候補コンテンツのプロフィールに基づき、プロフィールが、検知済みの違法コンテンツのプロフィールと同一性を有するコンテンツ（推定違法コンテンツ）を検知する（ステップＳ１７）。なお、例外コンテンツ除去部１７、フィッシングコンテンツ検知部１８および検知済み違法コンテンツ除去部１９による処理は、違法コンテンツの探索の効率化を図るためのものであり、違法コンテンツの探索のために、必ずしも必須の処理ではない。したがって、例外コンテンツ除去部１７、フィッシングコンテンツ検知部１８および検知済み違法コンテンツ除去部１９による処理のうち、少なくとも１つの処理が省略されてもよい。

次に、照合優先度計算部２２は、照合候補取得部１５により識別情報が取得された候補コンテンツのうち、例外コンテンツ、フィッシングコンテンツおよび推定違法コンテンツを除く各候補コンテンツについて、各候補コンテンツのプロフィールに基づいて、各候補コンテンツが違法コンテンツであるか否かを判定するにあたっての優先度を計算する（ステップＳ１８）。

照合優先度計算部２２により各候補コンテンツの優先度が計算されると、コンテンツＤＬ・照合部２４は、優先度が高い順に候補コンテンツをコンテンツ取得元からダウンロードし、ダウンロードされた候補コンテンツを正規コンテンツと照合して、候補コンテンツが違法コンテンツであるか否かを判定する（ステップＳ１９）。

以上説明したように、本実施形態によれば、違法コンテンツ探索装置１は、違法コンテンツのタイトルから、正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録し、クエリ生成用辞書に登録された関連語句を用いた検索クエリを生成する。このため、非権利者が、正規のコンテンツのタイトルと直接的には関連性の低いようにみえるタイトルを違法コンテンツに付与しても、違法コンテンツを抽出するために用いられる検索クエリを適切に生成することができる。したがって、違法コンテンツの探索の適切化を図ることができる。

なお、本実施形態においては、コンテンツプロフィール取得部１６が取得した候補コンテンツのプロフィールを用いて、違法コンテンツを探索する例を用いて説明したが、これに限られるものではない。例えば、コンテンツプロフィール取得部１６が取得するプロフィールを、有害コンテンツの探索方法に適用することも可能である。例えば、有害コンテンツの候補コンテンツをダウンロードして、その候補コンテンツが有害コンテンツであるか否かを判定する際に、候補コンテンツのプロフィールに基づき、有害コンテンツである確度を計算し、計算した確度に基づき、判定の優先度付けを行ってもよい。こうすることで、有害コンテンツである可能性が高い候補コンテンツから順に、判定を行うことができ、有害コンテンツの探索の効率化を図ることができる。また、有害コンテンツに特徴的に出現するプロフィールなどが既知である場合には、候補コンテンツのプロフィールと、有害コンテンツに特徴的に出現するプロフィールとの比較により、候補コンテンツが有害コンテンツであるか否かを判定することができる。

実施形態では特に触れていないが、違法コンテンツ探索装置１として機能するコンピュータが行う各処理を実行するためのプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ−ＲＯＭあるいはＤＶＤ−ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１違法コンテンツ探索装置
１１クエリ生成用辞書作成部
１２クエリ生成用辞書記憶部
１３検索クエリ生成規則記憶部
１４検索クエリ生成部
１５照合候補取得部
１６コンテンツプロフィール取得部
１７例外コンテンツ除去部
１８フィッシングコンテンツ検知部
１９検知済み違法コンテンツ除去部
２０違法確度推定モデル生成部
２１違法確度推定モデル記憶部
２２照合優先度計算部
２３照合用パラメータ設定部
２４コンテンツＤＬ・照合部
２５クエリ生成用辞書更新部
２６フィッシングコンテンツ更新部
２７違法コンテンツプロフィール更新部
２８違法確度推定モデル更新部

Claims

正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、
前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するクエリ生成用辞書作成部と、
前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成する検索クエリ生成部と、
を備え、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記クエリ生成用辞書作成部は、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記検索クエリ生成部は、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成することを特徴とする違法コンテンツ探索装置。
請求項１に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記関連語句をタイトルに含むコンテンツの数に対する、前記関連語句をタイトルに含む前記違法コンテンツの数の比率である違法コンテンツ率を計算し、前記関連語句に対応付けて前記違法コンテンツ率を前記クエリ生成用辞書に登録し、
前記検索クエリ生成部は、前記違法コンテンツ率に基づいて、前記検索クエリの生成に用いる関連語句を選択することを特徴とする請求項１に記載の違法コンテンツ探索装置。
請求項１又は２に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルに含まれる語句の、前記クエリ生成用辞書に登録されている前記関連語句との編集距離を計算し、前記編集距離が所定値以下である語句を前記関連語句として前記クエリ生成用辞書に登録することを特徴とする違法コンテンツ探索装置。
請求項３に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルに含まれる語句のうち出現頻度が所定値より高い語句について、前記編集距離を計算することを特徴とする違法コンテンツ探索装置。
請求項１から４のいずれか一項に記載の違法コンテンツ探索装置において、
前記検索クエリ生成部により生成された検索クエリに基づき、コンテンツ取得元を検索し、前記検索により得られた、前記違法コンテンツの候補である候補コンテンツを識別する識別情報を取得する照合候補取得部と、
前記照合候補取得部により識別情報が取得された候補コンテンツのプロフィールを取得するコンテンツプロフィール取得部と、
前記コンテンツプロフィール取得部により取得されたプロフィールに基づき、前記候補コンテンツの中から、ユーザの閲覧を誘導する非違法なコンテンツであるフィッシングコンテンツを検知するフィッシングコンテンツ検知部と、
前記コンテンツプロフィール取得部により取得されたプロフィールに基づき、検知済みの違法コンテンツのプロフィールと同一性を有するプロフィールの候補コンテンツである推定違法コンテンツを検知する検知済み違法コンテンツ除去部と、
前記照合候補取得部により識別情報が取得された候補コンテンツのうち、前記フィッシングコンテンツおよび前記推定違法コンテンツを除く各候補コンテンツについて、前記各候補コンテンツのプロフィールに基づいて、前記各候補コンテンツが前記違法コンテンツであるか否かを判定するにあたっての優先度を計算する照合優先度計算部と、
前記照合優先度計算部により計算された優先度順に、コンテンツ取得元から候補コンテンツを取得し、該取得した候補コンテンツと前記正規コンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを判定するコンテンツＤＬ・照合部と、を備えることを特徴とする違法コンテンツ探索装置。
正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索方法において、
クエリ生成用辞書作成部が、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するステップと、
検索クエリ生成部が、前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成するステップと、
を含み、
前記クエリ生成用辞書に登録ステップでは、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記クエリ生成用辞書に登録するステップでは、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記検索クエリを生成するステップでは、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成することを特徴とする違法コンテンツ探索方法。
請求項１から５のいずれか一項に記載の違法コンテンツ探索装置としてコンピュータを機能させるためのプログラム。