JP6632564B2

JP6632564B2 - 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム

Info

Publication number: JP6632564B2
Application number: JP2017079221A
Authority: JP
Inventors: 博子武藤; 亮北原; 川西　隆仁; 隆仁川西; 吉岡　理; 理吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2020-01-22
Anticipated expiration: 2037-04-12
Also published as: JP2018180913A

Description

本発明は、違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラムに関する。

近年、通信ネットワーク技術の発展、及びスマートフォン、ＰＣ（Personal Computer）等に代表される通信端末装置の進歩に伴い、動画等のコンテンツをアップロード及びダウンロード可能なコンテンツ配信サイトが多数、開設されている。この種のコンテンツ配信サイトにおいては、ユーザはコンテンツを手軽にアップロードできるため、コンテンツ配信サイトにアップロードされるコンテンツ数が年々増加している。このようなコンテンツ配信サイトでは、コンテンツの権利を有さない非権利者によりコンテンツがアップロードされることが問題となっている。そのため、非権利者によりアップロードされた違法コンテンツを探索する手法が求められている。

多数のコンテンツがアップロードされているコンテンツ配信サイトからコンテンツを探索する手法としては種々の手法が知られている。例えば、非特許文献１には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザが入力したクエリと関連のある単語の集合を取得し、ユーザが入力したクエリだけでなく、ユーザが入力したクエリと関連があるとして取得した単語をクエリとして検索を実行する手法が記載されている。

また、非特許文献２には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザに選択されたコンテンツの概要文と、他のコンテンツの概要文との類似性を評価し、類似性の高いコンテンツを、ユーザによって選択されたコンテンツに関連するコンテンツとして提示する手法が記載されている。

また、非特許文献３には、コンテンツに対する意見を収集するために、Twitter（登録商標）に登録されているコンテンツ名を含むツイートが投稿されてから、所定時間内に投稿された同じコンテンツ名を含むツイート（隣接ツイート群）を収集し、隣接ツイート群内で共起頻度の高い単語を関連する単語として抽出し、該関連する単語をクエリとしてツイートを検索する手法が記載されている。

また、非特許文献４には、通信ネットワークを介してアクセスされ得る多数のサイトから有害サイトを探す手法が知られている。この手法では、有害サイトのＨＴＭＬ（Hyper Text Markup Language）に含まれる文字列をＳＶＭ（Support Vector Machine）により統計的に学習し、該学習に基づいて抽出された文字列をＨＴＭＬに含むサイトを有害サイトとして判定する。

宮崎太郎、外６名、「単語間関係辞書を用いたテレビ番組検索」、言語処理学会第２２年次大会発表論文集、平成２８年３月、ｐ.９１７−９２０山田一郎、外４名、「ランダムウォークを利用した番組類似性評価」、情報処理学会研究報告、Ｖｏｌ.２０１２−ＭＬ−２０７、Ｎｏ．１２，２０１２年７月２７日中澤昌美、外３名、「番組視聴者と番組中の話題変化を考慮した番組関連ツイート収集手法の提案」、情報・システム講演論文集１、２０１３年電子情報通信学会総合大会、２０１３年３月１９日池田和史、外５名、「ＨＴＭＬ要素に基づく有害サイト検出方法」、情報処理学会論文誌、Ｖｏｌ．５２、Ｎｏ．８、Ｐ．２４７４−２４８３

上述の従来技術にように関連のあるクエリを用いて検索することによって、多くのコンテンツが抽出され、それに伴いユーザに所望のコンテンツが抽出される可能性が高くなった。しかしながら、コンテンツ配信サイトからクエリによって抽出されたコンテンツが正規コンテンツに関する違法なコンテンツであるか否かを正確に判定するためには、コンテンツに対して照合処理を行うことが必要となる。膨大な数のコンテンツを有するコンテンツ配信サイトから抽出された多数のコンテンツをダウンロードするのに長い時間を要してしまい、効率的にコンテンツを探索することができないという場合がある。

したがって、かかる点に鑑みてなされた本発明の目的は、ユーザが効率的に違法コンテンツを探索することが可能となる違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラムを提供することにある。

上記の課題を解決するため、本発明に係る違法コンテンツ探索装置は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算する照合優先度計算部を備え、前記照合優先度計算部は、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出し、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去し、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出することを特徴とする。

また、本発明に係る違法コンテンツ探索方法は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算するステップと、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出するステップと、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去するステップと、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出するステップと、を含むことを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記違法コンテンツ探索装置として機能させることを特徴とする。

本発明によれば、コンテンツに対して照合処理を行うにあたって、膨大な数のコンテンツを有するコンテンツ配信サイトから抽出された、ユーザが探索することを所望する違法コンテンツである可能性が高い順にコンテンツをダウンロードすることができる。したがって、ユーザが短い時間内に違法コンテンツをみつけることができる可能性が高まる。すなわち、効率的に違法コンテンツを探索することが可能となる。

本実施形態に係る違法コンテンツ探索装置の構成例を示す機能ブロック図である。検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの例を示す図である。検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの他の例を示す図である。コンテンツのタイトル及びプロフィールの例を示す図である。本実施形態に係るコンテンツ探索方法の一例を示すフローチャートである。

まず、図１を参照して、本発明の本実施形態の機能構成について説明する。図１は、本実施形態に係る違法コンテンツ探索装置１の機能ブロック図である。

図１に示すように、違法コンテンツ探索装置１は、違法語句モデル生成部１１と、違法語句モデル記憶部１２と、検索クエリ生成規則記憶部１３と、検索クエリ生成部１４と、照合候補取得部１５と、プロフィール推定モデル生成部１６と、プロフィール推定モデル記憶部１７と、コンテンツプロフィール取得・推定部１８と、例外コンテンツ除去部１９と、照合優先度計算部２０と、照合パラメータ設定部２３と、コンテンツＤＬ（Download:ダウンロード）・照合部２４と、違法語句モデル更新部２５と、プロフィール推定モデル更新部２６とを備える。

違法コンテンツ探索装置１は、照合元のコンテンツの正規タイトル及びメタ情報に基づいて、インターネット上のコンテンツ取得元に記憶されている違法コンテンツを探索する。違法コンテンツは、非権利者によって投稿されたコンテンツである。メタ情報は、照合元の（正規）コンテンツに付随する属性情報であって、例えば、サブタイトル、コンテンツに登場する出演者、キャラクターの名称、放送回番号、放送日時、出演者、略称、コンテンツのジャンルを含む。

コンテンツ取得元は、インターネット上に存在する、コンテンツが投稿されているサイト（例えば、コンテンツ投稿サイト、違法コンテンツのＵＲＬ（Uniform Resource Locator）をまとめたサイト等）のことである。コンテンツ取得元は、投稿ユーザの要求に基づいて通信端末からのコンテンツの投稿を受け付け、投稿されたコンテンツを記憶する。また、コンテンツ取得元は、ユーザの要求に基づいて、記憶しているコンテンツを通信端末にダウンロードさせる。なお、コンテンツ取得元は、例えば、コンテンツ投稿サイトなどを管理するサーバ装置、複数台のサーバによって構成される分散システム、クラウドサービスなどである。また、「投稿する」とは、コンテンツをアップロードし、記憶させることである。また、「投稿ユーザ」とは、コンテンツ取得元を利用するユーザのうちコンテンツを投稿するユーザである。

違法語句モデル生成部１１は、違法又は非違法を示すラベルが付与されたコンテンツのタイトルを学習データとする機械学習によって違法語句モデルを生成する。違法語句モデルは、任意の語句に対して、違法コンテンツに用いられることが想定される違法語句を出力するモデルである。

違法語句モデル記憶部１２は、違法語句モデル生成部１１によって生成された違法語句モデルを記憶する。

検索クエリ生成規則記憶部１３は、違法コンテンツをコンテンツ取得元から探索するための検索クエリを、照合元のコンテンツ（正規コンテンツ）の正規タイトルから生成するための規則である検索クエリ生成規則を記憶する。上述したように、違法コンテンツが権利者から発見されるのを回避しつつも、正規コンテンツとの関連性をユーザに認識させるために、違法コンテンツのタイトルは、例えば、正規コンテンツの正規タイトルの全部あるいは一部が、仮名変換、漢字変換、ローマ字又は略称などの類似の語句に変換され（言い換えられ）たものであることがある。検索クエリ生成規則は、コンテンツのタイトルに含まれる語句から、上述したような言い換えに得られる語句を生成する規則である。なお、上述したような言い換えは、例えば、Ｗｏｒｄ２Ｖｅｃ等の言語処理手法を用いて出力することができる。また、検索クエリ生成規則は、コンテンツのタイトルに含まれる語句の表記揺れを含む語句を生成する規則である。検索クエリ生成規則記憶部１３は、コンテンツのジャンル（動画の場合、ドラマ、アニメ、映画等）ごとに異なる傾向をもつ検索クエリ生成規則に基づいて語句を生成してもよい。

検索クエリ生成規則は、任意の語句を、例えば、仮名変換、ローマ字変換、漢字変換することという規則である。また、検索クエリ生成規則は、任意の語句を外国語へ翻訳するという規則である。また、検索クエリ生成規則は、任意の語句が表記ゆれした語句に変換するという規則である。

検索クエリ生成部１４は、違法コンテンツ探索装置１のオペレータの操作に基づいて照合元のコンテンツ、並びに該コンテンツの正規タイトル及びメタ情報を入力する。

検索クエリ生成部１４は、違法語句モデル記憶部１２に記憶されている違法語句モデル、検索クエリ生成規則記憶部１３に記憶されている検索クエリ生成規則を用いて、正規タイトルに関連する違法語句を含む検索クエリを生成する。

具体的には、検索クエリ生成部１４は、正規タイトルに基づいて、上述の違法語句モデルから算出される確率値が閾値以上となる違法語句を含む検索クエリを生成する。また、検索クエリ生成部１４は、正規タイトルに含まれる語句と同一又は類似の意味内容を有する、異なる表記の語句を含む検索クエリを生成する。例えば、検索クエリ生成部１４は、上述の検索クエリ生成規則に従って正規タイトルに含まれる語句を仮名変換、漢字変換、又はローマ字変換することによって検索クエリを生成する。

また、検索クエリ生成部１４は、入力した正規タイトルを検索クエリとして生成してもよい。

また、検索クエリ生成部１４は、メタ情報を含む検索クエリを生成することができる。検索クエリ生成部１４は、検索クエリ生成規則を用いて、正規タイトル及びメタ情報の１つ以上を含む、例えば「タイトルサブタイトル」、「タイトル日付」、「タイトル放送回番号」、「出演者」、「略称日付」等を検索クエリとして生成する。図３に示す例では、検索クエリ生成部１４は、例えば、正規タイトルが「火曜ドラマ『トリオ』」であり、検索クエリ生成規則が、話数表記（１）である場合、「トリオ１話」という検索クエリを生成する。

また、検索クエリ生成部１４は、違法語句モデル又は検索クエリ生成規則を用いて、コンテンツのジャンル（動画の場合、ドラマ、アニメ、映画等）よる傾向に応じて正規タイトルを言い換えた語句を検索クエリとして生成することができる。

検索クエリ生成部１４は、上述のように生成した検索クエリを照合候補取得部１５に出力する。

照合候補取得部１５は、検索クエリ生成部１４によって出力された検索クエリに基づいて、通信ネットワーク上のコンテンツ取得元を検索して、検索クエリに合致するコンテンツを、違法コンテンツの可能性がある候補コンテンツとして、該候補コンテンツの識別情報をコンテンツ取得元から取得する。識別情報は、候補コンテンツを一意に識別するための情報であり、例えば、インターネット上でのコンテンツのアドレス、すなわちＵＲＬなどである。また、照合候補取得部１５は、検索クエリに合致するコンテンツのタイトル及びコンテンツに付随するプロフィール（付随プロフィール）をコンテンツ取得元から取得する。ここで、照合候補取得部１５が取得するプロフィールは、図４に示すコンテンツ長、投稿時刻、投稿ユーザ名等を含む。

具体的には、照合候補取得部１５は、検索クエリ生成部１４から出力された検索クエリにより、コンテンツ取得元にコンテンツ群の中から検索クエリを含むタイトルを有する１つ以上のコンテンツを抽出させる。そして、照合候補取得部１５は、コンテンツ取得元によって抽出されたコンテンツのうち、一定数のコンテンツを候補コンテンツとして、それぞれの識別情報、タイトル、及び付随プロフィールを取得する。例えば、照合候補取得部１５は、検索クエリとの合致度が高いとして抽出されたコンテンツのうち、上位一定数のコンテンツそれぞれの識別情報、タイトル、及び付随プロフィールを取得する。

また、コンテンツ取得元の中には、検索クエリを用いた検索により抽出されたコンテンツだけでなく、検索クエリを用いた検索により抽出されたコンテンツとの関連性が高い関連コンテンツ（例えば、視聴するユーザ層が同じコンテンツなど）を１つ以上、抽出し、抽出された関連コンテンツのタイトル、サムネイル、付随プロフィール等を提示する機能を有するものがある。このような場合、照合候補取得部１５は、コンテンツ取得元により抽出された関連コンテンツを候補コンテンツとし、該候補コンテンツの識別情報、タイトル及び付随プロフィールを取得してもよい。このとき、照合候補取得部１５は、関連コンテンツの、検索クエリによって抽出されたコンテンツとの関連度合いを示す関連度を取得してもよい。

また、照合候補取得部１５は、コンテンツ取得元に新たに記憶されたコンテンツ（新着コンテンツ）を上位一定数、抽出させてもよい。この場合、更に、照合候補取得部１５は、新着コンテンツを候補コンテンツとして、該候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する。新着コンテンツは、例えば、照合候補取得部１５がコンテンツを取得するタイミングを基準として、該基準の所定の時間前から該基準までの間に、コンテンツ取得元に投稿されたコンテンツである。これにより、照合候補取得部１５は、検索クエリに基づいて取得したコンテンツ、関連コンテンツだけでは取得しきれないコンテンツに違法コンテンツが含まれている場合に、違法コンテンツを漏れなく探索することができる。

照合候補取得部１５が取得する候補コンテンツの数は、コンテンツ取得元及びコンテンツに応じた設定パラメータとして、リスト形式等で予め設定された適切な数である。例えば、特定のジャンル（ドラマ、アニメ等）について違法コンテンツが多く投稿される傾向が強いコンテンツ取得元が存在する場合、照合候補取得部１５は、当該コンテンツ取得元からは、特定のジャンルの候補コンテンツを他のジャンルの候補コンテンツより多く取得する。また、照合候補取得部１５は、違法コンテンツの投稿率が高い投稿ユーザに係るコンテンツを、他の投稿ユーザに係るコンテンツより多く取得してもよい。これにより、候補コンテンツで識別されるコンテンツに違法コンテンツが含まれる可能性を高めることができる。

照合候補取得部１５は、コンテンツ取得元から取得した、候補コンテンツの識別情報、タイトル、及び付随プロフィールをコンテンツプロフィール取得・推定部１８に出力する。

プロフィール推定モデル生成部１６は、コンテンツのタイトル、及び該コンテンツに付随する付随プロフィールに基づき、該コンテンツに関する統計的な情報である統計プロフィールを出力するプロフィール推定モデルを生成する。プロフィール推定モデルは、タイトルと違法性との対応、付随プロフィールと違法性との対応をそれぞれ示すモデルである。

具体的には、プロフィール推定モデル生成部１６は、投稿されたコンテンツが違法コンテンツである確度をタイトルごとに示すタイトル違法確度を学習し、タイトルとタイトル違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。プロフィール推定モデル生成部１６は、各クラスに分類される確度を算出できる統計モデル（ＳＶＭ、ナイーブベイズ等）を用いた学習によってプロフィール推定モデルを生成することが望ましい。クラス分類は、違法／非違法の２値分類、コンテンツタイトル（複数）と非違法等との多値分類のどちらでもよい。なお、プロフィール推定モデルを生成する具体的な手法は、既知の任意の手法とすることができる。例えば、「言語処理のための機械学習入門（奥村学監修、高村大也著、コロナ社、p１０１−１１７）」にその手法の一例が記載されている。この方法では、学習データとなるテキストを形態素解析し、含有される単語を抽出して学習を行っているが、形態素解析を行わずにテキストを文字列として学習に用いることも可能である。

また、プロフィール推定モデル生成部１６は、投稿されたコンテンツが違法コンテンツである確度を投稿ユーザごとに示す投稿ユーザ違法確度を学習し、該投稿ユーザと投稿ユーザ違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。投稿ユーザ違法確度は、過去に各投稿ユーザによって投稿されたコンテンツの違法性に基づいて推定される。具体的には、プロフィール推定モデル生成部１６は、投稿ユーザが過去に投稿したコンテンツにおける違法確度の高いタイトルを有するコンテンツの含有率、コンテンツ自体の削除率等の特徴量と、投稿ユーザの違法確度との対応を示す違法確度学習データに基づいてプロフィール推定モデルを作成する。

プロフィール推定モデル記憶部１７は、プロフィール推定モデル生成部１６によって生成されたプロフィール推定モデルを記憶する。

コンテンツプロフィール取得・推定部１８は、照合候補取得部１５によって出力された付随プロフィールに基づいて、候補コンテンツの統計プロフィールを取得する。コンテンツプロフィール取得・推定部１８によって取得される候補コンテンツの統計プロフィールは、コンテンツの内容に関する情報及び投稿ユーザに関する情報である。コンテンツプロフィール取得・推定部１８によって取得される候補コンテンツのプロフィールは、図４に示すように、上述のコンテンツ長、投稿時刻、投稿ユーザ名、に加えてタイトルの違法確度、投稿ユーザの違法確度、投稿ユーザが投稿したコンテンツの削除率、ユーザ種別、投稿ユーザの編集傾向種別（画像編集あり）、投稿ユーザの編集傾向種別（音声編集あり）を含む。これらのプロフィールのうち、追って詳細に説明する、プロフィール推定モデルを用いて推定されるタイトルの違法確度、及び投稿ユーザの違法確度を統計プロフィールという。

ユーザ種別は、コンテンツの投稿ユーザが、上述した照合元のコンテンツを生成した（もしくは権利をもつ）正規ユーザであるか否かを示す種別である。ユーザ種別は、予め作成された正規ユーザリスト等に基づいて決定される。編集傾向種別は、コンテンツに対して施された編集、例えば、カットによる編集、時間伸縮、ＰｉｎＰ等の特殊処理の有無を示す種別である。編集傾向種別は、少なくとも一部の投稿ユーザについて予め作成された、該投稿ユーザの編集傾向種別のリストに基づいて決定される。

具体的には、コンテンツプロフィール取得・推定部１８は、照合候補取得部１５によって出力された付随プロフィールに含まれるコンテンツ長及び投稿時刻を候補コンテンツのコンテンツ長及び投稿時刻として取得する。

また、コンテンツプロフィール取得・推定部１８は、予めメモリに記憶された正規ユーザリストに基づいて、照合候補取得部１５から出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザのユーザ種別を推定する。具体的には、コンテンツプロフィール取得・推定部１８は、投稿ユーザが、正規ユーザリストに含まれている場合、該投稿ユーザのユーザ種別が正規であると推定する。また、コンテンツプロフィール取得・推定部１８は、投稿ユーザが、正規ユーザリストに含まれていない場合、該投稿ユーザのユーザ種別が非正規であると推定する。

また、コンテンツプロフィール取得・推定部１８は、編集傾向種別リストに基づいて、照合候補取得部１５によって出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザの編集傾向種別を推定する。編集傾向種別リストは、予めメモリに記憶されているリストであって、投稿ユーザと、編集傾向種別との対応を示すリストである。編集傾向種別は、該投稿ユーザに係るコンテンツについて多く行われた編集方式の種別である。種別には、例えば、カットによる編集、時間伸縮、ＰｉｎＰ等の特殊処理の有無等が含まれる。コンテンツプロフィール取得・推定部１８は、推定した編集方式を編集傾向種別として取得する。

また、コンテンツプロフィール取得・推定部１８は、照合候補取得部１５によって出力された候補コンテンツのタイトル及び投稿ユーザ名に基づいてそれぞれタイトル違法確度又は投稿ユーザ違法確度をプロフィール推定モデル記憶部１７に記憶されているプロフィール推定モデルに基づいて推定する。なお、以降の説明では、コンテンツプロフィール推定部１８によって取得又は推定された付随プロフィール及び統計プロフィール、並びにコンテンツプロフィール推定部１８によって各種リストを用いて推定されたプロフィールを単に「プロフィール」ということがある。

さらに、コンテンツプロフィール取得・推定部１８は、上述のように取得又は推定したプロフィールを識別情報及びタイトルとともに例外コンテンツ除去部１９に出力する。

例外コンテンツ除去部１９は、コンテンツプロフィール取得・推定部１８から出力されたプロフィールに基づいて、違法コンテンツの候補から除去する例外コンテンツを決定する。具体的には、例外コンテンツ除去部１９は、コンテンツプロフィール取得・推定部１８によって取得されたプロフィールが所定の条件を満たす場合、該プロフィールに対応する候補コンテンツを例外コンテンツとして除去する。所定の条件は、例えば、プロフィールに含まれるユーザ種別が正規であることとしてもよい。また、所定の条件は、例えば、付随プロフィールに含まれる投稿時刻が照合元のコンテンツの公開時刻より前であることとしてもよいし、付随プロフィールに含まれるコンテンツ長が所定の長さ（例えば、数秒程度）より短いこととしてもよい。所定の条件はこれらに限られず、候補コンテンツが違法コンテンツでない可能性が高いことを示す任意の条件とすることができる。

例外コンテンツ除去部１９は、除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールを照合優先度計算部２０に出力する。

照合優先度計算部２０は、例外コンテンツ除去部１９によって除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールに基づいて、後述する照合処理における優先度を計算する。

具体的には、照合優先度計算部２０は、候補コンテンツの違法確度に基づいて、優先度計算モデルを用いて優先度を計算する。

まず、照合優先度計算部２０は、候補コンテンツのタイトルを示す文字列と、照合元のコンテンツのタイトルを示す文字列との編集距離を計算する。編集距離は、２つの文字列がどの程度異なっているかを示す距離の一種であり、１文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。すなわち、編集距離が小さいほど、候補コンテンツのタイトルを示す文字列と照合元のコンテンツのタイトルを示す文字列とは関連性が高いことを示している。また、照合優先度計算部２０は、照合元のコンテンツのタイトルを示す文字列の代わりに、例えば、照合元のコンテンツのメタ情報に含まれる、該照合元のコンテンツに登場するキャラクターの名称、出演者名、サブタイトル等の文字列と、候補コンテンツのタイトルを示す文字列との編集距離を計算してもよい。

また、照合優先度計算部２０は、編集距離が所定の値より小さいタイトルに係る候補コンテンツの識別情報、タイトル、及びプロフィールを抽出する。

また、照合優先度計算部２０は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離との両方に基づいて関連性を判定してもよい。例えば、照合優先度計算部２０は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離とにそれぞれ重み付けしたうえで足し合わせたスコアを計算してもよい。この場合、照合優先度計算部２０は、所定の値より小さいスコアに係る候補コンテンツを抽出する。

上述のように、照合候補取得部１５は、検索クエリに基づいて抽出されたコンテンツ、該コンテンツの関連コンテンツの他に、新着コンテンツを含めた幅広い範囲の候補コンテンツの識別情報を取得する。これにより、識別情報で識別される候補コンテンツには、照合元のコンテンツと関連性の低いコンテンツが多く含有されている可能性がある。そこで、照合優先度計算部２０が、編集距離の小さい、すなわち関連性の高いと見込まれる候補コンテンツのみを照合の対象として抽出することにより、後述する照合に係る処理負荷を軽減することが可能となる。

照合優先度計算部２０は、編集距離に基づいて候補コンテンツを抽出すると、抽出された候補コンテンツのタイトル違法確度に基づいて優先度を決定する。このとき、候補コンテンツのタイトル違法確度として、コンテンツプロフィール取得・推定部１８によって推定されたプロフィールに含まれるタイトル違法確度が用いられる。また、照合優先度計算部２０は、抽出された候補コンテンツのタイトル違法確度に代えて、投稿ユーザ違法確度を用いて優先度を決定してもよい。候補コンテンツの投稿ユーザ違法確度として、コンテンツプロフィール取得・推定部１８によって推定されたプロフィールに含まれる投稿ユーザ違法確度が用いられる。また、照合優先度計算部２０は、タイトル違法確度及び投稿ユーザ違法確度の両方に基づいて優先度を決定してもよい。例えば、照合優先度計算部２０は、タイトル違法確度と投稿ユーザ違法確度とのそれぞれに重み付けをした値の和を優先度とすることができる。また、照合優先度計算部２０は、先に計算された編集距離と、各違法確度との組合せにより優先度を決定してもよい。

さらに、照合優先度計算部２０は、照合優先度計算部２０が計算した優先度を、該優先度に係る候補コンテンツの識別情報、タイトル、及びプロフィールとともにコンテンツＤＬ・照合部２４に出力する。

照合パラメータ設定部２３は、予め記憶された設定パラメータのリストを用いて、候補コンテンツの特徴に基づいて、照合の処理で用いられる照合用パラメータを設定する。照合とは、候補コンテンツと照合元のコンテンツとが合致するか否かを判定することである。設定パラメータは、例えば、フレーム長、照合手法である。フレーム長は、照合処理における照合の基本単位となるフレームの長さである。照合手法には、音声によって照合を行う手法、画像によって照合を行う手法等が含まれる。

照合手法として、既知の任意の手法を用いることができる。例えば、「音楽や映像を特定するメディア指紋技術とその応用（川西隆仁、他、The Japan Society for Industrial and Applied Mathematics、応用数理２１（４）、Ｐ．２８９−２９２、２０１１年１２月２２日」にその手法の一例が記載されている。

設定パラメータリストは、候補コンテンツのプロフィール又はプロフィールの組合せに対応して、適切な設定が記載されているリストである。設定パラメータリストで用いられる候補コンテンツのプロフィールは、照合の精度が確保される程度に必要とされるフレーム長を推定するためのものであって、例えば、ジャンルである。候補コンテンツのジャンルがスポーツのマッシュアップコンテンツである場合、該候補コンテンツは、数秒程度の短い動画を編集して構成される。このため、設定パラメータリストにおいて、例えば、スポーツのマッシュアップコンテンツというジャンルに対応して、短いフレーム長（例えば２秒から３秒程度）という設定が記載されている。これにより、コンテンツＤＬ・照合部２４が、設定された短いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを検出することができる。

一方、候補コンテンツのジャンルがドラマや映画である場合、コンテンツ長は数十分から数時間程度の長さである。このため、設定パラメータリストにおいて、例えば、ドラマ又は映画というジャンルに対応して、長いフレーム長（例えば５分程度）という設定が記載されている。これにより、コンテンツＤＬ・照合部２４は、設定された長いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。

また、設定パラメータリストで用いられる候補コンテンツのプロフィールは、例えば、編集手法であってもよい。編集手法は、コンテンツに対して行われた編集の手法であり、例えば、画像のなかに画像を埋め込むＰｉｎＰ、時間伸縮等が含まれる。照合パラメータ設定部２３は、候補コンテンツの編集手法を、コンテンツプロフィール取得・推定部１８が取得した投稿ユーザの編集傾向種別としてもよい。

例えば、候補コンテンツの編集手法がＰｉｎＰであり、異なる画像の中に照合元のコンテンツの画像と同様の画像が埋め込まれている場合、候補コンテンツは画像全体として照合元のコンテンツと異なると認識される。そのため、画像による照合によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、ＰｉｎＰという編集手法に対応して、音声による照合という設定が記載されている。これにより、コンテンツＤＬ・照合部２４は、音声による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。

また、例えば、候補コンテンツの編集手法が時間伸縮である場合、候補コンテンツの音声は、編集前の音声とは抽出される特徴量が大きく異なる。そのため、候補コンテンツが正規コンテンツを時間伸縮したものである場合、音声による照合処理によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、時間伸縮という編集手法に対応して、画像による照合という設定が記載されている。これにより、コンテンツＤＬ・照合部２４は、画像による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。

コンテンツＤＬ・照合部２４は、照合優先度計算部２０によって計算された優先度が高い順に、候補コンテンツをコンテンツ取得元からダウンロードする。そして、コンテンツＤＬ・照合部２４は、ダウンロードした候補コンテンツを、照合パラメータ設定部２３による設定に従い、照合元のコンテンツと照合することによって、候補コンテンツが照合元のコンテンツに合致するか否かを判定する。コンテンツＤＬ・照合部２４は、照合元のコンテンツに合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。

また、コンテンツＤＬ・照合部２４は、コンテンツのコンテンツ長が長い場合、優先度が高い候補コンテンツから順にダウンロードし、ダウンロードしたコンテンツから順に照合することによって、効率的に違法コンテンツを探索することが可能である。

また、コンテンツＤＬ・照合部２４は、コンテンツ長が長い候補コンテンツ（例えば数十分〜数時間の動画コンテンツ等）をダウンロードするとともに、並行してダウンロードされた部分から照合を開始してもよい。この場合、コンテンツＤＬ・照合部２４は、候補コンテンツと照合元のコンテンツとが合致したとき、候補コンテンツの残り時間のダウンロードを中止する。コンテンツＤＬ・照合部２４は、合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。そして、コンテンツＤＬ・照合部２４は、次に優先度の高い候補コンテンツのダウンロードおよび照合を行う。これにより、コンテンツＤＬ・照合部２４によって、１つの候補コンテンツの照合に要する時間を短縮させる、すなわち、単位時間あたりに照合される候補コンテンツの数を増加させることができる。

また、コンテンツＤＬ・照合部２４は、違法コンテンツのタイトルを、違法を示すラベルとともに違法語句モデル更新部２５に出力する。また、コンテンツＤＬ・照合部２４は、違法コンテンツのプロフィールを、違法を示すラベルとともにプロフィール推定モデル更新部２６に出力する。

違法語句モデル更新部２５は、コンテンツＤＬ・照合部２４から出力された違法コンテンツのタイトルに基づいて違法語句モデルを更新する。具体的には、違法語句モデル更新部２５は、違法コンテンツのタイトルを新たな学習データとした機械学習により、違法語句モデル生成部１１に違法語句モデルを更新させる。これにより、違法語句モデルの精度が高まることが期待される。

プロフィール推定モデル更新部２６は、コンテンツＤＬ・照合部２４から出力された違法コンテンツのプロフィールに基づいてプロフィール推定モデルを更新する。具体的には、プロフィール推定モデル更新部２６は、違法コンテンツのプロフィールを新たな学習データとした機械学習により、プロフィール推定モデル生成部１６にプロフィール推定モデルを更新させる。これにより、プロフィール推定モデルの精度が高まることが期待される。

続いて、本実施形態における違法コンテンツ探索装置１が実行するコンテンツ探索方法について図５に示すフローチャートを参照して説明する。図５は、コンテンツ探索方法の一例を示すフローチャートである。

まず、検索クエリ生成部１４は、違法コンテンツ探索装置１のオペレータの操作に基づいて照合元のコンテンツ、タイトル、及びメタ情報を入力する（ステップＳ１）。

ステップＳ１で照合元のコンテンツ、タイトル及びメタ情報が入力されると、検索クエリ生成部１４は、違法語句モデル、検索クエリ生成規則を用いて検索クエリを生成する（ステップＳ２）。

ステップＳ２で検索クエリが生成されると、照合候補取得部１５は、検索クエリに基づいて、コンテンツ取得元に該検索クエリに対応する候補コンテンツを抽出させ、抽出された候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する（ステップＳ３）。

ステップＳ３で識別情報、タイトル、及び付随プロフィールが取得されると、コンテンツプロフィール取得・推定部１８は、取得された付随プロフィールに基づいて、候補コンテンツのプロフィールをさらに取得又は推定する（ステップＳ４）。

ステップＳ４でプロフィールが取得又は推定されると、例外コンテンツ除去部１９は、取得されたプロフィールに基づいて、該プロフィールが所定の条件を満たす候補コンテンツを違法コンテンツの候補から除去する（ステップＳ５）。

ステップＳ５で例外コンテンツの識別情報が除去されると、照合優先度計算部２０は、例外コンテンツ除去部１９によって除去されなかった各識別情報で識別される候補コンテンツのタイトル及びプロフィールに基づいて、各候補コンテンツの優先度を計算する（ステップＳ６）。

ステップＳ６で各候補コンテンツの優先度が計算されると、コンテンツＤＬ・照合部２４は、優先度が高い順に候補コンテンツをコンテンツ取得元からダウンロードし、ダウンロードされた候補コンテンツを、ステップＳ１で入力された照合元のコンテンツと照合する（ステップＳ７）。

なお、上述した違法コンテンツ探索装置１として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、違法コンテンツ探索装置１の各機能を実現する処理内容を記述したプログラムを該コンピュータのデータベースに格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの記録媒体であってもよい。

以上説明したように、本実施形態によれば、違法コンテンツ探索装置１は、候補コンテンツのタイトル、または候補コンテンツのプロフィールを用いて、コンテンツが照合元のコンテンツと合致する可能性の高さを示す優先度を計算する。このため、違法コンテンツ探索装置１は、通信ネットワーク上の膨大なコンテンツの中から、優先度の高い順に候補コンテンツをダウンロードし、ダウンロードした候補コンテンツについて照合処理を行うことができる。この場合、優先度に関係のない順番でダウンロード及び照合処理を行う場合に比べて、照合元のコンテンツと合致する候補コンテンツ、すなわち違法コンテンツを早期にみつけることができる可能性が高い。したがって、利用者は効率的に違法コンテンツを探索することが可能となる。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１違法コンテンツ探索装置
１１違法語句モデル生成部
１２違法語句モデル記憶部
１３検索クエリ生成規則記憶部
１４検索クエリ生成部
１５照合候補取得部
１６プロフィール推定モデル生成部
１７プロフィール推定モデル記憶部
１８コンテンツプロフィール取得・推定部
１９例外コンテンツ除去部
２０照合優先度計算部
２３照合パラメータ設定部
２４コンテンツＤＬ・照合部
２５違法語句モデル更新部
２６プロフィール推定モデル更新部

Claims

非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、
照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算する照合優先度計算部を備え、
前記照合優先度計算部は、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出し、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去し、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出することを特徴とする違法コンテンツ探索装置。
非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、
照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算するステップと、
前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出するステップと、
前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去するステップと、
前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出するステップと、
を含むことを特徴とする違法コンテンツ探索方法。
コンピュータを、請求項１に記載の違法コンテンツ探索装置として機能させるためのプログラム。