JP6632564B2 - 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム - Google Patents

違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム Download PDF

Info

Publication number
JP6632564B2
JP6632564B2 JP2017079221A JP2017079221A JP6632564B2 JP 6632564 B2 JP6632564 B2 JP 6632564B2 JP 2017079221 A JP2017079221 A JP 2017079221A JP 2017079221 A JP2017079221 A JP 2017079221A JP 6632564 B2 JP6632564 B2 JP 6632564B2
Authority
JP
Japan
Prior art keywords
content
illegal
candidate
title
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017079221A
Other languages
English (en)
Other versions
JP2018180913A (ja
Inventor
博子 武藤
博子 武藤
亮 北原
亮 北原
川西 隆仁
隆仁 川西
吉岡 理
理 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017079221A priority Critical patent/JP6632564B2/ja
Publication of JP2018180913A publication Critical patent/JP2018180913A/ja
Application granted granted Critical
Publication of JP6632564B2 publication Critical patent/JP6632564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラムに関する。
近年、通信ネットワーク技術の発展、及びスマートフォン、PC(Personal Computer)等に代表される通信端末装置の進歩に伴い、動画等のコンテンツをアップロード及びダウンロード可能なコンテンツ配信サイトが多数、開設されている。この種のコンテンツ配信サイトにおいては、ユーザはコンテンツを手軽にアップロードできるため、コンテンツ配信サイトにアップロードされるコンテンツ数が年々増加している。このようなコンテンツ配信サイトでは、コンテンツの権利を有さない非権利者によりコンテンツがアップロードされることが問題となっている。そのため、非権利者によりアップロードされた違法コンテンツを探索する手法が求められている。
多数のコンテンツがアップロードされているコンテンツ配信サイトからコンテンツを探索する手法としては種々の手法が知られている。例えば、非特許文献1には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザが入力したクエリと関連のある単語の集合を取得し、ユーザが入力したクエリだけでなく、ユーザが入力したクエリと関連があるとして取得した単語をクエリとして検索を実行する手法が記載されている。
また、非特許文献2には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザに選択されたコンテンツの概要文と、他のコンテンツの概要文との類似性を評価し、類似性の高いコンテンツを、ユーザによって選択されたコンテンツに関連するコンテンツとして提示する手法が記載されている。
また、非特許文献3には、コンテンツに対する意見を収集するために、Twitter(登録商標)に登録されているコンテンツ名を含むツイートが投稿されてから、所定時間内に投稿された同じコンテンツ名を含むツイート(隣接ツイート群)を収集し、隣接ツイート群内で共起頻度の高い単語を関連する単語として抽出し、該関連する単語をクエリとしてツイートを検索する手法が記載されている。
また、非特許文献4には、通信ネットワークを介してアクセスされ得る多数のサイトから有害サイトを探す手法が知られている。この手法では、有害サイトのHTML(Hyper Text Markup Language)に含まれる文字列をSVM(Support Vector Machine)により統計的に学習し、該学習に基づいて抽出された文字列をHTMLに含むサイトを有害サイトとして判定する。
宮崎太郎、外6名、「単語間関係辞書を用いたテレビ番組検索」、言語処理学会 第22年次大会 発表論文集、平成28年3月、p.917−920 山田一郎、外4名、「ランダムウォークを利用した番組類似性評価」、情報処理学会研究報告、Vol.2012−ML−207、No.12,2012年7月27日 中澤昌美、外3名、「番組視聴者と番組中の話題変化を考慮した番組関連ツイート収集手法の提案」、情報・システム講演論文集1、2013年電子情報通信学会総合大会、2013年3月19日 池田和史、外5名、「HTML要素に基づく有害サイト検出方法」、情報処理学会論文誌、Vol.52、No.8、P.2474−2483
上述の従来技術にように関連のあるクエリを用いて検索することによって、多くのコンテンツが抽出され、それに伴いユーザに所望のコンテンツが抽出される可能性が高くなった。しかしながら、コンテンツ配信サイトからクエリによって抽出されたコンテンツが正規コンテンツに関する違法なコンテンツであるか否かを正確に判定するためには、コンテンツに対して照合処理を行うことが必要となる。膨大な数のコンテンツを有するコンテンツ配信サイトから抽出された多数のコンテンツをダウンロードするのに長い時間を要してしまい、効率的にコンテンツを探索することができないという場合がある。
したがって、かかる点に鑑みてなされた本発明の目的は、ユーザが効率的に違法コンテンツを探索することが可能となる違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラムを提供することにある。
上記の課題を解決するため、本発明に係る違法コンテンツ探索装置は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算する照合優先度計算部を備え、前記照合優先度計算部は、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出し、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去し、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出することを特徴とする。
また、本発明に係る違法コンテンツ探索方法は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算するステップと、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出するステップと、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去するステップと、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出するステップと、を含むことを特徴とする。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記違法コンテンツ探索装置として機能させることを特徴とする。
本発明によれば、コンテンツに対して照合処理を行うにあたって、膨大な数のコンテンツを有するコンテンツ配信サイトから抽出された、ユーザが探索することを所望する違法コンテンツである可能性が高い順にコンテンツをダウンロードすることができる。したがって、ユーザが短い時間内に違法コンテンツをみつけることができる可能性が高まる。すなわち、効率的に違法コンテンツを探索することが可能となる。
本実施形態に係る違法コンテンツ探索装置の構成例を示す機能ブロック図である。 検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの例を示す図である。 検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの他の例を示す図である。 コンテンツのタイトル及びプロフィールの例を示す図である。 本実施形態に係るコンテンツ探索方法の一例を示すフローチャートである。
まず、図1を参照して、本発明の本実施形態の機能構成について説明する。図1は、本実施形態に係る違法コンテンツ探索装置1の機能ブロック図である。
図1に示すように、違法コンテンツ探索装置1は、違法語句モデル生成部11と、違法語句モデル記憶部12と、検索クエリ生成規則記憶部13と、検索クエリ生成部14と、照合候補取得部15と、プロフィール推定モデル生成部16と、プロフィール推定モデル記憶部17と、コンテンツプロフィール取得・推定部18と、例外コンテンツ除去部19と、照合優先度計算部20と、照合パラメータ設定部23と、コンテンツDL(Download:ダウンロード)・照合部24と、違法語句モデル更新部25と、プロフィール推定モデル更新部26とを備える。
違法コンテンツ探索装置1は、照合元のコンテンツの正規タイトル及びメタ情報に基づいて、インターネット上のコンテンツ取得元に記憶されている違法コンテンツを探索する。違法コンテンツは、非権利者によって投稿されたコンテンツである。メタ情報は、照合元の(正規)コンテンツに付随する属性情報であって、例えば、サブタイトル、コンテンツに登場する出演者、キャラクターの名称、放送回番号、放送日時、出演者、略称、コンテンツのジャンルを含む。
コンテンツ取得元は、インターネット上に存在する、コンテンツが投稿されているサイト(例えば、コンテンツ投稿サイト、違法コンテンツのURL(Uniform Resource Locator)をまとめたサイト等)のことである。コンテンツ取得元は、投稿ユーザの要求に基づいて通信端末からのコンテンツの投稿を受け付け、投稿されたコンテンツを記憶する。また、コンテンツ取得元は、ユーザの要求に基づいて、記憶しているコンテンツを通信端末にダウンロードさせる。なお、コンテンツ取得元は、例えば、コンテンツ投稿サイトなどを管理するサーバ装置、複数台のサーバによって構成される分散システム、クラウドサービスなどである。また、「投稿する」とは、コンテンツをアップロードし、記憶させることである。また、「投稿ユーザ」とは、コンテンツ取得元を利用するユーザのうちコンテンツを投稿するユーザである。
違法語句モデル生成部11は、違法又は非違法を示すラベルが付与されたコンテンツのタイトルを学習データとする機械学習によって違法語句モデルを生成する。違法語句モデルは、任意の語句に対して、違法コンテンツに用いられることが想定される違法語句を出力するモデルである。
違法語句モデル記憶部12は、違法語句モデル生成部11によって生成された違法語句モデルを記憶する。
検索クエリ生成規則記憶部13は、違法コンテンツをコンテンツ取得元から探索するための検索クエリを、照合元のコンテンツ(正規コンテンツ)の正規タイトルから生成するための規則である検索クエリ生成規則を記憶する。上述したように、違法コンテンツが権利者から発見されるのを回避しつつも、正規コンテンツとの関連性をユーザに認識させるために、違法コンテンツのタイトルは、例えば、正規コンテンツの正規タイトルの全部あるいは一部が、仮名変換、漢字変換、ローマ字又は略称などの類似の語句に変換され(言い換えられ)たものであることがある。検索クエリ生成規則は、コンテンツのタイトルに含まれる語句から、上述したような言い換えに得られる語句を生成する規則である。なお、上述したような言い換えは、例えば、Word2Vec等の言語処理手法を用いて出力することができる。また、検索クエリ生成規則は、コンテンツのタイトルに含まれる語句の表記揺れを含む語句を生成する規則である。検索クエリ生成規則記憶部13は、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)ごとに異なる傾向をもつ検索クエリ生成規則に基づいて語句を生成してもよい。
検索クエリ生成規則は、任意の語句を、例えば、仮名変換、ローマ字変換、漢字変換することという規則である。また、検索クエリ生成規則は、任意の語句を外国語へ翻訳するという規則である。また、検索クエリ生成規則は、任意の語句が表記ゆれした語句に変換するという規則である。
検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、並びに該コンテンツの正規タイトル及びメタ情報を入力する。
検索クエリ生成部14は、違法語句モデル記憶部12に記憶されている違法語句モデル、検索クエリ生成規則記憶部13に記憶されている検索クエリ生成規則を用いて、正規タイトルに関連する違法語句を含む検索クエリを生成する。
具体的には、検索クエリ生成部14は、正規タイトルに基づいて、上述の違法語句モデルから算出される確率値が閾値以上となる違法語句を含む検索クエリを生成する。また、検索クエリ生成部14は、正規タイトルに含まれる語句と同一又は類似の意味内容を有する、異なる表記の語句を含む検索クエリを生成する。例えば、検索クエリ生成部14は、上述の検索クエリ生成規則に従って正規タイトルに含まれる語句を仮名変換、漢字変換、又はローマ字変換することによって検索クエリを生成する。
Figure 0006632564
また、検索クエリ生成部14は、入力した正規タイトルを検索クエリとして生成してもよい。
また、検索クエリ生成部14は、メタ情報を含む検索クエリを生成することができる。検索クエリ生成部14は、検索クエリ生成規則を用いて、正規タイトル及びメタ情報の1つ以上を含む、例えば「タイトル サブタイトル」、「タイトル 日付」、「タイトル 放送回番号」、「出演者」、「略称 日付」等を検索クエリとして生成する。図3に示す例では、検索クエリ生成部14は、例えば、正規タイトルが「火曜ドラマ『トリオ』」であり、検索クエリ生成規則が、話数表記(1)である場合、「トリオ 1話」という検索クエリを生成する。
また、検索クエリ生成部14は、違法語句モデル又は検索クエリ生成規則を用いて、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)よる傾向に応じて正規タイトルを言い換えた語句を検索クエリとして生成することができる。
検索クエリ生成部14は、上述のように生成した検索クエリを照合候補取得部15に出力する。
照合候補取得部15は、検索クエリ生成部14によって出力された検索クエリに基づいて、通信ネットワーク上のコンテンツ取得元を検索して、検索クエリに合致するコンテンツを、違法コンテンツの可能性がある候補コンテンツとして、該候補コンテンツの識別情報をコンテンツ取得元から取得する。識別情報は、候補コンテンツを一意に識別するための情報であり、例えば、インターネット上でのコンテンツのアドレス、すなわちURLなどである。また、照合候補取得部15は、検索クエリに合致するコンテンツのタイトル及びコンテンツに付随するプロフィール(付随プロフィール)をコンテンツ取得元から取得する。ここで、照合候補取得部15が取得するプロフィールは、図4に示すコンテンツ長、投稿時刻、投稿ユーザ名等を含む。
具体的には、照合候補取得部15は、検索クエリ生成部14から出力された検索クエリにより、コンテンツ取得元にコンテンツ群の中から検索クエリを含むタイトルを有する1つ以上のコンテンツを抽出させる。そして、照合候補取得部15は、コンテンツ取得元によって抽出されたコンテンツのうち、一定数のコンテンツを候補コンテンツとして、それぞれの識別情報、タイトル、及び付随プロフィールを取得する。例えば、照合候補取得部15は、検索クエリとの合致度が高いとして抽出されたコンテンツのうち、上位一定数のコンテンツそれぞれの識別情報、タイトル、及び付随プロフィールを取得する。
また、コンテンツ取得元の中には、検索クエリを用いた検索により抽出されたコンテンツだけでなく、検索クエリを用いた検索により抽出されたコンテンツとの関連性が高い関連コンテンツ(例えば、視聴するユーザ層が同じコンテンツなど)を1つ以上、抽出し、抽出された関連コンテンツのタイトル、サムネイル、付随プロフィール等を提示する機能を有するものがある。このような場合、照合候補取得部15は、コンテンツ取得元により抽出された関連コンテンツを候補コンテンツとし、該候補コンテンツの識別情報、タイトル及び付随プロフィールを取得してもよい。このとき、照合候補取得部15は、関連コンテンツの、検索クエリによって抽出されたコンテンツとの関連度合いを示す関連度を取得してもよい。
また、照合候補取得部15は、コンテンツ取得元に新たに記憶されたコンテンツ(新着コンテンツ)を上位一定数、抽出させてもよい。この場合、更に、照合候補取得部15は、新着コンテンツを候補コンテンツとして、該候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する。新着コンテンツは、例えば、照合候補取得部15がコンテンツを取得するタイミングを基準として、該基準の所定の時間前から該基準までの間に、コンテンツ取得元に投稿されたコンテンツである。これにより、照合候補取得部15は、検索クエリに基づいて取得したコンテンツ、関連コンテンツだけでは取得しきれないコンテンツに違法コンテンツが含まれている場合に、違法コンテンツを漏れなく探索することができる。
照合候補取得部15が取得する候補コンテンツの数は、コンテンツ取得元及びコンテンツに応じた設定パラメータとして、リスト形式等で予め設定された適切な数である。例えば、特定のジャンル(ドラマ、アニメ等)について違法コンテンツが多く投稿される傾向が強いコンテンツ取得元が存在する場合、照合候補取得部15は、当該コンテンツ取得元からは、特定のジャンルの候補コンテンツを他のジャンルの候補コンテンツより多く取得する。また、照合候補取得部15は、違法コンテンツの投稿率が高い投稿ユーザに係るコンテンツを、他の投稿ユーザに係るコンテンツより多く取得してもよい。これにより、候補コンテンツで識別されるコンテンツに違法コンテンツが含まれる可能性を高めることができる。
照合候補取得部15は、コンテンツ取得元から取得した、候補コンテンツの識別情報、タイトル、及び付随プロフィールをコンテンツプロフィール取得・推定部18に出力する。
プロフィール推定モデル生成部16は、コンテンツのタイトル、及び該コンテンツに付随する付随プロフィールに基づき、該コンテンツに関する統計的な情報である統計プロフィールを出力するプロフィール推定モデルを生成する。プロフィール推定モデルは、タイトルと違法性との対応、付随プロフィールと違法性との対応をそれぞれ示すモデルである。
具体的には、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度をタイトルごとに示すタイトル違法確度を学習し、タイトルとタイトル違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。プロフィール推定モデル生成部16は、各クラスに分類される確度を算出できる統計モデル(SVM、ナイーブベイズ等)を用いた学習によってプロフィール推定モデルを生成することが望ましい。クラス分類は、違法/非違法の2値分類、コンテンツタイトル(複数)と非違法等との多値分類のどちらでもよい。なお、プロフィール推定モデルを生成する具体的な手法は、既知の任意の手法とすることができる。例えば、「言語処理のための機械学習入門(奥村学監修、高村大也著、コロナ社、p101−117)」にその手法の一例が記載されている。この方法では、学習データとなるテキストを形態素解析し、含有される単語を抽出して学習を行っているが、形態素解析を行わずにテキストを文字列として学習に用いることも可能である。
また、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度を投稿ユーザごとに示す投稿ユーザ違法確度を学習し、該投稿ユーザと投稿ユーザ違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。投稿ユーザ違法確度は、過去に各投稿ユーザによって投稿されたコンテンツの違法性に基づいて推定される。具体的には、プロフィール推定モデル生成部16は、投稿ユーザが過去に投稿したコンテンツにおける違法確度の高いタイトルを有するコンテンツの含有率、コンテンツ自体の削除率等の特徴量と、投稿ユーザの違法確度との対応を示す違法確度学習データに基づいてプロフィール推定モデルを作成する。
プロフィール推定モデル記憶部17は、プロフィール推定モデル生成部16によって生成されたプロフィール推定モデルを記憶する。
コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに基づいて、候補コンテンツの統計プロフィールを取得する。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツの統計プロフィールは、コンテンツの内容に関する情報及び投稿ユーザに関する情報である。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツのプロフィールは、図4に示すように、上述のコンテンツ長、投稿時刻、投稿ユーザ名、に加えてタイトルの違法確度、投稿ユーザの違法確度、投稿ユーザが投稿したコンテンツの削除率、ユーザ種別、投稿ユーザの編集傾向種別(画像編集あり)、投稿ユーザの編集傾向種別(音声編集あり)を含む。これらのプロフィールのうち、追って詳細に説明する、プロフィール推定モデルを用いて推定されるタイトルの違法確度、及び投稿ユーザの違法確度を統計プロフィールという。
ユーザ種別は、コンテンツの投稿ユーザが、上述した照合元のコンテンツを生成した(もしくは権利をもつ)正規ユーザであるか否かを示す種別である。ユーザ種別は、予め作成された正規ユーザリスト等に基づいて決定される。編集傾向種別は、コンテンツに対して施された編集、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無を示す種別である。編集傾向種別は、少なくとも一部の投稿ユーザについて予め作成された、該投稿ユーザの編集傾向種別のリストに基づいて決定される。
具体的には、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに含まれるコンテンツ長及び投稿時刻を候補コンテンツのコンテンツ長及び投稿時刻として取得する。
また、コンテンツプロフィール取得・推定部18は、予めメモリに記憶された正規ユーザリストに基づいて、照合候補取得部15から出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザのユーザ種別を推定する。具体的には、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれている場合、該投稿ユーザのユーザ種別が正規であると推定する。また、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれていない場合、該投稿ユーザのユーザ種別が非正規であると推定する。
また、コンテンツプロフィール取得・推定部18は、編集傾向種別リストに基づいて、照合候補取得部15によって出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザの編集傾向種別を推定する。編集傾向種別リストは、予めメモリに記憶されているリストであって、投稿ユーザと、編集傾向種別との対応を示すリストである。編集傾向種別は、該投稿ユーザに係るコンテンツについて多く行われた編集方式の種別である。種別には、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無等が含まれる。コンテンツプロフィール取得・推定部18は、推定した編集方式を編集傾向種別として取得する。
また、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された候補コンテンツのタイトル及び投稿ユーザ名に基づいてそれぞれタイトル違法確度又は投稿ユーザ違法確度をプロフィール推定モデル記憶部17に記憶されているプロフィール推定モデルに基づいて推定する。なお、以降の説明では、コンテンツプロフィール推定部18によって取得又は推定された付随プロフィール及び統計プロフィール、並びにコンテンツプロフィール推定部18によって各種リストを用いて推定されたプロフィールを単に「プロフィール」ということがある。
さらに、コンテンツプロフィール取得・推定部18は、上述のように取得又は推定したプロフィールを識別情報及びタイトルとともに例外コンテンツ除去部19に出力する。
例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18から出力されたプロフィールに基づいて、違法コンテンツの候補から除去する例外コンテンツを決定する。具体的には、例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18によって取得されたプロフィールが所定の条件を満たす場合、該プロフィールに対応する候補コンテンツを例外コンテンツとして除去する。所定の条件は、例えば、プロフィールに含まれるユーザ種別が正規であることとしてもよい。また、所定の条件は、例えば、付随プロフィールに含まれる投稿時刻が照合元のコンテンツの公開時刻より前であることとしてもよいし、付随プロフィールに含まれるコンテンツ長が所定の長さ(例えば、数秒程度)より短いこととしてもよい。所定の条件はこれらに限られず、候補コンテンツが違法コンテンツでない可能性が高いことを示す任意の条件とすることができる。
例外コンテンツ除去部19は、除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールを照合優先度計算部20に出力する。
照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールに基づいて、後述する照合処理における優先度を計算する。
具体的には、照合優先度計算部20は、候補コンテンツの違法確度に基づいて、優先度計算モデルを用いて優先度を計算する。
まず、照合優先度計算部20は、候補コンテンツのタイトルを示す文字列と、照合元のコンテンツのタイトルを示す文字列との編集距離を計算する。編集距離は、2つの文字列がどの程度異なっているかを示す距離の一種であり、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。すなわち、編集距離が小さいほど、候補コンテンツのタイトルを示す文字列と照合元のコンテンツのタイトルを示す文字列とは関連性が高いことを示している。また、照合優先度計算部20は、照合元のコンテンツのタイトルを示す文字列の代わりに、例えば、照合元のコンテンツのメタ情報に含まれる、該照合元のコンテンツに登場するキャラクターの名称、出演者名、サブタイトル等の文字列と、候補コンテンツのタイトルを示す文字列との編集距離を計算してもよい。
また、照合優先度計算部20は、編集距離が所定の値より小さいタイトルに係る候補コンテンツの識別情報、タイトル、及びプロフィールを抽出する。
また、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離との両方に基づいて関連性を判定してもよい。例えば、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離とにそれぞれ重み付けしたうえで足し合わせたスコアを計算してもよい。この場合、照合優先度計算部20は、所定の値より小さいスコアに係る候補コンテンツを抽出する。
上述のように、照合候補取得部15は、検索クエリに基づいて抽出されたコンテンツ、該コンテンツの関連コンテンツの他に、新着コンテンツを含めた幅広い範囲の候補コンテンツの識別情報を取得する。これにより、識別情報で識別される候補コンテンツには、照合元のコンテンツと関連性の低いコンテンツが多く含有されている可能性がある。そこで、照合優先度計算部20が、編集距離の小さい、すなわち関連性の高いと見込まれる候補コンテンツのみを照合の対象として抽出することにより、後述する照合に係る処理負荷を軽減することが可能となる。
照合優先度計算部20は、編集距離に基づいて候補コンテンツを抽出すると、抽出された候補コンテンツのタイトル違法確度に基づいて優先度を決定する。このとき、候補コンテンツのタイトル違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれるタイトル違法確度が用いられる。また、照合優先度計算部20は、抽出された候補コンテンツのタイトル違法確度に代えて、投稿ユーザ違法確度を用いて優先度を決定してもよい。候補コンテンツの投稿ユーザ違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれる投稿ユーザ違法確度が用いられる。また、照合優先度計算部20は、タイトル違法確度及び投稿ユーザ違法確度の両方に基づいて優先度を決定してもよい。例えば、照合優先度計算部20は、タイトル違法確度と投稿ユーザ違法確度とのそれぞれに重み付けをした値の和を優先度とすることができる。また、照合優先度計算部20は、先に計算された編集距離と、各違法確度との組合せにより優先度を決定してもよい。
さらに、照合優先度計算部20は、照合優先度計算部20が計算した優先度を、該優先度に係る候補コンテンツの識別情報、タイトル、及びプロフィールとともにコンテンツDL・照合部24に出力する。
照合パラメータ設定部23は、予め記憶された設定パラメータのリストを用いて、候補コンテンツの特徴に基づいて、照合の処理で用いられる照合用パラメータを設定する。照合とは、候補コンテンツと照合元のコンテンツとが合致するか否かを判定することである。設定パラメータは、例えば、フレーム長、照合手法である。フレーム長は、照合処理における照合の基本単位となるフレームの長さである。照合手法には、音声によって照合を行う手法、画像によって照合を行う手法等が含まれる。
照合手法として、既知の任意の手法を用いることができる。例えば、「音楽や映像を特定するメディア指紋技術とその応用(川西隆仁、他、The Japan Society for Industrial and Applied Mathematics、応用数理 21(4)、P.289−292、2011年12月22日」にその手法の一例が記載されている。
設定パラメータリストは、候補コンテンツのプロフィール又はプロフィールの組合せに対応して、適切な設定が記載されているリストである。設定パラメータリストで用いられる候補コンテンツのプロフィールは、照合の精度が確保される程度に必要とされるフレーム長を推定するためのものであって、例えば、ジャンルである。候補コンテンツのジャンルがスポーツのマッシュアップコンテンツである場合、該候補コンテンツは、数秒程度の短い動画を編集して構成される。このため、設定パラメータリストにおいて、例えば、スポーツのマッシュアップコンテンツというジャンルに対応して、短いフレーム長(例えば2秒から3秒程度)という設定が記載されている。これにより、コンテンツDL・照合部24が、設定された短いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを検出することができる。
一方、候補コンテンツのジャンルがドラマや映画である場合、コンテンツ長は数十分から数時間程度の長さである。このため、設定パラメータリストにおいて、例えば、ドラマ又は映画というジャンルに対応して、長いフレーム長(例えば5分程度)という設定が記載されている。これにより、コンテンツDL・照合部24は、設定された長いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
また、設定パラメータリストで用いられる候補コンテンツのプロフィールは、例えば、編集手法であってもよい。編集手法は、コンテンツに対して行われた編集の手法であり、例えば、画像のなかに画像を埋め込むPinP、時間伸縮等が含まれる。照合パラメータ設定部23は、候補コンテンツの編集手法を、コンテンツプロフィール取得・推定部18が取得した投稿ユーザの編集傾向種別としてもよい。
例えば、候補コンテンツの編集手法がPinPであり、異なる画像の中に照合元のコンテンツの画像と同様の画像が埋め込まれている場合、候補コンテンツは画像全体として照合元のコンテンツと異なると認識される。そのため、画像による照合によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、PinPという編集手法に対応して、音声による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、音声による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
また、例えば、候補コンテンツの編集手法が時間伸縮である場合、候補コンテンツの音声は、編集前の音声とは抽出される特徴量が大きく異なる。そのため、候補コンテンツが正規コンテンツを時間伸縮したものである場合、音声による照合処理によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、時間伸縮という編集手法に対応して、画像による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、画像による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
コンテンツDL・照合部24は、照合優先度計算部20によって計算された優先度が高い順に、候補コンテンツをコンテンツ取得元からダウンロードする。そして、コンテンツDL・照合部24は、ダウンロードした候補コンテンツを、照合パラメータ設定部23による設定に従い、照合元のコンテンツと照合することによって、候補コンテンツが照合元のコンテンツに合致するか否かを判定する。コンテンツDL・照合部24は、照合元のコンテンツに合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。
また、コンテンツDL・照合部24は、コンテンツのコンテンツ長が長い場合、優先度が高い候補コンテンツから順にダウンロードし、ダウンロードしたコンテンツから順に照合することによって、効率的に違法コンテンツを探索することが可能である。
また、コンテンツDL・照合部24は、コンテンツ長が長い候補コンテンツ(例えば数十分〜数時間の動画コンテンツ等)をダウンロードするとともに、並行してダウンロードされた部分から照合を開始してもよい。この場合、コンテンツDL・照合部24は、候補コンテンツと照合元のコンテンツとが合致したとき、候補コンテンツの残り時間のダウンロードを中止する。コンテンツDL・照合部24は、合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。そして、コンテンツDL・照合部24は、次に優先度の高い候補コンテンツのダウンロードおよび照合を行う。これにより、コンテンツDL・照合部24によって、1つの候補コンテンツの照合に要する時間を短縮させる、すなわち、単位時間あたりに照合される候補コンテンツの数を増加させることができる。
また、コンテンツDL・照合部24は、違法コンテンツのタイトルを、違法を示すラベルとともに違法語句モデル更新部25に出力する。また、コンテンツDL・照合部24は、違法コンテンツのプロフィールを、違法を示すラベルとともにプロフィール推定モデル更新部26に出力する。
違法語句モデル更新部25は、コンテンツDL・照合部24から出力された違法コンテンツのタイトルに基づいて違法語句モデルを更新する。具体的には、違法語句モデル更新部25は、違法コンテンツのタイトルを新たな学習データとした機械学習により、違法語句モデル生成部11に違法語句モデルを更新させる。これにより、違法語句モデルの精度が高まることが期待される。
プロフィール推定モデル更新部26は、コンテンツDL・照合部24から出力された違法コンテンツのプロフィールに基づいてプロフィール推定モデルを更新する。具体的には、プロフィール推定モデル更新部26は、違法コンテンツのプロフィールを新たな学習データとした機械学習により、プロフィール推定モデル生成部16にプロフィール推定モデルを更新させる。これにより、プロフィール推定モデルの精度が高まることが期待される。
続いて、本実施形態における違法コンテンツ探索装置1が実行するコンテンツ探索方法について図5に示すフローチャートを参照して説明する。図5は、コンテンツ探索方法の一例を示すフローチャートである。
まず、検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、タイトル、及びメタ情報を入力する(ステップS1)。
ステップS1で照合元のコンテンツ、タイトル及びメタ情報が入力されると、検索クエリ生成部14は、違法語句モデル、検索クエリ生成規則を用いて検索クエリを生成する(ステップS2)。
ステップS2で検索クエリが生成されると、照合候補取得部15は、検索クエリに基づいて、コンテンツ取得元に該検索クエリに対応する候補コンテンツを抽出させ、抽出された候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する(ステップS3)。
ステップS3で識別情報、タイトル、及び付随プロフィールが取得されると、コンテンツプロフィール取得・推定部18は、取得された付随プロフィールに基づいて、候補コンテンツのプロフィールをさらに取得又は推定する(ステップS4)。
ステップS4でプロフィールが取得又は推定されると、例外コンテンツ除去部19は、取得されたプロフィールに基づいて、該プロフィールが所定の条件を満たす候補コンテンツを違法コンテンツの候補から除去する(ステップS5)。
ステップS5で例外コンテンツの識別情報が除去されると、照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった各識別情報で識別される候補コンテンツのタイトル及びプロフィールに基づいて、各候補コンテンツの優先度を計算する(ステップS6)。
ステップS6で各候補コンテンツの優先度が計算されると、コンテンツDL・照合部24は、優先度が高い順に候補コンテンツをコンテンツ取得元からダウンロードし、ダウンロードされた候補コンテンツを、ステップS1で入力された照合元のコンテンツと照合する(ステップS7)。
なお、上述した違法コンテンツ探索装置1として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、違法コンテンツ探索装置1の各機能を実現する処理内容を記述したプログラムを該コンピュータのデータベースに格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMやDVD−ROMなどの記録媒体であってもよい。
以上説明したように、本実施形態によれば、違法コンテンツ探索装置1は、候補コンテンツのタイトル、または候補コンテンツのプロフィールを用いて、コンテンツが照合元のコンテンツと合致する可能性の高さを示す優先度を計算する。このため、違法コンテンツ探索装置1は、通信ネットワーク上の膨大なコンテンツの中から、優先度の高い順に候補コンテンツをダウンロードし、ダウンロードした候補コンテンツについて照合処理を行うことができる。この場合、優先度に関係のない順番でダウンロード及び照合処理を行う場合に比べて、照合元のコンテンツと合致する候補コンテンツ、すなわち違法コンテンツを早期にみつけることができる可能性が高い。したがって、利用者は効率的に違法コンテンツを探索することが可能となる。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
1 違法コンテンツ探索装置
11 違法語句モデル生成部
12 違法語句モデル記憶部
13 検索クエリ生成規則記憶部
14 検索クエリ生成部
15 照合候補取得部
16 プロフィール推定モデル生成部
17 プロフィール推定モデル記憶部
18 コンテンツプロフィール取得・推定部
19 例外コンテンツ除去部
20 照合優先度計算部
23 照合パラメータ設定部
24 コンテンツDL・照合部
25 違法語句モデル更新部
26 プロフィール推定モデル更新部

Claims (3)

  1. 非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、
    照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算する照合優先度計算部を備え
    前記照合優先度計算部は、前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出し、前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去し、前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出することを特徴とする違法コンテンツ探索装置。
  2. 非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、
    照合元のコンテンツのタイトルに基づき、違法コンテンツの候補として探索された候補コンテンツのタイトル、又は前記候補コンテンツのプロフィールを用いて、前記候補コンテンツが前記照合元のコンテンツと合致する可能性の高さを示す優先度を計算するステップと、
    前記候補コンテンツのタイトルと、前記照合元のコンテンツのタイトルとの編集距離を算出するステップと、
    前記候補コンテンツから、前記算出した編集距離が所定値より大きい候補コンテンツを違法コンテンツの候補から除去するステップと、
    前記照合元のコンテンツのタイトルとの編集距離が前記所定値以下の候補コンテンツについて、該候補コンテンツが前記違法コンテンツである確度である違法確度に基づいて前記優先度を算出するステップと、
    を含むことを特徴とする違法コンテンツ探索方法。
  3. コンピュータを、請求項1に記載の違法コンテンツ探索装置として機能させるためのプログラム。
JP2017079221A 2017-04-12 2017-04-12 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム Active JP6632564B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017079221A JP6632564B2 (ja) 2017-04-12 2017-04-12 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017079221A JP6632564B2 (ja) 2017-04-12 2017-04-12 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018180913A JP2018180913A (ja) 2018-11-15
JP6632564B2 true JP6632564B2 (ja) 2020-01-22

Family

ID=64276857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017079221A Active JP6632564B2 (ja) 2017-04-12 2017-04-12 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6632564B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7212486B2 (ja) 2018-09-26 2023-01-25 フォルシアクラリオン・エレクトロニクス株式会社 位置推定装置

Also Published As

Publication number Publication date
JP2018180913A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
US9720944B2 (en) Method for facet searching and search suggestions
US8819024B1 (en) Learning category classifiers for a video corpus
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US12069090B2 (en) Illegal content search device, illegal content search method, and program
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
KR20090087269A (ko) 컨텍스트 기반 정보 처리 방법 및 장치, 그리고 컴퓨터기록 매체
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
WO2024188044A1 (zh) 视频标签生成方法、装置、电子设备及存储介质
JP6760987B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
CN111737523B (zh) 一种视频标签、搜索内容的生成方法及服务器
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
CN103136221A (zh) 一种生成需求模板的方法、需求识别的方法及其装置
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法
JP6621437B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
JP6530002B2 (ja) コンテンツ探索装置、コンテンツ探索方法、プログラム
JP6830917B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
Sluban et al. URL Tree: Efficient unsupervised content extraction from streams of web documents
JP6762678B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
Luberg et al. Information retrieval and deduplication for tourism recommender sightsplanner
Misra et al. Topic modeling for content based image retrieval
JP6700987B2 (ja) 関連文書処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191210

R150 Certificate of patent or registration of utility model

Ref document number: 6632564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150