JP5051237B2 - Inappropriate content detection method and apparatus, computer program thereof, and content publishing system - Google Patents

Inappropriate content detection method and apparatus, computer program thereof, and content publishing system Download PDF

Info

Publication number
JP5051237B2
JP5051237B2 JP2009537912A JP2009537912A JP5051237B2 JP 5051237 B2 JP5051237 B2 JP 5051237B2 JP 2009537912 A JP2009537912 A JP 2009537912A JP 2009537912 A JP2009537912 A JP 2009537912A JP 5051237 B2 JP5051237 B2 JP 5051237B2
Authority
JP
Japan
Prior art keywords
content
inappropriate
posted
similarity
inappropriate content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009537912A
Other languages
Japanese (ja)
Other versions
JPWO2009050877A1 (en
Inventor
恭二 平田
芹沢  昌宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009537912A priority Critical patent/JP5051237B2/en
Publication of JPWO2009050877A1 publication Critical patent/JPWO2009050877A1/en
Application granted granted Critical
Publication of JP5051237B2 publication Critical patent/JP5051237B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Description

【技術分野】
【0001】
本発明は、投稿サイトにおける不適切コンテンツ検出方法、不適切コンテンツ検出装置、そのコンピュータプログラム、およびコンテンツ公開システムに関する。
【背景技術】
【0002】
インターネットなどにて展開されるサービスの一つに、掲示板サービスあるいは動画または静止画投稿サービスがある。掲示板等のこれらのサービスでは、不特定多数の利用者が、画像、音声、テキスト等のデータ(コンテンツ)をアップロードしたり、他人のアップロードしたコンテンツを自由に閲覧したりすることができる。
【0003】
このような掲示板等への投稿を、投稿する利用者の自由に任せると、他人の著作権物をコピーまたは模造したいわゆる不正コンテンツや不法コンテンツが大量に出回ってしまう危険性がある。現在不正コンテンツは、サービス提供者が定期的に監視を行うか、または著作権者がサービス提供者にクレームして該コンテンツを削除するといった枠組みで運用されているが、掲載されるコンテンツが大量になった場合、そのすべてを人手でチェックすることは困難である。
【0004】
投稿されたコンテンツの中から不適切なデータを検出するシステムの一例が特許文献1に記載されている。同文献に記載されたシステムは、予め不適切なコンテンツ(画像、音声、テキスト等)をみつけるためのベースとなるコンテンツのサンプルを蓄えておき、新規にコンテンツ(画像、音声、テキスト等)が投稿されるたびに、前記蓄えられた不適切なコンテンツをみつけるためのベースとなるサンプルとの類似性を評価し、類似していると評価された場合に不適切なコンテンツであるとして抽出する。
【特許文献1】
特開2006−293455号公報
【特許文献2】
特開平8−180176号公報
【特許文献3】
特開2000−259832号公報
【特許文献4】
特開2000−339474号公報
【発明の開示】
【0005】
しかしながら、上記特許文献1に記載されている方法は、不適切なコンテンツをみつけるためのベースとなるコンテンツのサンプルとの類似度に基づくものであり、不適切コンテンツを抽出するために、不適切コンテンツをみつけるためのベースとなるコンテンツをサンプルとして用意する必要がある点で改善の余地を有していた。
【0006】
特に、掲示板などのサービスで不特定多数の利用者が投稿する、画像、音声、テキスト等のデータ(コンテンツ)に対して、他人の著作権物をコピーまたは模造したいわゆる不正コンテンツまたは不法コンテンツを検出するために、予め不正画像データをサンプルとして用意し、日々掲示板などインターネットにアップされるすべての不正画像データに対応することは困難であった。
【0007】
日々、多種多様なコンテンツが生成、流通する中で、著作権的に保護すべきコンテンツをすべて、予め不適切コンテンツのベースとなるコンテンツのサンプルとして用意しておくのはきわめて困難である。掲示板などのサービス母体が、コンテンツを作成していることは少ないため、事前に保護すべきコンテンツを入手することは困難であることに加え、掲示板などに投稿されるコンテンツの範囲は非常に多岐にわたっており、すべての投稿に対してもれなく不適切コンテンツをみつけるためのベースとなるサンプルとして用意することは非常に困難であるといえる。
【0008】
本発明の目的は、上述した課題である、不正コンテンツサンプルや辞書データを予め用意する困難さを解決する不適切コンテンツ検出方法、不適切コンテンツ検出装置、そのコンピュータプログラム、およびコンテンツ公開システムを提供することにある。
【0009】
本発明の第1の不適切コンテンツ検出方法は、不適切コンテンツ検出装置が、
個々の利用者から投稿されたコンテンツを受け付け、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、
前記相互の類似度に基づき、前記投稿されたコンテンツが著作権的に適切であるか否かの判定を行う。
【0010】
本発明の第2の不適切コンテンツ検出方法は、不適切コンテンツ検出装置が、
個々の利用者から投稿されたコンテンツを受け付け、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツ間で算出された相互の類似度に基づき、複数の前記投稿されたコンテンツが相互に類似しているか否かを判定し、類似していた場合に、相互に類似しているコンテンツ群を著作権的に不適切なコンテンツとして検出する。
[0011]
本発明の不適切コンテンツ検出装置は、個々の利用者から投稿されたコンテンツの入力を受け付けるコンテンツ受付手段と、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、前記類似度に基づき、相互に類似するコンテンツ群を検出する類似コンテンツ検出手段と、
検出された前記類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する不正判定手段と、を備える。
[0012]
本発明のコンピュータプログラムは、コンピュータに、個々の利用者から投稿されたコンテンツから著作権的に不適切なコンテンツを検出する不適切コンテンツ検出装置を実現させるためのコンピュータプログラムであって、
前記コンピュータに、
個々の利用者から投稿されたコンテンツの入力を受け付ける手順と、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、前記類似度に基づき、相互に類似するコンテンツ群を検出する手順、
検出された前記類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する手順、を実行させる。
[0013]
本発明の第1のコンテンツ公開システムは、投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、
上記不適切コンテンツ検出装置によって検出された前記不適切なコンテンツをシステム管理者に提示する提示手段と、
前記システム管理者が確認した後、前記システム管理者から削除指示を受け付ける受付手段と、
前記削除指示に従い、前記不適切なコンテンツの削除を行う削除手段と、を備える。
【0014】
本発明の第2のコンテンツ公開システムは、投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、
上記不適切コンテンツ検出装置によって相互に類似していると判定されたコンテンツ数が、所定数より多いか否かを判定する判定手段と、
相互に類似していると判定されたコンテンツ数が所定数より多い場合に、当該コンテンツへの利用者のアクセスを自動的に停止する制御手段と、を備える。
【0015】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【0016】
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
【0017】
また、本発明の不適切コンテンツ検出方法およびコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の不適切コンテンツ検出方法およびコンピュータプログラムを実施するときには、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
【0018】
さらに、本発明の不適切コンテンツ検出方法およびコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
【0019】
本発明によれば、不正コンテンツサンプルや辞書データを予め用意することなく、投稿されるコンテンツの中から不適切なコンテンツを効率よく検出できる不適切コンテンツ検出方法、不適切コンテンツ検出装置、そのコンピュータプログラム、およびコンテンツ公開システムが提供される。
【図面の簡単な説明】
【0020】
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
【0021】
【図1】本発明の実施の形態に係る不適切コンテンツ検出装置の構成を示すブロック図である。
【図2】本発明の実施の形態における不適切コンテンツ検出の手順の一例を示すフローチャートである。
【図3】本発明の実施の形態に係る不適切コンテンツ検出装置の構成を示すブロック図である。
【図4】本発明の実施の形態における不適切コンテンツ検出の手順の一例を示すフローチャートである。
【図5】本発明の実施の形態に係る不適切コンテンツ検出装置の構成を示すブロック図である。
【図6】本発明の実施の形態における不適切コンテンツ検出の手順の一例を示すフローチャートである。
【図7】本発明の実施の形態に係る確認サーバの構成を示すブロック図である。
【図8】本発明の実施の形態に係るコンテンツ公開システムの構成を示す図である。
【図9】本発明の不適切コンテンツ検出方法の実施例を模式的に示した図である。
【図10】図9で投稿されたコンテンツの類似の状況を模式的に示した図である。
【図11】動画の類似例を模式的に示した図である。
【図12】静止画の類似例を模式的に示した図である。
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施の形態について、図面を用いて説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
【0023】
(第一の実施の形態)
図1は、本発明の実施の形態に係る不適切コンテンツ検出装置100の構成を示す機能ブロック図である。本実施形態の不適切コンテンツ検出装置100は、複数の投稿されたコンテンツの相互の類似度を算出し、相互の類似度に基づき、投稿されたコンテンツが著作権的に適切であるか否かの判定を行うものである。また、本実施形態において、不適切コンテンツ検出装置100は、投稿された複数のコンテンツの相互の類似度に基づき、複数の投稿されたコンテンツが相互に類似しているか否かを判定し、類似していた場合に、相互に類似しているコンテンツ群を著作権的に不適切なコンテンツとして検出する。
【0024】
ここで、類似度とは、少なくとも二つのコンテンツ間が相互に類似しているか否かを示す尺度であり、たとえば、特許文献1の段落0010および0011、または特許文献4に記載されているような公知の技術により算出できる。
【0025】
本実施形態の不適切コンテンツ検出装置100は、投稿されたコンテンツの入力を受け付けるコンテンツ入力受付部110と、複数の投稿されたコンテンツの相互の類似度を算出し、類似度に基づき、相互に類似するコンテンツ群を検出する類似コンテンツ検出部134と、検出された類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する不正判定部136と、を備える。
【0026】
また、本実施形態の不適切コンテンツ検出装置100は、投稿されたコンテンツからその特徴量を抽出する特徴量抽出部132をさらに備え、類似コンテンツ検出部134は、複数の投稿されたコンテンツの特徴量を相互に照合して、特徴量の相互の類似度を算出し、相互に類似するコンテンツ群を検出する。
【0027】
より詳細には、不適切コンテンツ検出装置100は、コンテンツ入力受付部110と、コンテンツ記憶部120と、特徴量抽出部132と、類似コンテンツ検出部134と、不正判定部136と、不適切コンテンツ出力部140と、を備えている。
【0028】
なお、以下の各図において、本発明の本質に関わらない部分の構成については省略してある。
また、不適切コンテンツ検出装置100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。以下説明する各図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。
【0029】
コンテンツ入力受付部110は、個々の利用者から次々に投稿されるコンテンツの入力を受け付ける。一例として、コンテンツ入力受付部110は、インターネット経由で利用者より投稿されたメッセージをキャプチャして、コンテンツ部分を切り出すプログラムを搭載したCPU(Central Processing Unit)である。入力されるコンテンツとは、たとえば、掲示板などに投稿された、画像(動画像、静止画)、音声(音響、音楽)、テキストデータなどであり、著作権的に保護すべきコンテンツである。
【0030】
入力されるコンテンツは、利用者からの投稿を直接キャプチャする形で実現されてもよいし、一度外部のサーバ(不図示)等に蓄えられた後に逐次または一括して入力するような形であってもよい。投稿の形態は、WWWブラウザを使ってアップロードする形態であってもよいし、e−mail等にコンテンツを添付して送付するような形態であってもよい。また特定のFTPサイトに登録するような形態であってもかまわない。
【0031】
コンテンツ記憶部120は、コンテンツ入力受付部110が受け付けたコンテンツを蓄積する。一例として、コンテンツ記憶部120は、ハードディスク、フラッシュメモリなどの記憶装置であり、専用の蓄積装置であっても、他の蓄積装置との兼用であってもよい。
【0032】
特徴量抽出部132は、コンテンツ間の一致の検出、または類似度を効果的に算出するための特徴量を、コンテンツ入力受付部110が受け付けた各コンテンツから抽出する。一例として、特徴量抽出部132は、予め定められたルールにて動作するプログラムを搭載したCPUである。たとえば、コンテンツが映像情報の場合、映像中の各フレームで観測される色情報のヒストグラムを抽出するように動作してもよいし、音楽情報の場合、各時刻における周波数成分を抽出するように動作してもよい。
【0033】
一例として、特徴量抽出部132は、上記特許文献2に記載された画像インデックス生成や、上記特許文献3に記載された、代表レイアウト特徴量抽出のような手順で特徴量の抽出を行う。特徴量抽出に関しては、画像や映像または音響情報などのコンテンツの相互の類似度または一致度が算出できれば、特許文献2や特許文献3に記載された特徴量でなくてもかまわない。
また、特徴量抽出部132で抽出された特徴量は、特徴量蓄積部(不図示)に蓄積してもよいし、類似度算出毎にコンテンツ記憶部120に記憶されているコンテンツから抽出してもよい。
【0034】
類似コンテンツ検出部134は、コンテンツ間の類似度判定または一致検出を行うために、特徴量抽出部132により抽出された特徴量の相互の類似度を算出し、予め定められた特定閾値以上の類似度を持つコンテンツ群を検出する。検出した結果は類似コンテンツ情報として一時記憶部(不図示)に記憶し、後述する不正判定部136に出力する。一例として、類似コンテンツ検出部134は、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。
【0035】
類似するコンテンツの検出方法として、たとえば、特許文献3に記載された、代表レイアウト特徴量に基づく類似コンテンツ検出を用いる。コンテンツの一致に際しては、映像中の一部または全部のフレームの一致または類似や、静止画像の一部または全体の一致または類似、音響の一部または全体の一致または類似を検出できれば、特許文献3以外の方法で検出を行ってもよい。
【0036】
すなわち、本実施形態の不適切コンテンツ検出装置100において、類似コンテンツ検出部134は、投稿されたコンテンツが映像であった際に、映像に含まれる一部または全部のフレーム群が相互に類似しているときに、コンテンツ間の類似度が閾値より高いとすることができる。また、類似コンテンツ検出部134は、投稿されたコンテンツが静止画像であった際に、静止画像の一部または全体が類似しているときに、コンテンツ間の類似度が閾値より高いとすることができる。さらに、類似コンテンツ検出部134は、投稿されたコンテンツが音響または音楽を含む際に、音響または音楽の一部または全体のフレーズが類似しているときに、コンテンツ間の類似度が閾値より高いとすることができる。
【0037】
不正判定部136は、類似コンテンツ検出部134にて検出された類似コンテンツ情報に基づいて、コンテンツの不正を判定する。一例として、不正判定部136は、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。
【0038】
不適切コンテンツ出力部140は、不正判定部136における不正判定結果をうけて、不適切なコンテンツを出力する。一例として、不適切コンテンツ出力部140は、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。例として、不適切コンテンツ出力部140は、不正判定部136で不適切なコンテンツと判定された不適切なコンテンツをリストアップした不適切コンテンツリストを作成し、出力するリスト作成部(不図示)を含むこともできる。
【0039】
上記不適切コンテンツ検出装置100の各種ユニット(コンテンツ入力受付部110〜不適切コンテンツ出力部140)を各種機能として実現させるためのコンピュータプログラムは、上述のCPUが利用するメモリ(不図示)に記憶され、CPUにより実行される。
【0040】
本実施形態のコンピュータプログラムは、コンピュータに、投稿されたコンテンツから著作権的に不適切なコンテンツを検出する不適切コンテンツ検出装置100を実現させるためのコンピュータプログラムであって、コンピュータに、投稿されたコンテンツの入力を受け付ける手順と、投稿されたコンテンツからその特徴量を抽出する手順、複数の投稿されたコンテンツの特徴量を相互に照合して、特徴量の相互の類似度を算出する手順、算出された類似度に基づいて、相互に類似するコンテンツ群を検出する手順、検出された類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する手順、を実行させるように記述されている。
【0041】
コンピュータプログラムは、たとえば、コンピュータ(CPU)が読取可能な記録媒体(メモリ)に格納される。例として、記録媒体は、PROM(Programmable Read Only Memory)、ハードディスク、DVD−ROM、CD−ROM、FDなどである。
【0042】
このように構成された本実施形態の不適切コンテンツ検出装置100の動作について、以下に説明する。図2は、本実施形態の不適切コンテンツ検出装置100の動作の一例を示すフローチャートである。以下、図1および図2を用いて説明する。
【0043】
はじめに、コンテンツ入力受付部110により利用者により投稿された複数のコンテンツの入力が受け付けられる(S11)。コンテンツは、逐次入力されてもよいし、複数まとめて入力されてもよい。受け付けられたコンテンツがコンテンツ記憶部120に記憶され(S13)、特徴量抽出部132が、コンテンツ入力受付部110が受け付けた各コンテンツから類似度算出のための特徴量を抽出する(S15)。
【0044】
そして、類似コンテンツ検出部134が、受け付けたコンテンツの中から順次コンテンツ対を選択し、(S17)、選択されたコンテンツ対の類似度を算出し(S19)、類似度が予め定めた閾値以上であかる否かを判定する(S21)。類似度が予め定めた閾値以上であった場合に(S21のYes)、類似コンテンツとして検出し、検出されたコンテンツ対を相互類似コンテンツ情報として一時記憶部に記憶する(S23)。
【0045】
ステップS17からステップS23までを、入力コンテンツのすべての組合せに対して行い(S25)、それぞれ相互に類似するコンテンツを検出する。
【0046】
そして、すべての組み合わせについて類似コンテンツの検出が終了したとき(S25のYes)、不正判定部136により、ステップS23で記憶した相互類似コンテンツ情報に基づいて不正判定が行われる(S27)。一例として、特定の相互に類似するコンテンツが予め定められた件数以上検出された場合、それらの類似するコンテンツ群に対して不正と判定する。一例として、予め定められた件数が2件の場合、ステップS23にて記憶されたコンテンツはすべて、不適切コンテンツと判定される。予め定められた件数がN件の場合、ステップS21で検出されたコンテンツ対の接続関係に基づき、N件以上の相互接続を検出して検出されたコンテンツを不適切コンテンツと判定する。
【0047】
そして、不適切コンテンツ出力部140により、不正と判定されたコンテンツの出力が行われる(S29)。
【0048】
以上説明したように、本実施形態の不適切コンテンツ検出装置100によれば、不適切なコンテンツをみつけるためのベースとなるサンプルコンテンツ(辞書データ)を用意することなく、著作権的に不適切なコンテンツを効率よく自動的に検出するという、発明の目的を達成することができる。
また、著作権的な適切度の判定を効率よく行うことができる。そして、掲示板などに不適切なコンテンツが公開されるのを防ぐことが可能となる。
【0049】
権利侵害をしている不適切コンテンツでは、テレビ録画、雑誌、CD、DVDなどのオリジナルコンテンツが存在し、オリジナルコンテンツを一部またはそのまま投稿したり、他者が投稿したコンテンツをダウンロードしてそのまま転用したりするという特性をもつため重複が多い。投稿されたコンテンツ間で類似度評価を行い、投稿された動画、静止画、音響の一致または重複を検知し、重複の多いコンテンツを著作権的に不適切なコンテンツとして検出することにより、不適切コンテンツのサンプルを予め用意することなく、著作権的な適切度の判定および不適切なコンテンツの検出ができるようになり、本発明の目的を達成することができる。
【0050】
(第二の実施の形態)
図3は、本発明の実施の形態に係る不適切コンテンツ検出装置200の構成を示す機能ブロック図である。本実施形態の不適切コンテンツ検出装置200は、上記実施形態の不適切コンテンツ検出装置100とは、コンテンツを所定の条件で選択し、選択されたコンテンツについて類似度評価を行う点で相違する。
【0051】
本実施形態の不適切コンテンツ検出装置200において、類似コンテンツ検出部234は、所定の期間内に投稿されたコンテンツのうち、所定数以上の投稿されたコンテンツ間で相互に類似度が閾値より高いコンテンツを相互に類似するコンテンツ群として検出し、不正判定部236は、検出された類似するコンテンツ群を不適切なコンテンツと判定する。
【0052】
また、本実施形態の不適切コンテンツ検出装置200において、類似コンテンツ検出部234は、複数の投稿されたコンテンツから、所定の基準でコンテンツを選択した後に、選択されたコンテンツ間で相互に類似度を算出し、所定数以上のコンテンツ間で、相互に類似度が閾値より高いコンテンツ群を検出し、不正判定部236は、検出された前記コンテンツ群を、不適切なコンテンツと判定する。本実施形態の不適切コンテンツ検出装置200は、たとえば、所定期間に投稿されたコンテンツについて類似度評価を行う。
【0053】
ここで、所定の基準とは、コンテンツが投稿された日時、コンテンツを投稿した投稿者の国籍、投稿されたコンテンツのサイズなどを含む。これらの情報は、コンテンツ投稿記録などに記録されており、コンテンツ投稿記録、すなわち、投稿時刻、投稿者の国籍、コンテンツのサイズなどに基づいてコンテンツを選択し、選択されたコンテンツ間で類似度を算出し、不適切コンテンツを検出することができる。
【0054】
本実施形態の不適切コンテンツ検出装置200は、特徴量抽出部232によって抽出された特徴量を記憶する特徴量蓄積部252と、特徴量蓄積部252から、所定の基準で選択されたコンテンツの特徴量を取得する蓄積特徴量選択部254と、を備え、類似コンテンツ検出部234は、蓄積特徴量選択部254によって選択されたコンテンツの特徴量の相互の類似度を算出し、相互に類似するコンテンツを検出する。
【0055】
さらに、本実施形態の不適切コンテンツ検出装置200において、特徴量蓄積部252は、投稿毎に投稿されたコンテンツの特徴量を蓄積しておき、類似コンテンツ検出部234は、新たに投稿された新規コンテンツと複数の蓄積されたコンテンツの特徴量に基づいて、複数の蓄積されたコンテンツ毎に、新規コンテンツとの類似度を算出し、新規コンテンツとの類似度が閾値より高いコンテンツが存在した場合に、新規コンテンツおよび、新規コンテンツとの類似度が閾値より高いコンテンツのコンテンツ群を検出し、不正判定部236は、検出されたコンテンツ群を不適切なコンテンツと判定する。
【0056】
詳細には、本実施形態の不適切コンテンツ検出装置200は、上記実施形態の不適切コンテンツ検出装置100と同じコンテンツ入力受付部110と、コンテンツ記憶部120と、不適切コンテンツ出力部140と、に加え、特徴量抽出部232と、類似コンテンツ検出部234と、不正判定部236と、特徴量蓄積部252と、蓄積特徴量選択部254と、を備えている。
【0057】
特徴量抽出部232は、コンテンツ間の一致または類似度を効果的に算出するための特徴量をコンテンツから抽出する。抽出された特徴量は特徴量蓄積部252に蓄積される。特徴量抽出部232は、たとえば、コンテンツが映像情報の場合、映像中の各フレームで観測される色情報のヒストグラムを抽出するように動作してもよいし、音楽情報の場合、各時刻における周波数成分を抽出するように動作してもよい。
【0058】
一例として、特徴量抽出部232は、上記実施形態で記載した特許文献2に記載された画像インデックス生成や、特許文献3に記載された、代表レイアウト特徴量抽出のような手順で特徴量の抽出を行う。特徴量抽出に関しては、画像や映像または音響情報などのコンテンツの相互の類似度または一致度が算出できれば、特許文献2や特許文献3に記載された特徴量でなくてもかまわない。
【0059】
特徴量蓄積部252は、特徴量抽出部232にて抽出された特徴量を蓄積する。一例として、ハードディスクやフラッシュメモリなどの記憶装置があり、専用の蓄積装置であっても、他の蓄積装置との兼用であってもよい。
【0060】
蓄積特徴量選択部254は、特徴量蓄積部252から類似度を算出すべき特徴量を選択する。一例として、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。一例として、蓄積特徴量選択部254は、特徴量蓄積部252に蓄積された特徴量のうち、予め定められた期間に投稿されたコンテンツの特徴量を、投稿記録の投稿日時に基づき選択する。このほか、投稿記録に記録されているコンテンツの投稿者や投稿者の国籍、投稿されたコンテンツのサイズなどに応じて、類似度評価するコンテンツを選択してもかまわない。
【0061】
類似コンテンツ検出部234は、受け付けたコンテンツの特徴量または蓄積されたコンテンツの特徴量を相互に照合することで、相互の類似度を算出し、類似度に基づいて類似コンテンツを検出する。一例として、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。類似コンテンツグループ(コンテンツ群)検出に際しては、上記実施形態で述べたようにすべての特徴量対の類似度を総当り的にもとめる方法(図2のステップS17〜S25)を用いてもよいし、まず、第一に、新規に投稿された入力コンテンツの特徴量と、蓄積された特徴量との類似度の算出を行い、類似コンテンツが検出されたときのみ、相互に類似度算出を行うという方法を用いてもよい。
【0062】
すなわち、本実施形態の不適切コンテンツ検出装置200において、特徴量蓄積部252は、これまでに投稿されたコンテンツの特徴量を蓄積しておき、類似コンテンツ検出部234は、新たに投稿された新規コンテンツと複数の蓄積されたコンテンツの特徴量に基づいて、複数の蓄積されたコンテンツ毎に、新規コンテンツとの類似度を算出し、新規コンテンツとの類似度が閾値より高いコンテンツが存在した場合に、蓄積されたコンテンツに新規コンテンツを加えて、相互の類似度を算出し、所定数以上のコンテンツ間で相互に類似度が閾値より高いコンテンツ群を検出してもよい。
すなわち、新規コンテンツとの類似度が閾値より高いコンテンツが存在しない場合は、コンテンツ群の検出を行わなくてよい。
【0063】
また、このとき、類似コンテンツ検出部234は、新規コンテンツと比較する蓄積されたコンテンツとして、所定期間に投稿されたコンテンツのみを用いてもよい。
【0064】
不正判定部236は、類似コンテンツ検出部234にて検出された類似コンテンツ情報をもとにコンテンツの不正を判定する。本実施形態において、不正判定部236は、類似コンテンツ検出部234にて検出された類似コンテンツグループが予め定めた数以上であった場合、検出された類似コンテンツグループを不適切なコンテンツと判定する。一例として、不正判定部236は、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。
【0065】
上記不適切コンテンツ検出装置200の各種ユニット(コンテンツ入力受付部110〜不適切コンテンツ出力部140、特徴量抽出部232〜蓄積特徴量選択部254)を各種機能として実現させるためのコンピュータプログラムは、上述のCPUが利用するメモリ(不図示)に記憶され、CPUにより実行される。
【0066】
本実施形態のコンピュータプログラムは、上記実施形態のコンピュータプログラムの手順に加え、コンピュータに、所定の期間内に投稿されたコンテンツのうち、所定数以上の投稿されたコンテンツ間で相互に類似度が閾値より高いコンテンツを相互に類似するコンテンツ群として検出する手順をさらに実行させるように記述されている。
【0067】
このように構成された本実施形態の不適切コンテンツ検出装置200の動作について以下に説明する。図4は、本実施形態の不適切コンテンツ検出装置200の動作の一例を示すフローチャートである。以下、図3および図4を用いて説明する。
【0068】
なお、本実施形態の不適切コンテンツ検出装置200の動作において、図2のフローチャートのステップS11、S13、およびS29は同じであるので、説明は省略する。
【0069】
特徴量抽出部232により、ステップS11で入力された各コンテンツから類似度算出のための特徴量が抽出される(S31)。抽出された特徴量は、特徴量蓄積部252に蓄積される。そして、蓄積特徴量選択部254により、予め特徴量蓄積部252に記憶された特徴量から相互類似度評価用に利用すべき参照コンテンツの特徴量が選択される(S33)。たとえば、上述したように投稿記録に基づき、所定期間に投稿されたコンテンツの特徴量を選択する。
【0070】
そして、類似コンテンツ検出部234により、ステップS33で選択された特徴量に、新規に入力されたコンテンツの特徴量を加えた特徴量間で相互に類似度を算出して、類似コンテンツグループの検出を行う(S35)。
【0071】
ステップS35にて検出された類似コンテンツグループが予め定めた数以上であった場合、不正判定部236により、検出された類似コンテンツグループが不正コンテンツと判定され(S37)、不適切コンテンツ出力部140により不正と判定したコンテンツが出力される(S29)。
【0072】
以上説明したように、本実施形態の不適切コンテンツ検出装置200によれば、特定期間内に数多く重複して投稿された、オリジナルコンテンツの存在する、コピーとおぼしき投稿を検出することができ、不適切なコンテンツをみつけるためのベースとなるサンプルコンテンツ(辞書データ)を用意することなく、著作権的に不適切なコンテンツを自動的に検出するという、発明の目的を達成することができる。
【0073】
(第三の実施の形態)
図5は、本発明の実施の形態に係る不適切コンテンツ検出装置300の構成を示す機能ブロック図である。本実施形態の不適切コンテンツ検出装置300は、上記実施形態の不適切コンテンツ検出装置100および不適切コンテンツ検出装置200とは、検出された不適切なコンテンツを辞書として登録し、辞書との照合を行うことで不適切なコンテンツの検出を行う点、および不適切なコンテンツが検出された場合、管理者などにアラーム提示する点で相違する。
【0074】
本実施形態の不適切コンテンツ検出装置300は、不正判定部236で不適切と判定された不適切なコンテンツまたは該不適切なコンテンツの特徴量を不適切コンテンツ辞書データとして不適切コンテンツ特徴量蓄積部312に記憶する不適切コンテンツ特徴量登録部314と、新規に投稿されたコンテンツに対して、不適切コンテンツ辞書データと照合を行うことにより不適切なコンテンツの検出を行う類似コンテンツ検出部334と、をさらに備える。
【0075】
詳細には、本実施形態の不適切コンテンツ検出装置300は、上記実施形態の不適切コンテンツ検出装置100と同じコンテンツ入力受付部110と、コンテンツ記憶部120と、不適切コンテンツ出力部140と、ならびに、上記実施形態の不適切コンテンツ検出装置200と同じ特徴量抽出部232と、不正判定部236と、特徴量蓄積部252と、に加え、類似コンテンツ検出部334と、不適切コンテンツ特徴量蓄積部312と、不適切コンテンツ特徴量登録部314と、アラーム提示部320と、を備えている。
【0076】
不適切コンテンツ特徴量蓄積部312は、既に不適切なコンテンツであると判定されたコンテンツの特徴量を蓄積する。一例として、ハードディスクやフラッシュメモリなどの記憶装置があり、専用の蓄積装置であっても、他の蓄積装置との兼用であってもよい。
【0077】
不適切コンテンツ特徴量登録部314は、不適切なコンテンツであると判定されたコンテンツの特徴量を不適切コンテンツ特徴量蓄積部312に登録する。一例として予め定められたルールにて動作するプログラムを搭載したCPUである。たとえば、不正コンテンツと判定されたコンテンツの特徴量を特徴量蓄積部252から、不適切コンテンツ特徴量蓄積部312に変更するという動作を行う。また、放送局などから提供された著作物コンテンツの特徴量を新たに登録するように動作してもよい。
【0078】
類似コンテンツ検出部334は、入力されたコンテンツの特徴量または蓄積されたコンテンツの特徴量の相互の類似度を算出し、類似コンテンツを検出する。一例として、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。特徴量間の類似度の算出方法として、たとえば上記実施形態にて記述した特許文献3に記載された、代表レイアウト特徴量に基づく類似コンテンツ検出を用いる。コンテンツの一致に際しては、映像中の一部または全部のフレームの一致または類似や、静止画像の一部または全体の一致または類似、音響の一部または全体の一致または類似を検出できれば、特許文献3以外の方法で検出を行ってもよい。
【0079】
アラーム提示部320は、不適切なコンテンツが検出された際にコンテンツ管理者などに対してアラームを提示する。一例として、アラーム用のテキストまたは映像を提示するためのモニタ、音響を出力するためのスピーカなどが上げられる。
【0080】
上記不適切コンテンツ検出装置300の各種ユニット(コンテンツ入力受付部110〜不適切コンテンツ出力部140、特徴量抽出部232〜特徴量蓄積部252、不適切コンテンツ特徴量蓄積部312〜類似コンテンツ検出部334)を各種機能として実現させるためのコンピュータプログラムは、上述のCPUが利用するメモリ(不図示)に記憶され、CPUにより実行される。
【0081】
本実施形態のコンピュータプログラムは、上記実施形態のコンピュータプログラムの手順に加え、コンピュータに、不適切なコンテンツを判定する手順で不適切と判定された不適切なコンテンツまたは該不適切なコンテンツの特徴量を不適切コンテンツ辞書データとして不適切コンテンツ特徴量蓄積部312に記憶する手順、新規に投稿されたコンテンツに対して、不適切コンテンツ辞書データと照合を行うことにより不適切なコンテンツの検出を行う手順、をさらに実行させるように記述されている。
【0082】
このように構成された本実施形態の不適切コンテンツ検出装置300の動作について、以下に説明する。図6は、本実施形態の不適切コンテンツ検出装置300の動作の一例を示すフローチャートである。以下、図5および図6を用いて説明する。
【0083】
なお、本実施形態の不適切コンテンツ検出装置300の動作において、図2のフローチャートのステップS11およびS13は同じであるので、説明は省略する。
【0084】
特徴量抽出部232により、ステップS11で入力された各コンテンツから類似度算出のための特徴量が抽出される(S41)。抽出された特徴量は、特徴量蓄積部252に蓄積される。そして、類似コンテンツ検出部334により、入力コンテンツの特徴量と、不適切コンテンツ特徴量蓄積部312に蓄積された各コンテンツの特徴量との間の類似度が算出される(S43)。
【0085】
ステップS43にて算出された類似度が予め定めた閾値以上であった場合(S45のYes)、不正判定部236により、類似度が閾値以上の特徴量の入力コンテンツが不適切なコンテンツと判定され(S51)、不適切コンテンツ出力部140により不正と判定したコンテンツが出力される(S53)。そして、アラーム提示部320が、情報管理者に不適切コンテンツ検出のアラームをあげる(S55)。そして、不適切コンテンツ特徴量登録部314により、新たに不適切コンテンツと判定されたコンテンツの特徴量が不適切コンテンツ特徴量蓄積部312に登録される(S57)。
【0086】
ステップS43にて算出されたコンテンツが、不適切コンテンツ特徴量蓄積部312に蓄積されたすべてのコンテンツに対して予め定めた閾値未満であった場合(S45のNo)は、類似コンテンツ検出部334により、入力されたコンテンツの特徴量ならびに、特徴量蓄積部252に蓄積された特徴量で特徴量対が選択され(S61)、選択された特徴量間の類似度が算出される(S63)。そして、類似コンテンツ検出部334により、類似度が予め定めた閾値以上か否かが判定される(S65)。類似度が予め定めた閾値以上であった場合(S65のYes)に、類似コンテンツ検出部334により類似特徴量対として検出され、類似情報として一時記憶部に記憶する(S67)。これを入力コンテンツからの特徴量と、特徴量蓄積部252に蓄積された特徴量をあわせたすべての特徴量の組合せに対して行い(S69)、それぞれ相互に類似するコンテンツの特徴量を抽出する。
【0087】
そして、すべての組み合わせについて類似判定が終了したとき(S69のYes)、不正判定部236により、特徴量の間の類似情報から不正判定が行われる(S71)。一例として、特定の相互に類似するコンテンツの特徴量が、入力コンテンツの特徴量が加わることにより、予め定められた件数以上検出された場合、入力コンテンツならびに、入力コンテンツと相互に類似する特徴量蓄積部252に蓄積された特徴量に対応するコンテンツ記憶部120に蓄積されたコンテンツを不正と判定する。一例として、予め定められた件数が2件の場合、ステップS65にて新たに検出された入力コンテンツを含むコンテンツはすべて、不適切コンテンツと判定される。予め定められた件数がN件の場合、ステップS65で検出されたコンテンツの特徴量対の接続関係に基づき、N件以上の相互接続を検出して検出された特徴量に対応するコンテンツが不適切コンテンツと判定される。
【0088】
そして、不適切コンテンツ出力部140により、不正と判定されたコンテンツの出力が行われる(S73)。さらに、アラーム提示部320が、情報管理者に不適切コンテンツ検出のアラームをあげる(S75)。そして、不適切コンテンツ特徴量登録部314により、新たに不適切コンテンツと判定されたコンテンツの特徴量が、特徴量蓄積部252から消去され、入力コンテンツの特徴量ならびに新たに不適切コンテンツと判定したコンテンツの特徴量が不適切コンテンツ特徴量蓄積部312に登録される(S77)。
【0089】
なお、不適切コンテンツ検出装置300において、所定期間または所定の利用者または所定のコンテンツに対する相互の類似度の算出により不適切コンテンツ辞書データを生成する生成部(類似コンテンツ検出部334、不正判定部236)をさらに備えてもよい。これにより、所定期間または所定の利用者など、特定のグループ毎に辞書データを生成することができる。
また、この生成部は、相互の類似度の算出による不適切コンテンツ検出を定期的に行い、不適切コンテンツ辞書データの生成または更新を行ってもよい。
【0090】
また、特徴量蓄積部252に蓄積する特徴量を、特定期間において投稿されたコンテンツの特徴量に制限するようにすることにより、特定期間内に投稿されたコンテンツの相互類似度を算出するようにすることもできる。また、不適切コンテンツ特徴量蓄積部312に、既に不適切コンテンツとして検出対象である、著作権保護コンテンツの特徴量を合わせて登録してもよい。
【0091】
また、不適切コンテンツ特徴量登録部314は、特徴量蓄積部252からの消去や不適切コンテンツ特徴量蓄積部312への登録を自動的に行う代わりに、コンテンツ管理者等が確認をしてから登録を行うように変更してもよい。
【0092】
すなわち、上記不適切コンテンツ検出装置300において、不適切コンテンツ特徴量登録部314によって生成された不適切コンテンツ辞書データを情報管理者に提示し、該情報管理者が不適切コンテンツ辞書データを確認し、保持する不適切コンテンツ辞書データの指示を受け付け、指示された不適切コンテンツ辞書データのみを不適切コンテンツ特徴量蓄積部312に記憶してもよい。
【0093】
相互類似性を判定する類似度の閾値や類似コンテンツは判定する場合の件数、または使用する特徴量をジャンルや時期、投稿者などの状況に応じて適応的に変更したり、情報管理者が手動で調整したりできるような機構があってもかまわない。
【0094】
また、不適切コンテンツ検出装置300は、所定の利用者または所定のコンテンツを予め登録する登録部(不図示)を備えてもよい。このとき、不正判定部236は、所定の利用者により投稿されたコンテンツまたは所定のコンテンツは不適切なコンテンツと判定しなくてもよい。
【0095】
以上説明したように、本実施形態の不適切コンテンツ検出装置300によれば、所定の期間内に投稿されたコンテンツ内で、類似度の高いコンテンツが所定数以上検出されたときにそれらのコンテンツ群を不適切コンテンツとするので、特定期間内に数多く重複して投稿された、オリジナルコンテンツの存在する、コピーとおぼしき投稿を検出することができ、不適切なコンテンツをみつけるためのベースとなるサンプルコンテンツ(辞書データ)を用意することなく、著作権的に不適切なコンテンツを自動的に効率よく検出するという、発明の目的を達成することができる。
【0096】
権利侵害をしている不適切コンテンツでは、テレビ録画、雑誌、CD、DVDなどのオリジナルコンテンツが存在し、オリジナルコンテンツを一部またはそのまま投稿したり、他者が投稿したコンテンツをダウンロードしてそのまま転用したり、短期間に連続的に投稿されるという特性をもつため短期間での重複が多い。本実施形態によれば、予め定めた特定期間に投稿されたコンテンツ間で類似度評価を行い、投稿された動画、静止画、音響の一致または重複を検知し、予め定めた数以上の重複の多いコンテンツを著作権的に不適切なコンテンツとして検出することにより、不適切コンテンツのサンプルを予め用意することなく、不適切なコンテンツを検出できるようになり、本発明の目的を達成することができる。
【0097】
なお、本実施形態では、不適切コンテンツ特徴量蓄積部312に不適切なコンテンツの特徴量のみを蓄積し、辞書データとして準備するので、辞書データとして不正コンテンツのサンプルを用意する場合に比べて、その容量は非常に小さくて済む。
【0098】
さらに、本実施形態の不適切コンテンツ検出装置300によれば、不適切なコンテンツが検出されたとき、アラームをあげることで情報管理者の確認を促すことができ、これにより不適切なコンテンツが公開されることを防ぐことができる。
【0099】
(第四の実施の形態)
図7は、本発明の実施の形態に係る確認サーバ400の構成を示す機能ブロック図である。
本実施形態の確認サーバ400は、通信部410と、アラーム提示部420と、管理者確認および登録部430と、蓄積部440と、制御部450と、を備えている。
【0100】
通信部410は、ネットワーク402を通じて端末(不図示)や他の管理装置(不図示)とコンテンツや伝達情報のやり取りを行う。通信部410は、一例として、ネットワーク402を介した通信を行う専用ボードなどがあげられる。
【0101】
アラーム提示部420は、コンテンツ管理者に不適切コンテンツ検出のアラーム情報を提示する。アラーム提示部420は、一例として、アラーム用のテキストまたは映像を提示するためのモニタ、音情報を出力するためのスピーカなどがあげられる。あるいは、アラーム情報をリストアップしたリストを作成し、印字出力するプリンタなどでもよい。
【0102】
管理者確認および登録部430は、管理者が、不適切コンテンツ検出結果を確認したり、不適切コンテンツを新たに登録するためのものである。管理者確認および登録部430は、一例として結果を表示するモニタとキーボード、タッチパネルなどの入力機器の組合せがあげられる。あるいは、不適切コンテンツ検出結果をリストアップしたリストを作成し、印字出力するプリンタなどでもよい。
【0103】
蓄積部440は、コンテンツや抽出した特徴量、不適切コンテンツの特徴量などを蓄積する。蓄積部440は、一例として、ハードディスクやフラッシュメモリなどの記憶装置があり、専用の蓄積装置であっても、他の蓄積装置との兼用であってもかまわない。
【0104】
制御部450は、確認サーバ400の各要素および装置全体を制御するとともに、コンテンツ特徴量の抽出や照合など、不適切コンテンツの抽出を行う。制御部450は、一例として、プログラムを搭載したCPUである。
【0105】
上記通信部410、アラーム提示部420、管理者確認および登録部430、蓄積部440、制御部450をあわせて、通信機能、蓄積機能、モニタ機能、入力機能を備えたコンピュータにて構築可能である。
【0106】
制御部450は、通信部410からコンテンツをうけとり入力するコンテンツ入力受付部452と、不適切コンテンツ検出結果を出力する不適切コンテンツ出力部454と、不適切コンテンツであると判定されたコンテンツの特徴量を不適切コンテンツ特徴量蓄積部444に登録する不適切コンテンツ特徴量登録部456と、蓄積部440に格納されているコンテンツ、特徴量、不適切コンテンツ特徴量を管理する蓄積管理部460と、コンテンツの特徴量をコンテンツから抽出する特徴量抽出部462と、特徴量間の類似度算出により類似コンテンツを抽出する類似コンテンツ検出部464と、類似コンテンツ検出部464の検出結果を基に不適切なコンテンツを判定する不正判定部466を含む。
【0107】
蓄積部440は、入力されたコンテンツを蓄積するコンテンツ記憶部442と、抽出されたコンテンツ特徴量を蓄積する特徴量蓄積部444と、不適切コンテンツと判定されたコンテンツの特徴量を蓄積する不適切コンテンツ特徴量蓄積部446と、を含む。
【0108】
このように構成された本実施形態の確認サーバ400の動作については、上記実施形態の不適切コンテンツ検出装置300と同様であるので説明は省略する。
【0109】
本実施形態の確認サーバ400によれば、上記実施形態の不適切コンテンツ検出装置300と同様な効果を奏する。
【0110】
(第五の実施の形態)
図8は、本発明の実施の形態に係るコンテンツ公開システム500の構成を示す図である。
本実施形態のコンテンツ公開システム500は、映像公開サービスを提供するシステムであり、ネットワーク502と、ネットワーク502上に接続された複数の端末装置510と、不適切なコンテンツの検出および確認を行う確認サーバ520と、利用者により投稿された公開データを記憶する公開データ記憶部530と、公開データを公開するための公開サーバ540と、確認サーバ520が不適切なコンテンツを検出した際に、公開データ記憶部530から公開データを削除する公開データ削除部550と、を備える。
【0111】
端末装置510は、ネットワーク502へのアクセス機能を有する端末装置であり、汎用のコンピュータで実現可能である。
ネットワーク502は、データの送受信が可能なインターネット等の通信網である。
【0112】
確認サーバ520は、ネットワーク502を解して端末装置510から送信された投稿データを受け付けて、公開データ記憶部530に格納する機能を有するとともに、公開データ記憶部530に記憶された投稿データのうちで、不適切なものを検出して、削除する機能を有するサーバコンピュータである。確認サーバ520は、図7の上記実施形態で述べた確認サーバ400により実現可能である。不適切コンテンツ出力部522は、図7における確認サーバ400の不適切コンテンツ出力部454と同様な構成により実現可能である。
【0113】
公開サーバ540は、公開データ記憶部530に記憶されているデータを、ネットワーク502を通じて公開する機能を有するサーバコンピュータであり、通常のWWWサーバとしての機能を有するコンピュータにより実現可能である。
【0114】
公開データ削除部550は、確認サーバ520の検出結果を受けて、公開データ記憶部530中の公開データを削除する。一例として、予め定められたルールにて動作するプログラムを搭載したCPUである。専用のCPUであってもよいし、他のCPUとの兼用であってもよい。
【0115】
以上説明したように本実施形態のコンテンツ公開システム500によれば、不適切コンテンツが検出された際に、公開データを削除する機構が実現できるため、ネットワーク502を介してアクセスしてきた閲覧者は、不適切なデータが削除された公開データ記憶部530に格納されたデータのみ入手可能になるので、不適切なデータが一般に公開されることはない。したがって、本実施形態のコンテンツ公開システム500によれば、特定期間内に数多く重複して投稿された、オリジナルコンテンツの存在する、コピーとおぼしき投稿を検出することができ、不適切なコンテンツをみつけるためのベースとなるサンプルコンテンツ(辞書データ)を用意することなく、著作権的に不適切なコンテンツを自動的に検出するという、発明の目的を達成することができる。
【0116】
また、本実施形態のコンテンツ公開システム500によれば、不適切なコンテンツが検出されたとき、アップロードされたコンテンツを削除することにより、不適切なコンテンツが公開されることを防ぐことができる。
【0117】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0118】
たとえば、上記実施形態のコンテンツ公開システム500は、投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、上記実施形態の不適切コンテンツ検出装置(100〜300)によって検出された不適切なコンテンツをシステム管理者に提示する提示部(不図示)と、システム管理者が確認した後、システム管理者から削除指示を受け付ける受付部(不図示)と、削除指示に従い、不適切なコンテンツの削除を行う削除部(不図示)と、を有してもよい。
【0119】
また、上記実施形態のコンテンツ公開システム500は、投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、上記実施形態の不適切コンテンツ検出装置(100〜300)によって相互に類似していると判定されたコンテンツ数が、所定数より多いか否かを判定する判定部(不図示)と、相互に類似していると判定されたコンテンツ数が所定数より多い場合に、当該コンテンツへの利用者のアクセスを自動的に停止する制御部(不図示)と、を有することもできる。
【実施例1】
【0120】
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作の例を説明する。
図9は、本発明の不適切コンテンツ検出装置の利用のおおまかなイメージを模式的に示した図である。図9において、放送局610は、番組1の放送を行う。ユーザA、B、C、D、Eはそれぞれテレビ放送を端末装置620で受信して、番組1を視聴する(ステップS101、S111、S121、S131、S141)。ユーザA、B、Eは番組を録画して、一部を切り出し、動画V1、V2、V5をそれぞれ投稿サイトにアップロードしたとする(ステップS103、S113、S143)。ユーザC、Dは利用者所有のハンディカム等で撮影した独自コンテンツ(動画V3、V4)をそれぞれ投稿サイトに投稿したとする(ステップS123、S133)。投稿された動画はそれぞれネットワーク602を介して確認サーバ630が受け付ける。確認サーバ630で投稿された動画はそれぞれ不正判定が行われ、適切なコンテンツのみが公開サーバ640にて公開されることとなる。
【0121】
図9で、動画V1、動画V2、動画V5は同一のオリジナルコンテンツの一部を切り出したものであり、その中で同一フレームを含む場合、類似映像として検知可能である。一方、動画V3および動画V4はまったくの独自コンテンツであるため、他のどの動画とも類似しない(図中、動画V3と他の動画との非類似関係を点線の矢印で示し、動画V4の非類似関係については図示していない。)。この結果、図10のようになり、相互類似が確認された、動画V1、V2、V5(図中、実線の矢印で類似関係を示す。)は、不正コンテンツ候補として判定される。
【0122】
図11は代表的な類似のパタンをいくつか示している。
図11ではオリジナル動画Voの特定の部分を切り出している。図11中横軸は、時間軸を示しており、動画Va、Vb、Vc、Vdはオリジナルコンテンツの部分フレームを切り出した形(クリップ)になっている。
【0123】
たとえば、動画VaのVa1と動画VbのVb1は同一フレームを含み、動画VbのVb2と動画VcのVc1は同一フレームを含み、動画VcのVc2と動画VdのVd1は同一フレームを含む。このように同一フレームを含むため、動画VaとVb、VbとVc、VcとVdは相互に類似しているといえる。動画VaとVdは同一フレームが含まれておらず相互に類似しているとはいえないが、動画Va、Vb、Vc、Vdの相互の接続関係から、動画VaとVbとVcとVdで相互に類似していると判定可能である。
【0124】
図12は静止画の場合の例である。たとえば、オリジナル書籍702などをスキャナ等で取り込んだ後に投稿した場合(ステップS202)、図12のように多少は異なるが相互に類似したコンテンツ(画像710、720、730)が多数投稿される。なお、一致する画像もかなり含まれる。たとえば、画像710はオリジナル書籍702の画像712が傾いて含まれている。また、画像720はオリジナル書籍702の画像722の周囲にのりしろ724が含まれている。さらに、画像730は、オリジナル書籍702の画像の一部が切り取られた画像732が含まれている。
【0125】
これらのような画像も、特許文献2、特許文献3を初めとする各類似度照合エンジンにより、相互の類似コンテンツとして検出することは可能であるため、このような不正コンテンツを削除することが可能になる。音楽データほかでも同様である。
【0126】
この出願は、2007年10月19日に出願された日本出願特願2007−272968号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【0127】
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【Technical field】
[0001]
  The present invention relates to an inappropriate content detection method, an inappropriate content detection apparatus, a computer program thereof, and a content publication system in a posting site.
[Background]
[0002]
  One of the services deployed on the Internet is a bulletin board service or a video or still image posting service. In these services such as a bulletin board, an unspecified number of users can upload data (contents) such as images, sounds, and texts, and can freely view content uploaded by others.
[0003]
  If posting to such a bulletin board is left to the user of the posting, there is a risk that a large amount of so-called illegal contents and illegal contents that copy or imitate the copyrighted material of another person will be distributed. Currently, fraudulent content is operated in a framework in which the service provider periodically monitors or the copyright owner claims to the service provider and deletes the content. When it becomes, it is difficult to check all of them manually.
[0004]
  An example of a system for detecting inappropriate data from posted content is described in Patent Document 1. The system described in this document stores a sample of content that serves as a base for finding inappropriate content (images, audio, text, etc.) in advance, and newly submits content (images, audio, text, etc.) Each time, the similarity with the sample serving as a base for finding the stored inappropriate content is evaluated, and when it is evaluated as similar, it is extracted as inappropriate content.
[Patent Document 1]
JP 2006-293455 A
[Patent Document 2]
JP-A-8-180176
[Patent Document 3]
JP 2000-259832 A
[Patent Document 4]
JP 2000-339474 A
DISCLOSURE OF THE INVENTION
[0005]
  However, the method described in Patent Document 1 is based on a similarity to a content sample serving as a base for finding inappropriate content. In order to extract inappropriate content, inappropriate content is used. There was room for improvement in that it was necessary to prepare a sample of the content that would serve as the basis for finding this.
[0006]
  In particular, it detects so-called illegal content or illegal content that is a copy or imitation of another person's copyrighted material for data (content) such as images, sounds, and texts posted by an unspecified number of users on services such as bulletin boards. Therefore, it is difficult to prepare illegal image data as a sample in advance and deal with all illegal image data uploaded to the Internet such as a bulletin board every day.
[0007]
  As various kinds of contents are generated and distributed every day, it is extremely difficult to prepare all contents that should be protected by copyright as a sample of contents as a base of inappropriate contents in advance. Since the service body such as the bulletin board rarely creates the content, it is difficult to obtain the content that should be protected in advance, and the range of the content posted on the bulletin board is very diverse. Therefore, it can be said that it is very difficult to prepare a sample as a base for finding all the inappropriate content for every post.
[0008]
  An object of the present invention is to provide an inappropriate content detection method, an inappropriate content detection device, a computer program therefor, and a content publication system that solve the above-mentioned difficulty of preparing illegal content samples and dictionary data. There is.
[0009]
  The first inappropriate content detection method of the present invention includes:Inappropriate content detection device
  Accepts content posted by individual users,
  Using the plurality of accepted posted contents, the mutual similarity of the plurality of posted contents is calculated,
  Based on the mutual similarity, it is determined whether or not the posted content is copyrightable.
[0010]
  The second inappropriate content detection method of the present invention is:Inappropriate content detection device
  Accepts content posted by individual users,
  Using a plurality of received posted contents, whether or not the plurality of posted contents are similar to each other based on a mutual similarity calculated between the plurality of posted contents If they are similar, a group of contents that are similar to each other are detected as inappropriate copyrighted contents.
[0011]
  The inappropriate content detection apparatus of the present invention includes a content receiving unit that receives input of content posted from individual users,
  Similar content detection means for calculating a similarity between a plurality of the posted contents using the received plurality of received contents, and detecting a group of similar contents based on the similarity,
  And fraud determination means for determining copyright-inappropriate content based on the detected similar content group.
[0012]
  The computer program of the present invention is a computer program for causing a computer to realize an inappropriate content detection apparatus that detects content inappropriately copyrighted from content posted by individual users.
  In the computer,
  A procedure to accept input of content posted by individual users,
  Using the received plurality of posted content, calculating a plurality of similarities of the posted content, and detecting a content group similar to each other based on the similarity,
  A procedure for determining a copyright inappropriate content based on the detected similar content group is executed.
[0013]
  A first content publishing system of the present invention is a content publishing system that publishes posted content so that a user can view it,
  Presenting means for presenting the inappropriate content detected by the inappropriate content detection device to a system administrator;
  Receiving means for receiving a delete instruction from the system administrator after the system administrator confirms;
  Deletion means for deleting the inappropriate content in accordance with the deletion instruction.
[0014]
  A second content publishing system of the present invention is a content publishing system that publishes posted content so that a user can view it.
  Determination means for determining whether or not the number of contents determined to be similar to each other by the inappropriate content detection apparatus is greater than a predetermined number;
  And control means for automatically stopping the user's access to the content when the number of content determined to be similar to each other is greater than a predetermined number.
[0015]
  It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
[0016]
  The various components of the present invention do not necessarily have to be independent of each other. A plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
[0017]
  Moreover, although the plurality of procedures are described in order in the inappropriate content detection method and the computer program of the present invention, the order of description does not limit the order in which the plurality of procedures are executed. For this reason, when the inappropriate content detection method and computer program of the present invention are implemented, the order of the plurality of procedures can be changed within a range that does not hinder the contents.
[0018]
  Further, the plurality of procedures of the inappropriate content detection method and the computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.
[0019]
  According to the present invention, an inappropriate content detection method, an inappropriate content detection device, and a computer program therefor can efficiently detect inappropriate content from posted content without preparing illegal content samples and dictionary data in advance. , And a content publishing system.
[Brief description of the drawings]
[0020]
  The above-described object and other objects, features, and advantages will become more apparent from the preferred embodiments described below and the accompanying drawings.
[0021]
FIG. 1 is a block diagram showing a configuration of an inappropriate content detection apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart showing an example of a procedure for detecting inappropriate content in the embodiment of the present invention.
FIG. 3 is a block diagram showing a configuration of an inappropriate content detection apparatus according to an embodiment of the present invention.
FIG. 4 is a flowchart showing an example of a procedure for detecting inappropriate content according to the embodiment of the present invention.
FIG. 5 is a block diagram showing a configuration of an inappropriate content detection apparatus according to an embodiment of the present invention.
FIG. 6 is a flowchart showing an example of a procedure for detecting inappropriate content according to the embodiment of the present invention.
FIG. 7 is a block diagram showing a configuration of a confirmation server according to the embodiment of the present invention.
FIG. 8 is a diagram showing a configuration of a content publishing system according to an embodiment of the present invention.
FIG. 9 is a diagram schematically showing an example of the inappropriate content detection method of the present invention.
10 is a diagram schematically showing a similar situation of the content posted in FIG. 9. FIG.
FIG. 11 is a diagram schematically showing a similar example of a moving image.
FIG. 12 is a diagram schematically illustrating a similar example of a still image.
BEST MODE FOR CARRYING OUT THE INVENTION
[0022]
  Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
[0023]
(First embodiment)
  FIG. 1 is a functional block diagram showing a configuration of an inappropriate content detection apparatus 100 according to an embodiment of the present invention. The inappropriate content detection apparatus 100 according to the present embodiment calculates the degree of similarity between a plurality of posted contents, and determines whether the posted contents are copyrightally appropriate based on the degree of similarity between them. Judgment is performed. Further, in the present embodiment, the inappropriate content detection apparatus 100 determines whether or not the plurality of posted contents are similar to each other based on the similarity between the plurality of posted contents. In the case where the contents are similar to each other, a group of contents that are similar to each other is detected as inappropriate copyright.
[0024]
  Here, the similarity is a scale indicating whether or not at least two pieces of content are similar to each other. For example, as described in paragraphs 0010 and 0011 of Patent Document 1 or Patent Document 4 It can be calculated by a known technique.
[0025]
  The inappropriate content detection apparatus 100 according to the present embodiment calculates a similarity between a content input receiving unit 110 that receives input of posted content and a plurality of posted content, and is similar to each other based on the similarity. A similar content detection unit 134 that detects a content group to be detected, and a fraud determination unit 136 that determines content that is inappropriate for copyright based on the detected similar content group.
[0026]
  The inappropriate content detection apparatus 100 according to the present embodiment further includes a feature amount extraction unit 132 that extracts a feature amount from posted content, and the similar content detection unit 134 includes feature amounts of a plurality of posted content items. Are compared with each other, the mutual similarity of the feature quantities is calculated, and content groups similar to each other are detected.
[0027]
  More specifically, the inappropriate content detection apparatus 100 includes a content input reception unit 110, a content storage unit 120, a feature amount extraction unit 132, a similar content detection unit 134, a fraud determination unit 136, and an inappropriate content output. Part 140.
[0028]
  In addition, in the following each figure, the structure of the part which is not related to the essence of this invention is abbreviate | omitted.
  In addition, each component of the inappropriate content detection apparatus 100 includes an arbitrary computer CPU, memory, a program that realizes the components shown in the figure loaded in the memory, a storage unit such as a hard disk that stores the program, and a network connection. It is realized by any combination of hardware and software, with a focus on the interface. It will be understood by those skilled in the art that there are various modifications to the implementation method and apparatus. Each drawing described below shows a functional unit block, not a hardware unit configuration.
[0029]
  The content input reception unit 110 receives input of content posted one after another from individual users. As an example, the content input receiving unit 110 is a CPU (Central Processing Unit) equipped with a program that captures a message posted by a user via the Internet and extracts a content part. The input content is, for example, an image (moving image, still image), sound (sound, music), text data, or the like posted on a bulletin board or the like, and should be copyrighted.
[0030]
  The content to be input may be realized by directly capturing posts from the user, or once stored in an external server (not shown) or the like and then input sequentially or collectively. May be. The form of posting may be a form of uploading using a WWW browser, or a form of attaching content to e-mail or the like and sending it. Also, it may be registered in a specific FTP site.
[0031]
  The content storage unit 120 stores the content received by the content input reception unit 110. As an example, the content storage unit 120 is a storage device such as a hard disk or a flash memory, and may be a dedicated storage device or may be shared with other storage devices.
[0032]
  The feature amount extraction unit 132 extracts a feature amount for detecting coincidence between contents or for effectively calculating the similarity from each content received by the content input reception unit 110. As an example, the feature amount extraction unit 132 is a CPU equipped with a program that operates according to a predetermined rule. For example, if the content is video information, it may operate to extract a histogram of color information observed in each frame in the video, or if it is music information, operate to extract frequency components at each time May be.
[0033]
  As an example, the feature amount extraction unit 132 performs feature amount extraction by a procedure such as image index generation described in Patent Literature 2 or representative layout feature amount extraction described in Patent Literature 3. With respect to feature amount extraction, the feature amount described in Patent Document 2 or Patent Document 3 may be used as long as the degree of similarity or coincidence between contents such as images, video, or audio information can be calculated.
  The feature amount extracted by the feature amount extraction unit 132 may be stored in a feature amount storage unit (not shown), or extracted from the content stored in the content storage unit 120 for each similarity calculation. Also good.
[0034]
  The similar content detection unit 134 calculates the mutual similarity of the feature amounts extracted by the feature amount extraction unit 132 in order to perform similarity determination or coincidence detection between contents, and the similarity is equal to or greater than a predetermined threshold value. Detect content groups with degrees. The detected result is stored as similar content information in a temporary storage unit (not shown), and is output to the fraud determination unit 136 described later. As an example, the similar content detection unit 134 is a CPU equipped with a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs.
[0035]
  As a similar content detection method, for example, similar content detection based on a representative layout feature amount described in Patent Document 3 is used. When matching contents, if a match or similarity of a part or all of a frame in a video, a match or similarity of a part or whole of a still image, or a part or whole of a sound is detected, Patent Document 3 You may detect by methods other than.
[0036]
  That is, in the inappropriate content detection apparatus 100 according to the present embodiment, when the posted content is a video, the similar content detection unit 134 has some or all frame groups included in the video similar to each other. The similarity between the contents can be higher than a threshold. Further, when the posted content is a still image, the similar content detection unit 134 may determine that the similarity between the contents is higher than a threshold when a part or the whole of the still image is similar. it can. Furthermore, when the posted content includes sound or music, the similar content detection unit 134 determines that the similarity between the contents is higher than the threshold when the sound or part of the music or the whole phrase is similar. can do.
[0037]
  The fraud determination unit 136 determines the content fraud based on the similar content information detected by the similar content detection unit 134. As an example, the fraud determination unit 136 is a CPU equipped with a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs.
[0038]
  The inappropriate content output unit 140 receives the fraud determination result in the fraud determination unit 136 and outputs inappropriate content. As an example, the inappropriate content output unit 140 is a CPU equipped with a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs. As an example, the inappropriate content output unit 140 creates a list creation unit (not shown) that creates and outputs an inappropriate content list that lists inappropriate content determined as inappropriate content by the fraud determination unit 136. It can also be included.
[0039]
  A computer program for realizing various units (content input reception unit 110 to inappropriate content output unit 140) of the inappropriate content detection apparatus 100 as various functions is stored in a memory (not shown) used by the CPU. , Executed by the CPU.
[0040]
  The computer program according to the present embodiment is a computer program for causing a computer to realize an inappropriate content detection apparatus 100 that detects copyright inappropriate content from posted content. Procedure for accepting content input, procedure for extracting feature values from posted content, procedure for calculating the similarity of feature values by comparing feature values of multiple posted content, and calculation And a procedure for detecting a content group similar to each other based on the detected similarity, and a procedure for determining a copyright inappropriate content based on the detected similar content group. Yes.
[0041]
  The computer program is stored in, for example, a recording medium (memory) that can be read by a computer (CPU). As an example, the recording medium is a PROM (Programmable Read Only Memory), a hard disk, a DVD-ROM, a CD-ROM, an FD, or the like.
[0042]
  The operation of the inappropriate content detection apparatus 100 configured as described above according to this embodiment will be described below. FIG. 2 is a flowchart showing an example of the operation of the inappropriate content detection apparatus 100 of the present embodiment. Hereinafter, description will be made with reference to FIGS. 1 and 2.
[0043]
  First, input of a plurality of contents posted by the user is received by the content input receiving unit 110 (S11). Content may be input sequentially or a plurality of contents may be input together. The received content is stored in the content storage unit 120 (S13), and the feature amount extraction unit 132 extracts a feature amount for similarity calculation from each content received by the content input reception unit 110 (S15).
[0044]
  Then, the similar content detection unit 134 sequentially selects content pairs from the received content (S17), calculates the similarity of the selected content pair (S19), and the similarity is equal to or greater than a predetermined threshold. It is determined whether or not it is successful (S21). If the degree of similarity is equal to or greater than a predetermined threshold (Yes in S21), it is detected as similar content, and the detected content pair is stored in the temporary storage unit as mutual similar content information (S23).
[0045]
  Steps S17 to S23 are performed for all combinations of input contents (S25), and contents similar to each other are detected.
[0046]
  When detection of similar content is completed for all combinations (Yes in S25), the fraud determination unit 136 performs fraud determination based on the mutual similar content information stored in step S23 (S27). As an example, when more than a predetermined number of specific similar contents are detected, it is determined that these similar contents are illegal. As an example, if the predetermined number is two, all the contents stored in step S23 are determined to be inappropriate contents. When the predetermined number is N, based on the connection relationship of the content pair detected in step S21, N or more interconnections are detected, and the detected content is determined as inappropriate content.
[0047]
  Then, the inappropriate content output unit 140 outputs the content determined to be illegal (S29).
[0048]
  As described above, according to the inappropriate content detection apparatus 100 of this embodiment, it is inappropriate in terms of copyright without preparing sample content (dictionary data) as a base for finding inappropriate content. The object of the invention of efficiently and automatically detecting content can be achieved.
  Further, it is possible to efficiently determine the copyright appropriateness. It is possible to prevent inappropriate content from being published on a bulletin board or the like.
[0049]
  Inappropriate content that is infringing, there is original content such as TV recordings, magazines, CDs, DVDs, etc., and you can post part of the original content as it is, or download content posted by others and use it as it is There is a lot of duplication due to the characteristics of Appropriateness by evaluating similarity between posted content, detecting matching or duplication of posted video, still image, and sound, and detecting content with many duplicates as inappropriate copyrighted content Without preparing a content sample in advance, it becomes possible to determine the appropriateness of copyright and detect inappropriate content, thereby achieving the object of the present invention.
[0050]
(Second embodiment)
  FIG. 3 is a functional block diagram showing the configuration of the inappropriate content detection apparatus 200 according to the embodiment of the present invention. The inappropriate content detection apparatus 200 according to the present embodiment is different from the inappropriate content detection apparatus 100 according to the above-described embodiment in that the content is selected under a predetermined condition and the similarity is evaluated for the selected content.
[0051]
  In the inappropriate content detection apparatus 200 of the present embodiment, the similar content detection unit 234 has a content whose similarity is higher than a threshold value among a plurality of posted content among the content posted within a predetermined period. Are detected as content groups similar to each other, and the fraud determination unit 236 determines that the detected similar content groups are inappropriate content.
[0052]
  Further, in the inappropriate content detection apparatus 200 of the present embodiment, the similar content detection unit 234 selects a content based on a predetermined criterion from a plurality of posted content, and then determines the similarity between the selected content. The content group that is calculated and detects a content group having a degree of similarity higher than a threshold value among a predetermined number or more of content, and the fraud determination unit 236 determines that the detected content group is inappropriate content. For example, the inappropriate content detection apparatus 200 according to the present embodiment performs similarity evaluation for content posted in a predetermined period.
[0053]
  Here, the predetermined standard includes the date and time when the content is posted, the nationality of the poster who posted the content, the size of the posted content, and the like. These pieces of information are recorded in the content posting record, etc., and the content is selected based on the content posting record, that is, the posting time, the nationality of the poster, the size of the content, and the similarity between the selected content is determined. Calculate and detect inappropriate content.
[0054]
  The inappropriate content detection apparatus 200 according to this embodiment includes a feature amount storage unit 252 that stores the feature amount extracted by the feature amount extraction unit 232, and a feature of the content selected based on a predetermined criterion from the feature amount storage unit 252. An accumulated feature quantity selection unit 254 that acquires the quantity, and the similar content detection unit 234 calculates the mutual similarity of the feature quantities of the content selected by the accumulation feature quantity selection unit 254, and is similar to each other Is detected.
[0055]
  Furthermore, in the inappropriate content detection apparatus 200 of the present embodiment, the feature amount storage unit 252 stores the feature amount of the content posted for each posting, and the similar content detection unit 234 adds the newly posted new content. When similarity between new content is calculated for each of a plurality of accumulated content based on the feature amount of the content and the plurality of accumulated content, and there is content whose similarity to the new content is higher than a threshold The content group of the new content and the content whose similarity with the new content is higher than the threshold value is detected, and the fraud determination unit 236 determines the detected content group as inappropriate content.
[0056]
  Specifically, the inappropriate content detection apparatus 200 of the present embodiment includes the same content input reception unit 110, content storage unit 120, and inappropriate content output unit 140 as the inappropriate content detection apparatus 100 of the above embodiment. In addition, a feature amount extraction unit 232, a similar content detection unit 234, a fraud determination unit 236, a feature amount storage unit 252, and an accumulated feature amount selection unit 254 are provided.
[0057]
  The feature amount extraction unit 232 extracts a feature amount for effectively calculating a match or similarity between contents from the content. The extracted feature amount is stored in the feature amount storage unit 252. For example, when the content is video information, the feature amount extraction unit 232 may operate to extract a histogram of color information observed in each frame in the video, or in the case of music information, the frequency at each time It may operate to extract components.
[0058]
  As an example, the feature amount extraction unit 232 extracts feature amounts by a procedure such as image index generation described in Patent Document 2 described in the above embodiment or representative layout feature amount extraction described in Patent Document 3. I do. With respect to feature amount extraction, the feature amount described in Patent Document 2 or Patent Document 3 may be used as long as the degree of similarity or coincidence between contents such as images, video, or audio information can be calculated.
[0059]
  The feature amount storage unit 252 stores the feature amount extracted by the feature amount extraction unit 232. As an example, there is a storage device such as a hard disk or a flash memory, which may be a dedicated storage device, or may be used in combination with another storage device.
[0060]
  The accumulated feature amount selection unit 254 selects a feature amount whose similarity is to be calculated from the feature amount accumulation unit 252. As an example, the CPU includes a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs. As an example, the accumulated feature amount selection unit 254 selects the feature amount of the content posted during a predetermined period from the feature amounts accumulated in the feature amount accumulation unit 252 based on the posting date and time of the posting record. In addition, content to be evaluated for similarity may be selected in accordance with the poster of the content recorded in the posting record, the nationality of the poster, the size of the posted content, and the like.
[0061]
  The similar content detection unit 234 compares the feature amount of the received content or the feature amount of the accumulated content with each other to calculate the mutual similarity, and detects the similar content based on the similarity. As an example, the CPU includes a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs. When detecting similar content groups (content groups), as described in the above embodiment, a method of obtaining the omnibus similarity of all feature quantity pairs (steps S17 to S25 in FIG. 2) may be used. First of all, the method of calculating the similarity between the feature amount of the newly submitted input content and the accumulated feature amount, and calculating the similarity only when similar content is detected May be used.
[0062]
  That is, in the inappropriate content detection apparatus 200 of the present embodiment, the feature amount storage unit 252 stores the feature amount of the content that has been posted so far, and the similar content detection unit 234 has the newly posted new content. When similarity between new content is calculated for each of a plurality of accumulated content based on the feature amount of the content and the plurality of accumulated content, and there is content whose similarity to the new content is higher than a threshold Alternatively, a new content may be added to the accumulated content to calculate a mutual similarity, and a content group having a similarity higher than a threshold value among a predetermined number or more may be detected.
  That is, when there is no content whose similarity with the new content is higher than the threshold value, the content group need not be detected.
[0063]
  At this time, the similar content detection unit 234 may use only the content posted in a predetermined period as the accumulated content to be compared with the new content.
[0064]
  The fraud determination unit 236 determines whether the content is illegal based on the similar content information detected by the similar content detection unit 234. In the present embodiment, the fraud determination unit 236 determines that the detected similar content group is inappropriate content when the number of similar content groups detected by the similar content detection unit 234 is equal to or greater than a predetermined number. As an example, the fraud determination unit 236 is a CPU equipped with a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs.
[0065]
  The computer program for realizing the various units (content input receiving unit 110 to inappropriate content output unit 140, feature amount extraction unit 232 to accumulated feature amount selection unit 254) of the inappropriate content detection apparatus 200 as various functions is described above. Are stored in a memory (not shown) used by the CPU and executed by the CPU.
[0066]
  In the computer program of this embodiment, in addition to the procedure of the computer program of the above embodiment, among the content posted to the computer within a predetermined period, a predetermined number or more of the posted content has a threshold of mutual similarity It is described so as to further execute a procedure for detecting higher content as a content group similar to each other.
[0067]
  The operation of the inappropriate content detection apparatus 200 of the present embodiment configured as described above will be described below. FIG. 4 is a flowchart showing an example of the operation of the inappropriate content detection apparatus 200 of this embodiment. Hereinafter, a description will be given with reference to FIGS. 3 and 4.
[0068]
  In addition, in operation | movement of the inappropriate content detection apparatus 200 of this embodiment, since step S11, S13, and S29 of the flowchart of FIG. 2 are the same, description is abbreviate | omitted.
[0069]
  The feature amount extraction unit 232 extracts feature amounts for calculating similarity from each content input in step S11 (S31). The extracted feature amount is stored in the feature amount storage unit 252. Then, the accumulated feature amount selection unit 254 selects the feature amount of the reference content to be used for the mutual similarity evaluation from the feature amounts stored in advance in the feature amount accumulation unit 252 (S33). For example, as described above, the feature amount of the content posted in a predetermined period is selected based on the posting record.
[0070]
  Then, the similar content detection unit 234 calculates the similarity between the feature amounts obtained by adding the feature amount of the newly input content to the feature amount selected in step S33, and detects the similar content group. Perform (S35).
[0071]
  If the number of similar content groups detected in step S35 is equal to or greater than a predetermined number, the fraud determination unit 236 determines that the detected similar content group is fraudulent content (S37), and the inappropriate content output unit 140 The content determined to be illegal is output (S29).
[0072]
  As described above, according to the inappropriate content detection apparatus 200 of the present embodiment, it is possible to detect copies and open postings in which original content exists and which is posted many times within a specific period, It is possible to achieve the object of the invention to automatically detect copyright-inappropriate content without preparing sample content (dictionary data) as a base for finding appropriate content.
[0073]
(Third embodiment)
  FIG. 5 is a functional block diagram showing the configuration of the inappropriate content detection apparatus 300 according to the embodiment of the present invention. The inappropriate content detection apparatus 300 according to the present embodiment registers the inappropriate content detected as a dictionary with the inappropriate content detection apparatus 100 and the inappropriate content detection apparatus 200 according to the embodiment described above, and collates with the dictionary. It is different in that inappropriate content is detected by performing the operation, and when inappropriate content is detected, an alarm is presented to an administrator or the like.
[0074]
  The inappropriate content detection apparatus 300 according to the present embodiment includes an inappropriate content feature amount storage unit that uses inappropriate content determined by the fraud determination unit 236 as inappropriate or the feature amount of the inappropriate content as inappropriate content dictionary data. 312, an inappropriate content feature amount registration unit 314 stored in 312, a similar content detection unit 334 that detects inappropriate content by matching newly posted content with inappropriate content dictionary data, Is further provided.
[0075]
  Specifically, the inappropriate content detection device 300 of the present embodiment includes the same content input reception unit 110, content storage unit 120, inappropriate content output unit 140 as the inappropriate content detection device 100 of the above embodiment, and In addition to the same feature amount extraction unit 232, fraud determination unit 236, and feature amount storage unit 252 as the inappropriate content detection device 200 of the above embodiment, the similar content detection unit 334, the inappropriate content feature amount storage unit 312, an inappropriate content feature amount registration unit 314, and an alarm presentation unit 320.
[0076]
  The inappropriate content feature amount storage unit 312 stores the feature amount of content that has already been determined to be inappropriate content. As an example, there is a storage device such as a hard disk or a flash memory, which may be a dedicated storage device, or may be used in combination with another storage device.
[0077]
  The inappropriate content feature amount registration unit 314 registers the feature amount of the content determined to be inappropriate content in the inappropriate content feature amount storage unit 312. As an example, the CPU includes a program that operates according to a predetermined rule. For example, an operation is performed in which the feature amount of content determined to be unauthorized content is changed from the feature amount storage unit 252 to the inappropriate content feature amount storage unit 312. Further, the operation may be performed so as to newly register the feature amount of the copyrighted work content provided from a broadcasting station or the like.
[0078]
  The similar content detection unit 334 detects the similar content by calculating the mutual similarity of the feature amount of the input content or the feature amount of the accumulated content. As an example, the CPU includes a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs. As a method for calculating the similarity between feature quantities, for example, similar content detection based on representative layout feature quantities described in Patent Document 3 described in the above embodiment is used. When matching contents, if a match or similarity of a part or all of a frame in a video, a match or similarity of a part or whole of a still image, or a part or whole of a sound is detected, Patent Document 3 You may detect by methods other than.
[0079]
  The alarm presenting unit 320 presents an alarm to a content manager or the like when inappropriate content is detected. As an example, a monitor for presenting alarm text or video, a speaker for outputting sound, and the like can be given.
[0080]
  Various units of the inappropriate content detection apparatus 300 (content input reception unit 110 to inappropriate content output unit 140, feature amount extraction unit 232 to feature amount storage unit 252, inappropriate content feature amount storage unit 312 to similar content detection unit 334 ) As a variety of functions are stored in a memory (not shown) used by the CPU and executed by the CPU.
[0081]
  The computer program according to the present embodiment is a computer program according to the above-described embodiment, in addition to the procedure of the computer program according to the above-described embodiment. Stored in the inappropriate content feature amount storage unit 312 as inappropriate content dictionary data, and a procedure for detecting inappropriate content by matching newly posted content with inappropriate content dictionary data Are further executed.
[0082]
  The operation of the inappropriate content detection apparatus 300 configured as described above according to this embodiment will be described below. FIG. 6 is a flowchart illustrating an example of the operation of the inappropriate content detection apparatus 300 according to this embodiment. Hereinafter, a description will be given with reference to FIGS. 5 and 6.
[0083]
  In addition, in operation | movement of the inappropriate content detection apparatus 300 of this embodiment, since step S11 and S13 of the flowchart of FIG. 2 are the same, description is abbreviate | omitted.
[0084]
  The feature amount extraction unit 232 extracts a feature amount for calculating the similarity from each content input in step S11 (S41). The extracted feature amount is stored in the feature amount storage unit 252. Then, the similarity between the feature amount of the input content and the feature amount of each content stored in the inappropriate content feature amount storage unit 312 is calculated by the similar content detection unit 334 (S43).
[0085]
  When the similarity calculated in step S43 is equal to or greater than a predetermined threshold (Yes in S45), the fraud determination unit 236 determines that the input content having a feature amount with the similarity equal to or higher than the threshold is inappropriate content. (S51) The content judged inappropriate by the inappropriate content output unit 140 is output (S53). Then, the alarm presentation unit 320 raises an alarm of inappropriate content detection to the information manager (S55). The inappropriate content feature amount registration unit 314 registers the feature amount of the content newly determined as inappropriate content in the inappropriate content feature amount storage unit 312 (S57).
[0086]
  When the content calculated in step S43 is less than a predetermined threshold for all the content stored in the inappropriate content feature amount storage unit 312 (No in S45), the similar content detection unit 334 The feature amount pair is selected based on the feature amount of the input content and the feature amount stored in the feature amount storage unit 252 (S61), and the similarity between the selected feature amounts is calculated (S63). Then, the similar content detection unit 334 determines whether or not the similarity is greater than or equal to a predetermined threshold (S65). When the similarity is equal to or greater than a predetermined threshold (Yes in S65), the similar content detection unit 334 detects the similar feature amount pair, and stores it as similar information in the temporary storage unit (S67). This is performed for all combinations of feature quantities including the feature quantity from the input content and the feature quantity accumulated in the feature quantity storage unit 252 (S69), and the feature quantities of the contents that are similar to each other are extracted. .
[0087]
  When the similarity determination is completed for all the combinations (Yes in S69), the fraud determination unit 236 performs the fraud determination from the similar information between the feature amounts (S71). As an example, when the feature amount of specific mutually similar content is detected more than a predetermined number by adding the feature amount of the input content, the input content and the feature amount storage similar to the input content are accumulated. The content stored in the content storage unit 120 corresponding to the feature amount stored in the unit 252 is determined to be illegal. As an example, when the predetermined number is two, all contents including the input content newly detected in step S65 are determined to be inappropriate contents. When the predetermined number is N, based on the connection relation of the feature quantity pairs detected in step S65, the content corresponding to the detected feature quantity is detected by detecting N or more interconnections. It is determined as content.
[0088]
  Then, the inappropriate content output unit 140 outputs the content determined to be illegal (S73). Further, the alarm presenting unit 320 gives an alarm of inappropriate content detection to the information manager (S75). Then, the feature amount of the content newly determined as inappropriate content by the inappropriate content feature amount registration unit 314 is deleted from the feature amount storage unit 252, and the feature amount of the input content and the newly determined inappropriate content are determined. The feature amount of the content is registered in the inappropriate content feature amount storage unit 312 (S77).
[0089]
  In addition, in the inappropriate content detection apparatus 300, a generation unit (similar content detection unit 334, fraud determination unit 236) that generates inappropriate content dictionary data by calculating a degree of similarity between a predetermined period or a predetermined user or predetermined content. ) May be further provided. Thereby, dictionary data can be generated for each specific group such as a predetermined period or a predetermined user.
  In addition, the generation unit may periodically detect inappropriate content by calculating mutual similarity and generate or update inappropriate content dictionary data.
[0090]
  Further, by limiting the feature amount stored in the feature amount storage unit 252 to the feature amount of the content posted in the specific period, the mutual similarity of the content posted in the specific period is calculated. You can also Also, the feature quantity of copyright-protected content that is already detected as inappropriate content may be registered in the inappropriate content feature quantity storage unit 312 together.
[0091]
  In addition, the inappropriate content feature amount registration unit 314 does not automatically delete from the feature amount storage unit 252 or register in the inappropriate content feature amount storage unit 312, but after the content manager or the like confirms it. You may change so that it may register.
[0092]
  That is, the inappropriate content detection apparatus 300 presents the inappropriate content dictionary data generated by the inappropriate content feature amount registration unit 314 to the information manager, and the information manager confirms the inappropriate content dictionary data. An instruction for inappropriate content dictionary data to be held may be received, and only the specified inappropriate content dictionary data may be stored in the inappropriate content feature amount storage unit 312.
[0093]
  The threshold of similarity for judging mutual similarity, the number of cases when judging similar contents, or the feature quantity to be used are adaptively changed according to the situation such as genre, time, poster, etc., or the information manager manually It does not matter if there is a mechanism that can be adjusted with.
[0094]
  Further, the inappropriate content detection apparatus 300 may include a registration unit (not shown) that registers a predetermined user or predetermined content in advance. At this time, the fraud determination unit 236 may not determine that the content posted by the predetermined user or the predetermined content is inappropriate content.
[0095]
  As described above, according to the inappropriate content detection apparatus 300 of the present embodiment, when a predetermined number or more of high-similarities are detected in content posted within a predetermined period, those content groups are detected. Because it is considered inappropriate content, it is possible to detect duplicates and postings with original content that have been posted many times within a specific period, and sample content that serves as a base for finding inappropriate content Without preparing (dictionary data), it is possible to achieve the object of the invention to automatically and efficiently detect content inappropriate for copyright.
[0096]
  Inappropriate content that is infringing, there is original content such as TV recordings, magazines, CDs, DVDs, etc., and you can post part of the original content as it is, or download content posted by others and use it as it is Or because it has the property of being posted continuously in a short period of time, there are many short-term duplications. According to the present embodiment, similarity evaluation is performed between contents posted in a predetermined period, a match or overlap between posted videos, still images, and sounds is detected, and a predetermined number or more of duplicates are detected. By detecting a large amount of content as inappropriate content in terms of copyright, it becomes possible to detect inappropriate content without preparing a sample of inappropriate content in advance, and the object of the present invention can be achieved. .
[0097]
  In the present embodiment, only the feature amount of the inappropriate content is stored in the inappropriate content feature amount storage unit 312 and prepared as dictionary data. Therefore, compared to the case of preparing a sample of illegal content as dictionary data, Its capacity is very small.
[0098]
  Furthermore, according to the inappropriate content detection apparatus 300 of the present embodiment, when inappropriate content is detected, an alarm can be raised to prompt the information manager to confirm, thereby making the inappropriate content public. Can be prevented.
[0099]
(Fourth embodiment)
  FIG. 7 is a functional block diagram showing the configuration of the confirmation server 400 according to the embodiment of the present invention.
  The confirmation server 400 of this embodiment includes a communication unit 410, an alarm presenting unit 420, an administrator confirmation and registration unit 430, a storage unit 440, and a control unit 450.
[0100]
  The communication unit 410 exchanges contents and transmission information with a terminal (not shown) and other management devices (not shown) through the network 402. An example of the communication unit 410 is a dedicated board that performs communication via the network 402.
[0101]
  The alarm presenting unit 420 presents alarm information for detecting inappropriate content to the content manager. Examples of the alarm presenting unit 420 include a monitor for presenting alarm text or video, and a speaker for outputting sound information. Alternatively, a printer that creates a list in which alarm information is listed and prints it out may be used.
[0102]
  The administrator confirmation and registration unit 430 is for the administrator to confirm the inappropriate content detection result or newly register inappropriate content. As an example, the administrator confirmation and registration unit 430 may be a combination of a monitor that displays a result and an input device such as a keyboard and a touch panel. Alternatively, a printer that creates a list of inappropriate content detection results and prints them out may be used.
[0103]
  The accumulation unit 440 accumulates content, extracted feature amounts, feature amounts of inappropriate content, and the like. As an example, the storage unit 440 includes a storage device such as a hard disk or a flash memory, and may be a dedicated storage device or may be used in combination with another storage device.
[0104]
  The control unit 450 controls each element of the confirmation server 400 and the entire apparatus, and extracts inappropriate content such as content feature amount extraction and collation. The control unit 450 is a CPU loaded with a program as an example.
[0105]
  The communication unit 410, alarm presentation unit 420, administrator confirmation / registration unit 430, storage unit 440, and control unit 450 can be combined into a computer having a communication function, a storage function, a monitor function, and an input function. .
[0106]
  The control unit 450 receives a content from the communication unit 410 and inputs the content, an inappropriate content output unit 454 that outputs an inappropriate content detection result, and a feature amount of the content determined to be inappropriate content Is stored in the inappropriate content feature amount storage unit 444, the content management unit 460 that manages the content, the feature amount, and the inappropriate content feature amount stored in the storage unit 440, and the content Based on the detection result of the feature amount extraction unit 462 that extracts the feature amount from the content, the similar content detection unit 464 that extracts similar content by calculating the similarity between the feature amounts, and the similar content detection unit 464 The fraud determination unit 466 is included.
[0107]
  The storage unit 440 stores a content storage unit 442 that stores the input content, a feature amount storage unit 444 that stores the extracted content feature amount, and an inappropriate amount that stores the feature amount of the content determined to be inappropriate content Content feature amount storage unit 446.
[0108]
  Since the operation of the confirmation server 400 of the present embodiment configured as described above is the same as that of the inappropriate content detection apparatus 300 of the above-described embodiment, the description thereof is omitted.
[0109]
  According to the confirmation server 400 of the present embodiment, the same effects as those of the inappropriate content detection apparatus 300 of the above-described embodiment can be obtained.
[0110]
(Fifth embodiment)
  FIG. 8 is a diagram showing a configuration of a content publishing system 500 according to the embodiment of the present invention.
  A content publishing system 500 according to this embodiment is a system that provides a video publishing service, and includes a network 502, a plurality of terminal devices 510 connected on the network 502, and a confirmation server that detects and confirms inappropriate content. 520, a public data storage unit 530 for storing public data posted by the user, a public server 540 for publicizing public data, and a public data storage when the confirmation server 520 detects inappropriate content. A public data deletion unit 550 that deletes public data from the unit 530.
[0111]
  The terminal device 510 is a terminal device having a function of accessing the network 502 and can be realized by a general-purpose computer.
  The network 502 is a communication network such as the Internet that can transmit and receive data.
[0112]
  The confirmation server 520 has a function of accepting post data transmitted from the terminal device 510 via the network 502 and storing the post data in the public data storage unit 530, and among the post data stored in the public data storage unit 530. The server computer has a function of detecting and deleting inappropriate items. The confirmation server 520 can be realized by the confirmation server 400 described in the above embodiment of FIG. The inappropriate content output unit 522 can be realized by the same configuration as the inappropriate content output unit 454 of the confirmation server 400 in FIG.
[0113]
  The public server 540 is a server computer having a function of publishing data stored in the public data storage unit 530 through the network 502, and can be realized by a computer having a function as a normal WWW server.
[0114]
  The public data deletion unit 550 receives the detection result of the confirmation server 520 and deletes the public data in the public data storage unit 530. As an example, the CPU includes a program that operates according to a predetermined rule. It may be a dedicated CPU or may be shared with other CPUs.
[0115]
  As described above, according to the content publishing system 500 of the present embodiment, a mechanism for deleting public data when inappropriate content is detected can be realized. Since only the data stored in the public data storage unit 530 from which inappropriate data has been deleted can be obtained, the inappropriate data is not disclosed to the public. Therefore, according to the content publishing system 500 of the present embodiment, it is possible to detect copies and obscured posts in which a large number of original posts are duplicated within a specific period, and to find inappropriate content. It is possible to achieve the object of the invention to automatically detect copyright-inappropriate content without preparing sample content (dictionary data) as a base for the above.
[0116]
  Further, according to the content publishing system 500 of this embodiment, when inappropriate content is detected, it is possible to prevent the inappropriate content from being published by deleting the uploaded content.
[0117]
  As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
[0118]
  For example, the content publishing system 500 of the above-described embodiment is a content publishing system that publishes posted content so that a user can view it, and is detected by the inappropriate content detection device (100 to 300) of the above-described embodiment. Inappropriate according to the deletion instruction, the presentation unit (not shown) that presents inappropriate content to the system administrator, the reception unit (not shown) that receives a deletion instruction from the system administrator after confirmation by the system administrator A deletion unit (not shown) for deleting various contents.
[0119]
  The content publishing system 500 of the above embodiment is a content publishing system that publishes posted content so that a user can view it. The content publishing system 500 of the above embodiment mutually uses the inappropriate content detection device (100 to 300). When the number of contents determined to be similar is greater than a predetermined number and a determination unit (not shown) that determines whether or not the number of contents determined to be similar to each other, It can also have a control part (not shown) which stops a user's access to the contents automatically.
[Example 1]
[0120]
  Next, an example of the operation of the best mode for carrying out the present invention will be described using specific examples.
  FIG. 9 is a diagram schematically showing a rough image of using the inappropriate content detection apparatus of the present invention. In FIG. 9, a broadcast station 610 broadcasts program 1. Each of the users A, B, C, D, and E receives the television broadcast at the terminal device 620 and views the program 1 (steps S101, S111, S121, S131, and S141). Assume that users A, B, and E record a program, cut out a part, and upload videos V1, V2, and V5 to the posting site, respectively (steps S103, S113, and S143). It is assumed that users C and D have posted their own content (moving images V3 and V4) taken with a handycam or the like owned by the user on the posting site (steps S123 and S133). Each posted video is received by the confirmation server 630 via the network 602. Each moving image posted on the confirmation server 630 is determined to be fraudulent, and only appropriate content is published on the publication server 640.
[0121]
  In FIG. 9, a moving image V1, a moving image V2, and a moving image V5 are obtained by cutting out a part of the same original content, and when the same frame is included therein, it can be detected as a similar image. On the other hand, since the video V3 and the video V4 are completely unique contents, they are not similar to any other video (in the figure, the dissimilarity between the video V3 and another video is indicated by a dotted arrow, and the video V4 is dissimilar The relationship is not shown.) As a result, as shown in FIG. 10, the moving images V1, V2, and V5 (in which a similar relationship is indicated by a solid arrow in the figure) in which mutual similarities have been confirmed are determined as illegal content candidates.
[0122]
  FIG. 11 shows some typical similar patterns.
  In FIG. 11, a specific part of the original moving picture Vo is cut out. In FIG. 11, the horizontal axis indicates the time axis, and the moving images Va, Vb, Vc, and Vd are cut out from the partial frames of the original content (clips).
[0123]
  For example, Va1 of moving image Va and Vb1 of moving image Vb include the same frame, Vb2 of moving image Vb and Vc1 of moving image Vc include the same frame, and Vc2 of moving image Vc and Vd1 of moving image Vd include the same frame. Since the same frame is included in this way, it can be said that the moving images Va and Vb, Vb and Vc, and Vc and Vd are similar to each other. The videos Va and Vd do not include the same frame and are not similar to each other, but due to the mutual connection relationship between the videos Va, Vb, Vc, and Vd, the videos Va, Vb, Vc, and Vd are mutually connected. Can be determined to be similar.
[0124]
  FIG. 12 shows an example of a still image. For example, when an original book 702 or the like is posted after being captured by a scanner or the like (step S202), many similar contents (images 710, 720, and 730) that are slightly different but similar to each other are posted as shown in FIG. Note that matching images are also included considerably. For example, the image 710 includes the image 712 of the original book 702 tilted. The image 720 includes a margin 724 around the image 722 of the original book 702. Further, the image 730 includes an image 732 in which a part of the image of the original book 702 is cut out.
[0125]
  Images such as these can also be detected as mutual similar contents by each similarity matching engine such as Patent Document 2 and Patent Document 3, so that such illegal content can be deleted. become. The same applies to music data and others.
[0126]
  This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2007-272968 for which it applied on October 19, 2007, and takes in those the indications of all here.
[0127]
  While the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

Claims (50)

不適切コンテンツ検出装置が、
個々の利用者から投稿されたコンテンツを受け付け、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、
前記相互の類似度に基づき、前記投稿されたコンテンツが著作権的に適切であるか否かの判定を行う不適切コンテンツ検出方法。
Inappropriate content detection device
Accepts content posted by individual users,
Using the plurality of accepted posted contents, the mutual similarity of the plurality of posted contents is calculated,
An inappropriate content detection method for determining whether the posted content is copyrightally appropriate based on the mutual similarity.
不適切コンテンツ検出装置が、
個々の利用者から投稿されたコンテンツを受け付け、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツ間で算出された相互の類似度に基づき、複数の前記投稿されたコンテンツが相互に類似しているか否かを判定し、類似していた場合に、相互に類似しているコンテンツ群を著作権的に不適切なコンテンツとして検出する不適切コンテンツ検出方法。
Inappropriate content detection device
Accepts content posted by individual users,
Using a plurality of received posted contents, whether or not the plurality of posted contents are similar to each other based on a mutual similarity calculated between the plurality of posted contents And an inappropriate content detection method for detecting content groups similar to each other as copyright inappropriate content when they are similar.
請求項1または2に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
所定の期間内に投稿されたコンテンツのうち、所定数以上の前記投稿されたコンテンツ間で相互に前記類似度が閾値より高いと判定されたコンテンツ群を、前記不適切なコンテンツとして検出する不適切コンテンツ検出方法。
In the inappropriate content detection method according to claim 1 or 2 ,
The inappropriate content detection device is
Inappropriately detecting a content group in which the similarity is determined to be higher than a threshold value among a plurality of posted content among the posted content within a predetermined period as the inappropriate content Content detection method.
請求項1乃至3いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
複数の前記投稿されたコンテンツから、所定の基準でコンテンツを選択した後に、前記選択されたコンテンツ間で相互に類似度を算出し、所定数以上のコンテンツ間で、相互に類似度が閾値より高いと判定されたコンテンツ群を、前記不適切なコンテンツとして検出する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 3 ,
The inappropriate content detection device is
After selecting the content from a plurality of the posted content according to a predetermined criterion, the similarity between the selected content is calculated, and the similarity between the predetermined number or more is higher than a threshold value An inappropriate content detection method for detecting a content group determined to be the inappropriate content.
請求項1乃至4いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記投稿されたコンテンツから特徴量を抽出し、
前記投稿されたコンテンツの前記特徴量を、相互に照合することでコンテンツ相互の類似度を算出する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 4 ,
The inappropriate content detection device is
Extract features from the posted content,
An inappropriate content detection method for calculating a similarity between contents by comparing the feature quantities of the posted contents with each other.
請求項1乃至5いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記投稿されたコンテンツが映像であった際に、映像に含まれる一部または全部のフレーム群が相互に類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 5 ,
The inappropriate content detection device is
Inappropriate content detection method in which, when the posted content is a video, when some or all of the frame groups included in the video are similar to each other, the similarity between the contents is higher than a threshold value .
請求項1乃至6いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記投稿されたコンテンツが静止画像であった際に、静止画像の一部または全体が類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 6 ,
The inappropriate content detection device is
An inappropriate content detection method in which, when the posted content is a still image, the similarity between the contents is higher than a threshold when some or all of the still images are similar.
請求項1乃至7いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記投稿されたコンテンツが音響または音楽を含む際に、音響または音楽の一部または全体のフレーズが類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 7 ,
The inappropriate content detection device is
An inappropriate content detection method in which, when the posted content includes sound or music, the similarity between the contents is higher than a threshold when a part or the whole phrase of the sound or music is similar.
請求項1乃至8いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、特徴量蓄積部を備え、
前記不適切コンテンツ検出装置が、
投稿毎に前記投稿されたコンテンツの特徴量を抽出して前記特徴量蓄積部に蓄積しておき、新たに投稿された新規コンテンツと複数の前記蓄積されたコンテンツの前記特徴量に基づいて、複数の前記蓄積されたコンテンツ毎に、前記新規コンテンツとの類似度を算出し、前記新規コンテンツとの前記類似度が閾値より高いコンテンツが存在した場合に、前記新規コンテンツおよび、前記新規コンテンツとの前記類似度が閾値より高いと判定されたコンテンツのコンテンツ群を前記不適切なコンテンツと判定する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 8 ,
The inappropriate content detection apparatus includes a feature amount storage unit,
The inappropriate content detection device is
A feature amount of the posted content is extracted for each post and accumulated in the feature amount storage unit, and a plurality of new features are newly added and based on the feature amounts of the plurality of accumulated contents. For each of the stored content, a similarity with the new content is calculated, and when there is content whose similarity with the new content is higher than a threshold, the new content and the new content An inappropriate content detection method for determining a content group of content determined to have a similarity higher than a threshold as the inappropriate content.
請求項1乃至8いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、特徴量蓄積部を備え、
前記不適切コンテンツ検出装置が、
これまでに投稿されたコンテンツの特徴量を抽出して前記特徴量蓄積部に蓄積しておき、新たに投稿された新規コンテンツと複数の前記蓄積されたコンテンツの前記特徴量に基づいて、複数の前記蓄積されたコンテンツ毎に、前記新規コンテンツとの類似度を算出し、前記新規コンテンツとの前記類似度が閾値より高いコンテンツが存在した場合に、前記蓄積されたコンテンツに前記新規コンテンツを加えて、相互の前記類似度を算出し、所定数以上のコンテンツ間で相互に前記類似度が閾値より高いと判定されたコンテンツ群を、前記不適切なコンテンツとして検出する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 8 ,
The inappropriate content detection apparatus includes a feature amount storage unit,
The inappropriate content detection device is
The feature amount of the content that has been posted so far is extracted and stored in the feature amount storage unit. Based on the newly posted new content and the feature amount of the plurality of stored content, For each accumulated content, the similarity with the new content is calculated, and when there is content with the similarity higher than a threshold with the new content, the new content is added to the accumulated content. Inappropriate content detection method for calculating the mutual similarity and detecting a content group in which the similarity is determined to be higher than a threshold value among a predetermined number or more of content as the inappropriate content.
請求項10に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記新規コンテンツと比較する前記蓄積されたコンテンツとして、所定期間に投稿されたコンテンツのみを用いる不適切コンテンツ検出方法。
The inappropriate content detection method according to claim 10 ,
The inappropriate content detection device is
An inappropriate content detection method using only content posted in a predetermined period as the accumulated content to be compared with the new content.
請求項1乃至11いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、辞書記憶部を備え、
前記不適切コンテンツ検出装置が、
前記不適切と判定された投稿コンテンツまたは該コンテンツの特徴量を不適切コンテンツ辞書データとして前記辞書記憶部に記憶し、新規に投稿されたコンテンツに対して、前記記憶された不適切コンテンツ辞書データと照合を行うことにより前記不適切なコンテンツの検出を行う不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 11 ,
The inappropriate content detection device includes a dictionary storage unit,
The inappropriate content detection device is
The posted content determined to be inappropriate or the feature amount of the content is stored as inappropriate content dictionary data in the dictionary storage unit, and the newly stored content is stored with the stored inappropriate content dictionary data. An inappropriate content detection method for detecting the inappropriate content by performing collation.
請求項12に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
所定期間または利用者またはコンテンツに対する相互の類似度の算出により前記不適切コンテンツ辞書データを生成する不適切コンテンツ検出方法。
The inappropriate content detection method according to claim 12 ,
The inappropriate content detection device is
An inappropriate content detection method for generating the inappropriate content dictionary data by calculating a similarity between users or content for a predetermined period of time.
請求項12または13に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記相互の類似度算出による不適切コンテンツ検出を定期的に行い前記不適切コンテンツ辞書データの生成または更新を行う不適切コンテンツ検出方法。
The inappropriate content detection method according to claim 12 or 13 ,
The inappropriate content detection device is
An inappropriate content detection method that periodically detects inappropriate content by calculating the mutual similarity and generates or updates the inappropriate content dictionary data.
請求項12乃至14いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記不適切コンテンツ辞書データを情報管理者が確認し、前記情報管理者が指示した不適切コンテンツのみを保持するよう修正する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 12 to 14 ,
The inappropriate content detection device is
An inappropriate content detection method in which an information manager confirms the inappropriate content dictionary data, and corrects to retain only the inappropriate content instructed by the information manager.
請求項1乃至15いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、登録部を備え、
前記不適切コンテンツ検出装置が、
所定の利用者または所定のコンテンツを前記登録部に予め登録しておき、前記所定の利用者により投稿されたコンテンツまたは前記所定のコンテンツは前記不適切コンテンツとして検出しない不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 15 ,
The inappropriate content detection device includes a registration unit,
The inappropriate content detection device is
An inappropriate content detection method in which a predetermined user or predetermined content is registered in the registration unit in advance, and the content posted by the predetermined user or the predetermined content is not detected as the inappropriate content.
個々の利用者から投稿されたコンテンツの入力を受け付けるコンテンツ受付手段と、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、前記類似度に基づき、相互に類似するコンテンツ群を検出する類似コンテンツ検出手段と、
検出された前記類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する不正判定手段と、を備える不適切コンテンツ検出装置。
Content acceptance means for accepting input of content posted by individual users;
Similar content detection means for calculating a similarity between a plurality of the posted contents using the received plurality of received contents, and detecting a group of similar contents based on the similarity,
An inappropriate content detection apparatus comprising: fraud determination means for determining copyright-inappropriate content based on the detected similar content group.
請求項17に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、所定の期間内に投稿されたコンテンツのうち、所定数以上の前記投稿されたコンテンツ間で相互に前記類似度が閾値より高いコンテンツを前記相互に類似するコンテンツ群として検出し、
前記不正判定手段は、検出された前記類似するコンテンツ群を前記不適切なコンテンツと判定する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 17 ,
The similar content detection means detects, as content groups similar to each other, content having a similarity higher than a threshold value among a plurality of the posted content among the content posted within a predetermined period. And
The injustice determining unit is an inappropriate content detection apparatus that determines the detected similar content group as the inappropriate content.
請求項17または18に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、複数の前記投稿されたコンテンツから、所定の基準でコンテンツを選択した後に、前記選択されたコンテンツ間で相互に類似度を算出し、所定数以上のコンテンツ間で、相互に類似度が閾値より高いコンテンツ群を検出し、
前記不正判定手段は、検出された前記コンテンツ群を、前記不適切なコンテンツと判定する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 17 or 18 ,
The similar content detection means calculates a mutual similarity between the selected contents after selecting a content from a plurality of the posted contents based on a predetermined criterion, To detect content groups whose similarity is higher than the threshold,
The inappropriate content detection device, wherein the fraud determination means determines that the detected content group is the inappropriate content.
請求項17乃至19いずれか一項に記載の不適切コンテンツ検出装置において、
前記投稿されたコンテンツからその特徴量を抽出する特徴量抽出手段を備え、
前記類似コンテンツ検出手段は、複数の前記投稿されたコンテンツの前記特徴量を相互に照合して、前記特徴量の相互の類似度を算出し、前記類似度に基づいて、相互に類似するコンテンツ群を検出する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 17 to 19 ,
Comprising a feature amount extraction means for extracting the feature amount from the posted content;
The similar content detecting means collates the feature quantities of the plurality of posted contents with each other, calculates a mutual similarity of the feature quantities, and based on the similarity, a group of similar contents Inappropriate content detection device that detects
請求項20に記載の不適切コンテンツ検出装置において、
前記特徴量抽出手段によって抽出された前記特徴量を記憶する特徴量蓄積手段と、
前記特徴量蓄積手段から、所定の基準で選択されたコンテンツの特徴量を取得する蓄積特徴量選択手段と、を備え、
前記類似コンテンツ検出手段は、前記蓄積特徴量選択手段によって選択されたコンテンツの前記特徴量の相互の類似度を算出し、相互に類似するコンテンツを検出する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 20 ,
Feature quantity storage means for storing the feature quantity extracted by the feature quantity extraction means;
Accumulated feature quantity selection means for acquiring the feature quantity of the content selected on the basis of a predetermined standard from the feature quantity accumulation means,
The similar content detection unit is an inappropriate content detection apparatus that calculates a similarity between the feature amounts of the content selected by the accumulated feature amount selection unit and detects content similar to each other.
請求項17乃至21いずれか一項に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、前記投稿されたコンテンツが映像であった際に、映像に含まれる一部または全部のフレーム群が相互に類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 17 to 21 ,
The similar content detection means, when the posted content is a video, the similarity between the contents is higher than a threshold when some or all of the frame groups included in the video are similar to each other Inappropriate content detection device.
請求項17乃至22いずれか一項に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、前記投稿されたコンテンツが静止画像であった際に、静止画像の一部または全体が類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出装置。
The inappropriate content detection device according to any one of claims 17 to 22 ,
The similar content detection means is an inappropriate content in which, when the posted content is a still image, when a part or the whole of the still image is similar, the similarity between the contents is higher than a threshold value Detection device.
請求項17乃至23いずれか一項に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、前記投稿されたコンテンツが音響または音楽を含む際に、音響または音楽の一部または全体のフレーズが類似しているときに、コンテンツ間の類似度が閾値より高いとする不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 17 to 23 ,
When the posted content includes sound or music, the similar content detection unit assumes that the similarity between the contents is higher than a threshold when a part or the whole phrase of the sound or music is similar Inappropriate content detection device.
請求項21に記載の不適切コンテンツ検出装置において、
前記特徴量蓄積手段は、投稿毎に前記投稿されたコンテンツの前記特徴量を蓄積しておき、
前記類似コンテンツ検出手段は、新たに投稿された新規コンテンツと複数の前記蓄積されたコンテンツの前記特徴量に基づいて、複数の前記蓄積されたコンテンツ毎に、前記新規コンテンツとの類似度を算出し、前記新規コンテンツとの前記類似度が閾値より高いコンテンツが存在した場合に、前記新規コンテンツおよび、前記新規コンテンツとの前記類似度が閾値より高いコンテンツのコンテンツ群を検出し、
前記不正判定手段は、検出された前記コンテンツ群を前記不適切なコンテンツと判定する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 21 ,
The feature amount storage means stores the feature amount of the posted content for each posting,
The similar content detection means calculates a similarity with the new content for each of the plurality of accumulated contents based on the newly posted new content and the feature amount of the plurality of accumulated contents. , When there is content whose similarity with the new content is higher than a threshold, a content group of the new content and content with the similarity with the new content higher than the threshold is detected.
The injustice determination unit is an inappropriate content detection apparatus that determines the detected content group as the inappropriate content.
請求項21に記載の不適切コンテンツ検出装置において、
前記特徴量蓄積手段は、これまでに投稿されたコンテンツの前記特徴量を蓄積しておき、
前記類似コンテンツ検出手段は、新たに投稿された新規コンテンツと複数の前記蓄積されたコンテンツの前記特徴量に基づいて、複数の前記蓄積されたコンテンツ毎に、前記新規コンテンツとの類似度を算出し、前記新規コンテンツとの前記類似度が閾値より高いコンテンツが存在した場合に、前記蓄積されたコンテンツに前記新規コンテンツを加えて、相互の前記類似度を算出し、所定数以上のコンテンツ間で相互に前記類似度が閾値より高いコンテンツ群を検出し、
前記不正判定手段は、検出された前記コンテンツ群を前記不適切なコンテンツと判定する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 21 ,
The feature amount storage means stores the feature amount of the content posted so far,
The similar content detection means calculates a similarity with the new content for each of the plurality of accumulated contents based on the newly posted new content and the feature amount of the plurality of accumulated contents. When there is content whose similarity with the new content is higher than a threshold value, the new content is added to the accumulated content, and the mutual similarity is calculated. To detect a group of content whose similarity is higher than a threshold,
The injustice determination unit is an inappropriate content detection apparatus that determines the detected content group as the inappropriate content.
請求項26に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、前記新規コンテンツと比較する前記蓄積されたコンテンツとして、所定期間に投稿されたコンテンツのみを用いる不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 26 ,
The similar content detection unit is an inappropriate content detection device that uses only content posted in a predetermined period as the accumulated content to be compared with the new content.
請求項17乃至27いずれか一項に記載の不適切コンテンツ検出装置において、
前記不正判定手段で不適切と判定された前記不適切なコンテンツまたは該不適切なコンテンツの特徴量を不適切コンテンツ辞書データとして記憶する辞書記憶手段と、
新規に投稿されたコンテンツに対して、前記不適切コンテンツ辞書データと照合を行うことにより前記不適切なコンテンツの検出を行う不適切コンテンツ検出手段と、をさらに備える不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 17 to 27 ,
Dictionary storage means for storing the inappropriate content determined as inappropriate by the fraud determination means or the feature amount of the inappropriate content as inappropriate content dictionary data;
An inappropriate content detection apparatus further comprising inappropriate content detection means for detecting the inappropriate content by comparing newly posted content with the inappropriate content dictionary data.
請求項28に記載の不適切コンテンツ検出装置において、
所定期間または所定の利用者または所定のコンテンツに対する相互の類似度の算出により前記不適切コンテンツ辞書データを生成する生成手段をさらに備える不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 28 ,
An inappropriate content detection apparatus further comprising a generating unit that generates the inappropriate content dictionary data by calculating a similarity between a predetermined period or a predetermined user or predetermined content.
請求項29に記載の不適切コンテンツ検出装置において、
前記生成手段は、前記相互の類似度の算出による不適切コンテンツ検出を定期的に行い、前記不適切コンテンツ辞書データの生成または更新を行う不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 29 ,
The improper content detection apparatus, wherein the generation means periodically detects improper content by calculating the mutual similarity and generates or updates the improper content dictionary data.
請求項28乃至30いずれか一項に記載の不適切コンテンツ検出装置において、
前記不適切コンテンツ辞書データを情報管理者に提示し、該情報管理者が前記不適切コンテンツ辞書データを確認し、保持する不適切コンテンツ辞書データの指示を受け付け、指示された不適切コンテンツ辞書データのみを前記辞書記憶手段に記憶する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 28 to 30 ,
The inappropriate content dictionary data is presented to the information manager, and the information manager confirms the inappropriate content dictionary data and accepts an instruction for the inappropriate content dictionary data to be held. An inappropriate content detection apparatus for storing the content in the dictionary storage means.
請求項17乃至31いずれか一項に記載の不適切コンテンツ検出装置において、
所定の利用者または所定のコンテンツを予め登録する登録手段を備え、
前記不正判定手段は、前記所定の利用者により投稿されたコンテンツまたは前記所定のコンテンツは前記不適切なコンテンツと判定しない不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 17 to 31 ,
A registration unit for registering a predetermined user or predetermined content in advance;
The injustice determination unit is an inappropriate content detection apparatus in which the content posted by the predetermined user or the predetermined content is not determined as the inappropriate content.
コンピュータに、個々の利用者から投稿されたコンテンツから著作権的に不適切なコンテンツを検出する不適切コンテンツ検出装置を実現させるためのコンピュータプログラムであって、
前記コンピュータに、
個々の利用者から投稿されたコンテンツの入力を受け付ける手順と、
受け付けた複数の前記投稿されたコンテンツを用いて、複数の前記投稿されたコンテンツの相互の類似度を算出し、前記類似度に基づき、相互に類似するコンテンツ群を検出する手順、
検出された前記類似するコンテンツ群に基づき、著作権的に不適切なコンテンツを判定する手順、を実行させるためのコンピュータプログラム。
A computer program for causing a computer to implement an inappropriate content detection device that detects copyright inappropriate content from content posted by individual users,
In the computer,
A procedure to accept input of content posted by individual users,
Using the received plurality of posted content, calculating a plurality of similarities of the posted content, and detecting a content group similar to each other based on the similarity,
A computer program for executing a procedure for determining copyright-inappropriate content based on the detected similar content group.
請求項33に記載のコンピュータプログラムにおいて、
前記コンピュータに、
所定の期間内に投稿されたコンテンツのうち、所定数以上の前記投稿されたコンテンツ間で相互に前記類似度が閾値より高いコンテンツを前記相互に類似するコンテンツ群として検出する手順をさらに実行させるためのコンピュータプログラム。
34. A computer program according to claim 33 .
In the computer,
In order to further execute a procedure of detecting, as a content group similar to each other, content whose similarity is higher than a threshold value among a plurality of posted content among content posted within a predetermined period Computer program.
請求項33または34に記載のコンピュータプログラムにおいて、
前記コンピュータに、
前記投稿されたコンテンツからその特徴量を抽出する手順、
複数の前記投稿されたコンテンツの前記特徴量を相互に照合して、前記特徴量の相互の類似度を算出する手順、
算出された前記類似度に基づいて、前記相互に類似するコンテンツ群を検出する手順、をさらに実行させるためのコンピュータプログラム。
The computer program according to claim 33 or 34 ,
In the computer,
A procedure for extracting the feature amount from the posted content;
A procedure for comparing the feature quantities of a plurality of the posted content with each other and calculating a similarity between the feature quantities;
A computer program for further executing a procedure for detecting the content groups similar to each other based on the calculated similarity.
請求項33乃至35いずれか一項に記載のコンピュータプログラムにおいて、
前記コンピュータは、不適切コンテンツ辞書データを記憶する辞書記憶装置を備え、
前記コンピュータに、
前記不適切なコンテンツを判定する手順で不適切と判定された前記不適切なコンテンツまたは該不適切なコンテンツの特徴量を前記不適切コンテンツ辞書データとして前記辞書記憶装置に記憶する手順、
新規に投稿されたコンテンツに対して、前記不適切コンテンツ辞書データと照合を行うことにより前記不適切なコンテンツの検出を行う手順、をさらに実行させるためのコンピュータプログラム。
36. A computer program according to any one of claims 33 to 35 ,
The computer includes a dictionary storage device for storing inappropriate content dictionary data,
In the computer,
A procedure for storing the inappropriate content determined as inappropriate in the procedure for determining the inappropriate content or a feature amount of the inappropriate content in the dictionary storage device as the inappropriate content dictionary data;
A computer program for further executing a procedure of detecting the inappropriate content by collating the newly posted content with the inappropriate content dictionary data.
投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、
請求項17乃至32いずれか一項に記載の不適切コンテンツ検出装置によって検出された前記不適切なコンテンツをシステム管理者に提示する提示手段と、
前記システム管理者が確認した後、前記システム管理者から削除指示を受け付ける受付手段と、
前記削除指示に従い、前記不適切なコンテンツの削除を行う削除手段と、を備えるコンテンツ公開システム。
A content publishing system that publishes posted content so that users can view it.
Presenting means for presenting the inappropriate content detected by the inappropriate content detection device according to any one of claims 17 to 32 to a system administrator;
Receiving means for receiving a delete instruction from the system administrator after the system administrator confirms;
A content publishing system comprising: deletion means for deleting the inappropriate content in accordance with the deletion instruction.
投稿されたコンテンツを利用者が閲覧できるように公開するコンテンツ公開システムであって、
請求項17乃至32いずれか一項に記載の不適切コンテンツ検出装置によって相互に類似していると判定されたコンテンツ数が、所定数より多いか否かを判定する判定手段と、
相互に類似していると判定されたコンテンツ数が所定数より多い場合に、当該コンテンツへの利用者のアクセスを自動的に停止する制御手段と、を備えるコンテンツ公開システム。
A content publishing system that publishes posted content so that users can view it.
Determination means for determining whether or not the number of contents determined to be similar to each other by the inappropriate content detection apparatus according to any one of claims 17 to 32 is greater than a predetermined number;
And a control unit that automatically stops a user's access to the content when the number of content determined to be similar to each other is greater than a predetermined number.
請求項1乃至16いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記相互の類似度を算出するコンテンツは、著作権的に適切であるか否かが未確認の複数の投稿されたコンテンツである不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 16 ,
The inappropriate content detection device is
The inappropriate content detection method, wherein the content for calculating the degree of similarity is a plurality of posted content whose copyright is not appropriate.
請求項12乃至15いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
前記不適切コンテンツ辞書データとして、著作権コンテンツを前記辞書記憶部に記憶する不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 12 to 15 ,
The inappropriate content detection device is
An inappropriate content detection method for storing copyrighted content in the dictionary storage unit as the inappropriate content dictionary data.
請求項1乃至16、39、および40いずれか一項に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
受け付けた複数の前記投稿されたコンテンツの中から順次コンテンツ対を選択し、
選択された前記コンテンツ対の類似度を算出し、
算出された前記類似度が予め定められた閾値以上のコンテンツの件数を求め、
前記コンテンツの前記件数に基づいて、前記コンテンツが著作権的に適切であるか否かの判定を行う不適切コンテンツ検出方法。
The inappropriate content detection method according to any one of claims 1 to 16, 39, and 40 ,
The inappropriate content detection device is
Select content pairs sequentially from the plurality of accepted posted content,
Calculating the similarity of the selected content pair,
Find the number of content whose calculated similarity is equal to or greater than a predetermined threshold,
An inappropriate content detection method for determining whether or not the content is copyrightally appropriate based on the number of cases of the content.
請求項41に記載の不適切コンテンツ検出方法において、
前記不適切コンテンツ検出装置が、
算出された前記類似度が予め定められた閾値以上のコンテンツが、予め定められた件数以上検出された場合、検出されたコンテンツ対を類似コンテンツとして検出し、それらの類似コンテンツ群に対して、著作権的に不適切なコンテンツと判定する不適切コンテンツ検出方法。
The inappropriate content detection method according to claim 41 ,
The inappropriate content detection device is
When the content having the calculated similarity equal to or higher than a predetermined threshold is detected more than a predetermined number, the detected content pair is detected as similar content, and the similar content group Inappropriate content detection method for determining content that is not legally appropriate.
請求項17乃至32いずれか一項に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段が前記相互の類似度を算出するコンテンツは、著作権的に適切であるか否かが未確認の複数の投稿されたコンテンツである不適切コンテンツ検出装置。
The inappropriate content detection device according to any one of claims 17 to 32 ,
The inappropriate content detection apparatus in which the content for which the similar content detection unit calculates the mutual similarity is a plurality of posted content whose copyrights are not appropriate.
請求項28乃至31いずれか一項に記載の不適切コンテンツ検出装置において、
前記辞書記憶手段は、前記不適切コンテンツ辞書データとして、著作権コンテンツを記憶する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to any one of claims 28 to 31 ,
The dictionary storage means is an inappropriate content detection apparatus that stores copyrighted content as the inappropriate content dictionary data.
請求項17乃至32、43、および44いずれか一項に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、
前記受け付けた複数の前記投稿されたコンテンツの中から順次コンテンツ対を選択し、
選択された前記コンテンツ対の類似度を算出し、
算出された前記類似度が予め定められた閾値以上のコンテンツの件数を求め、
前記不正判定手段は、
前記コンテンツの前記件数に基づいて、前記コンテンツが著作権的に適切であるか否かの判定を行う不適切コンテンツ検出装置。
The inappropriate content detection device according to any one of claims 17 to 32, 43, and 44 ,
The similar content detection means includes
Select a content pair sequentially from the accepted plurality of posted content,
Calculating the similarity of the selected content pair,
Find the number of content whose calculated similarity is equal to or greater than a predetermined threshold,
The fraud determination means includes
An inappropriate content detection apparatus that determines whether or not the content is copyrightally appropriate based on the number of cases of the content.
請求項45に記載の不適切コンテンツ検出装置において、
前記類似コンテンツ検出手段は、算出された前記類似度が予め定められた閾値以上のコンテンツが、予め定められた件数以上検出された場合、検出されたコンテンツ対を類似コンテンツとして検出し、
前記不正判定手段は、それらの類似コンテンツ群に対して、著作権的に不適切なコンテンツと判定する不適切コンテンツ検出装置。
The inappropriate content detection apparatus according to claim 45 ,
The similar content detection means detects the detected content pair as similar content when the content with the calculated similarity equal to or greater than a predetermined threshold is detected more than a predetermined number,
The injustice determination unit is an inappropriate content detection apparatus that determines that the similar content group is copyright inappropriate content.
請求項33乃至36いずれか一項に記載のコンピュータプログラムにおいて、
前記相互に類似するコンテンツ群を検出する手順で、前記相互の類似度を算出するコンテンツは、著作権的に適切であるか否かが未確認の複数の投稿されたコンテンツであるコンピュータプログラム。
A computer program according to any one of claims 33 to 36 ,
A computer program comprising a plurality of posted contents whose copyrights are unconfirmed as to whether or not the contents whose mutual similarity is calculated in the procedure of detecting the content groups similar to each other.
請求項36に記載のコンピュータプログラムにおいて、
前記コンピュータに、
前記不適切コンテンツ辞書データとして、著作権コンテンツを前記辞書記憶装置に記憶する手順をさらに実行させるためのコンピュータプログラム。
The computer program according to claim 36 ,
In the computer,
A computer program for further executing a procedure of storing copyrighted content in the dictionary storage device as the inappropriate content dictionary data.
請求項33乃至36、47、および48いずれか一項に記載のコンピュータプログラムにおいて、
前記コンピュータに
受け付けた複数の前記投稿されたコンテンツの中から順次コンテンツ対を選択する手順、
選択された前記コンテンツ対の類似度を算出する手順、
算出された前記類似度が予め定められた閾値以上のコンテンツの件数を求める手順、
前記コンテンツの前記件数に基づいて、前記コンテンツが著作権的に適切であるか否かの判定を行う手順をさらに実行させるためのコンピュータプログラム。
A computer program according to any one of claims 33 to 36, 47 and 48 ,
In the computer ,
A procedure for sequentially selecting a content pair from a plurality of the posted content received;
A procedure for calculating the similarity of the selected content pair;
A procedure for obtaining the number of contents whose calculated similarity is equal to or greater than a predetermined threshold;
A computer program for further executing a procedure for determining whether or not the content is copyrightally appropriate based on the number of cases of the content.
請求項49に記載のコンピュータプログラムにおいて、
前記コンピュータに、
算出された前記類似度が予め定められた閾値以上のコンテンツが、予め定められた件数以上検出された場合、検出されたコンテンツ対を類似コンテンツとして検出する手順、
それらの類似コンテンツ群に対して、著作権的に不適切なコンテンツと判定する手順をさらに実行させるためのコンピュータプログラム。
50. A computer program according to claim 49 .
In the computer,
A procedure for detecting a detected content pair as a similar content when the calculated similarity is equal to or greater than a predetermined threshold,
A computer program for causing the similar content group to further execute a procedure for determining that the content is inappropriate in terms of copyright.
JP2009537912A 2007-10-19 2008-10-14 Inappropriate content detection method and apparatus, computer program thereof, and content publishing system Active JP5051237B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009537912A JP5051237B2 (en) 2007-10-19 2008-10-14 Inappropriate content detection method and apparatus, computer program thereof, and content publishing system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007272968 2007-10-19
JP2007272968 2007-10-19
JP2009537912A JP5051237B2 (en) 2007-10-19 2008-10-14 Inappropriate content detection method and apparatus, computer program thereof, and content publishing system
PCT/JP2008/002899 WO2009050877A1 (en) 2007-10-19 2008-10-14 Method and apparatus for detecting inappropriate content, their computer program, and content publishing system

Publications (2)

Publication Number Publication Date
JPWO2009050877A1 JPWO2009050877A1 (en) 2011-02-24
JP5051237B2 true JP5051237B2 (en) 2012-10-17

Family

ID=40567164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009537912A Active JP5051237B2 (en) 2007-10-19 2008-10-14 Inappropriate content detection method and apparatus, computer program thereof, and content publishing system

Country Status (2)

Country Link
JP (1) JP5051237B2 (en)
WO (1) WO2009050877A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021235846A1 (en) * 2020-05-19 2021-11-25 주식회사 코클리어닷에이아이 Device for detecting music data from video contents, and method for controlling same

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012528378A (en) * 2009-05-29 2012-11-12 ムレカ カンパニー,リミテッド Multimedia content file management system and method using genetic information
JP5207402B2 (en) * 2009-09-30 2013-06-12 キヤノンマーケティングジャパン株式会社 Information processing apparatus, information processing method, and program
JP5780898B2 (en) * 2011-09-22 2015-09-16 株式会社電通 Information providing apparatus, information providing method, and information providing program
JP5459422B2 (en) * 2013-02-14 2014-04-02 キヤノンマーケティングジャパン株式会社 Information processing apparatus, control method, and program
CN110321931A (en) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 Original content referee method and device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180176A (en) * 1994-10-27 1996-07-12 Nec Corp Image storage/control device, image index generating method and image index generator
JP2000259832A (en) * 1999-01-06 2000-09-22 Nec Corp Image feature amount generator, image retrieval device and generation method and retrieval method therefor
JP2000339474A (en) * 1999-05-27 2000-12-08 Nec Corp Device and method for calculating similarity of moving image
JP2003242281A (en) * 2002-02-19 2003-08-29 Sony Corp Use right control system, use right control device, method for controlling use right, programs therefor, and program recording media
JP2006293455A (en) * 2005-04-06 2006-10-26 Dainippon Printing Co Ltd Invalid data confirmation system
JP2007096608A (en) * 2005-09-28 2007-04-12 Yafoo Japan Corp Unauthorized image detection apparatus, method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180176A (en) * 1994-10-27 1996-07-12 Nec Corp Image storage/control device, image index generating method and image index generator
JP2000259832A (en) * 1999-01-06 2000-09-22 Nec Corp Image feature amount generator, image retrieval device and generation method and retrieval method therefor
JP2000339474A (en) * 1999-05-27 2000-12-08 Nec Corp Device and method for calculating similarity of moving image
JP2003242281A (en) * 2002-02-19 2003-08-29 Sony Corp Use right control system, use right control device, method for controlling use right, programs therefor, and program recording media
JP2006293455A (en) * 2005-04-06 2006-10-26 Dainippon Printing Co Ltd Invalid data confirmation system
JP2007096608A (en) * 2005-09-28 2007-04-12 Yafoo Japan Corp Unauthorized image detection apparatus, method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021235846A1 (en) * 2020-05-19 2021-11-25 주식회사 코클리어닷에이아이 Device for detecting music data from video contents, and method for controlling same

Also Published As

Publication number Publication date
JPWO2009050877A1 (en) 2011-02-24
WO2009050877A1 (en) 2009-04-23

Similar Documents

Publication Publication Date Title
US10999623B2 (en) Providing visual content editing functions
JP6903751B2 (en) Systems and methods for identifying matching content
CN106599208B (en) Content sharing method and user client
JP5819456B2 (en) Content syndication in web-based media via ad tags
KR101816113B1 (en) Estimating and displaying social interest in time-based media
CN1538351B (en) Method and computer for generating visually representative video thumbnails
WO2020012220A1 (en) In the event of selection of message, invoking camera to enabling to capture media and relating, attaching, integrating, overlay message with/on/in captured media and send to message sender
JP5051237B2 (en) Inappropriate content detection method and apparatus, computer program thereof, and content publishing system
US20080319844A1 (en) Image Advertising System
US20150046537A1 (en) Retrieving video annotation metadata using a p2p network and copyright free indexes
US20110246471A1 (en) Retrieving video annotation metadata using a p2p network
US9325691B2 (en) Video management method and video management system
KR20140093974A (en) Image annotation method and system
CN104813673A (en) Sharing content-synchronized ratings
CN103988496A (en) Method and apparatus for creating composite video from multiple sources
KR20190042984A (en) System for monitoring digital works distribution
US20100205276A1 (en) System and method for exploiting a media object by a fruition device
US9152707B2 (en) System and method for creating and providing media objects in a navigable environment
US20090083141A1 (en) Methods, systems, and computer program products for detecting and predicting user content interest
JP2010266940A (en) Information censorship system, information disclosure server, device, method and program for censoring information
KR102213373B1 (en) Apparatus and method for blocking harmful contents using metadata
JP2006259893A (en) Object recognizing system, computer program and terminal device
CN111885139B (en) Content sharing method, device and system, mobile terminal and server
JP2006350550A (en) Album content automatic preparation method and system
Yu et al. Interactive broadcast services for live soccer video based on instant semantics acquisition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120709

R150 Certificate of patent or registration of utility model

Ref document number: 5051237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3