JP6762678B2 - 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム - Google Patents
違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム Download PDFInfo
- Publication number
- JP6762678B2 JP6762678B2 JP2018059681A JP2018059681A JP6762678B2 JP 6762678 B2 JP6762678 B2 JP 6762678B2 JP 2018059681 A JP2018059681 A JP 2018059681A JP 2018059681 A JP2018059681 A JP 2018059681A JP 6762678 B2 JP6762678 B2 JP 6762678B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- illegal
- candidate
- query generation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 79
- 238000001514 detection method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 18
- 238000013519 translation Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000013179 statistical model Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008602 contraction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003071 parasitic effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/232—Content retrieval operation locally within server, e.g. reading video streams from disk arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/254—Management at additional data server, e.g. shopping server, rights management server
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/101—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM] by binding digital rights to specific entities
- G06F21/1015—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM] by binding digital rights to specific entities to users
Description
11 クエリ生成用辞書作成部
12 クエリ生成用辞書記憶部
13 検索クエリ生成規則記憶部
14 検索クエリ生成部
15 照合候補取得部
16 コンテンツプロフィール取得部
17 例外コンテンツ除去部
18 フィッシングコンテンツ検知部
19 検知済み違法コンテンツ除去部
20 違法確度推定モデル生成部
21 違法確度推定モデル記憶部
22 照合優先度計算部
23 照合用パラメータ設定部
24 コンテンツDL・照合部
25 クエリ生成用辞書更新部
26 フィッシングコンテンツ更新部
27 違法コンテンツプロフィール更新部
28 違法確度推定モデル更新部
Claims (7)
- 正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、
前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するクエリ生成用辞書作成部と、
前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成する検索クエリ生成部と、
を備え、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記クエリ生成用辞書作成部は、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記検索クエリ生成部は、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成することを特徴とする違法コンテンツ探索装置。 - 請求項1に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記関連語句をタイトルに含むコンテンツの数に対する、前記関連語句をタイトルに含む前記違法コンテンツの数の比率である違法コンテンツ率を計算し、前記関連語句に対応付けて前記違法コンテンツ率を前記クエリ生成用辞書に登録し、
前記検索クエリ生成部は、前記違法コンテンツ率に基づいて、前記検索クエリの生成に用いる関連語句を選択することを特徴とする請求項1に記載の違法コンテンツ探索装置。 - 請求項1又は2に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルに含まれる語句の、前記クエリ生成用辞書に登録されている前記関連語句との編集距離を計算し、前記編集距離が所定値以下である語句を前記関連語句として前記クエリ生成用辞書に登録することを特徴とする違法コンテンツ探索装置。 - 請求項3に記載の違法コンテンツ探索装置において、
前記クエリ生成用辞書作成部は、前記違法コンテンツのタイトルに含まれる語句のうち出現頻度が所定値より高い語句について、前記編集距離を計算することを特徴とする違法コンテンツ探索装置。 - 請求項1から4のいずれか一項に記載の違法コンテンツ探索装置において、
前記検索クエリ生成部により生成された検索クエリに基づき、コンテンツ取得元を検索し、前記検索により得られた、前記違法コンテンツの候補である候補コンテンツを識別する識別情報を取得する照合候補取得部と、
前記照合候補取得部により識別情報が取得された候補コンテンツのプロフィールを取得するコンテンツプロフィール取得部と、
前記コンテンツプロフィール取得部により取得されたプロフィールに基づき、前記候補コンテンツの中から、ユーザの閲覧を誘導する非違法なコンテンツであるフィッシングコンテンツを検知するフィッシングコンテンツ検知部と、
前記コンテンツプロフィール取得部により取得されたプロフィールに基づき、検知済みの違法コンテンツのプロフィールと同一性を有するプロフィールの候補コンテンツである推定違法コンテンツを検知する検知済み違法コンテンツ除去部と、
前記照合候補取得部により識別情報が取得された候補コンテンツのうち、前記フィッシングコンテンツおよび前記推定違法コンテンツを除く各候補コンテンツについて、前記各候補コンテンツのプロフィールに基づいて、前記各候補コンテンツが前記違法コンテンツであるか否かを判定するにあたっての優先度を計算する照合優先度計算部と、
前記照合優先度計算部により計算された優先度順に、コンテンツ取得元から候補コンテンツを取得し、該取得した候補コンテンツと前記正規コンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを判定するコンテンツDL・照合部と、を備えることを特徴とする違法コンテンツ探索装置。 - 正規コンテンツの権利を有さない非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索方法において、
クエリ生成用辞書作成部が、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトルに含まれる語句に関連する関連語句を抽出し、該抽出した関連語句を、前記違法コンテンツの検索に用いる検索クエリを生成するためのクエリ生成用辞書に登録するステップと、
検索クエリ生成部が、前記クエリ生成用辞書に登録された前記関連語句を用いた検索クエリを生成するステップと、
を含み、
前記クエリ生成用辞書に登録ステップでは、前記違法コンテンツのタイトルから、前記正規コンテンツのタイトル、又は前記クエリ生成用辞書に登録されている関連語句と共起する頻度が所定値以上である共起語句を抽出し、前記共起語句が前記正規コンテンツのタイトルとは異なる言語である場合に、前記共起語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記クエリ生成用辞書に登録するステップでは、前記正規コンテンツのタイトルを異なる言語に翻訳し、翻訳の際には、類語辞典から類似の意味を有する単語を抽出して翻訳に用い、翻訳した語句を前記関連語句として前記クエリ生成用辞書に登録し、
前記検索クエリを生成するステップでは、探索する前記違法コンテンツのジャンルに応じた、前記関連語句および前記正規コンテンツに付随するメタ情報に含まれる語句の組み合わせにより前記検索クエリを生成することを特徴とする違法コンテンツ探索方法。 - 請求項1から5のいずれか一項に記載の違法コンテンツ探索装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018059681A JP6762678B2 (ja) | 2018-03-27 | 2018-03-27 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
US17/041,060 US20210026930A1 (en) | 2018-03-27 | 2019-02-27 | Illegal content search device, illegal content search method, and program |
PCT/JP2019/007497 WO2019187920A1 (ja) | 2018-03-27 | 2019-02-27 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018059681A JP6762678B2 (ja) | 2018-03-27 | 2018-03-27 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019174926A JP2019174926A (ja) | 2019-10-10 |
JP6762678B2 true JP6762678B2 (ja) | 2020-09-30 |
Family
ID=68061373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018059681A Active JP6762678B2 (ja) | 2018-03-27 | 2018-03-27 | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210026930A1 (ja) |
JP (1) | JP6762678B2 (ja) |
WO (1) | WO2019187920A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740381B2 (en) * | 2018-07-18 | 2020-08-11 | International Business Machines Corporation | Dictionary editing system integrated with text mining |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677505B2 (en) * | 2000-11-13 | 2014-03-18 | Digital Doors, Inc. | Security system with extraction, reconstruction and secure recovery and storage of data |
US7523138B2 (en) * | 2007-01-11 | 2009-04-21 | International Business Machines Corporation | Content monitoring in a high volume on-line community application |
JP4330036B2 (ja) * | 2007-05-29 | 2009-09-09 | 讀賣テレビ放送株式会社 | 画像情報取得装置、その方法及びプログラム |
US8131708B2 (en) * | 2008-06-30 | 2012-03-06 | Vobile, Inc. | Methods and systems for monitoring and tracking videos on the internet |
US8806615B2 (en) * | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
EP2650805B1 (en) * | 2010-11-10 | 2017-08-30 | Rakuten, Inc. | Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium |
JP6140735B2 (ja) * | 2013-01-09 | 2017-05-31 | 株式会社野村総合研究所 | アクセス制御装置、アクセス制御方法、およびプログラム |
WO2017049045A1 (en) * | 2015-09-16 | 2017-03-23 | RiskIQ, Inc. | Using hash signatures of dom objects to identify website similarity |
US10404723B1 (en) * | 2016-06-08 | 2019-09-03 | SlashNext, Inc. | Method and system for detecting credential stealing attacks |
KR101800373B1 (ko) * | 2016-12-30 | 2017-11-22 | (주)엠더블유스토리 | 불법 콘텐츠 검색 시스템 및 그 방법 |
US10764313B1 (en) * | 2017-01-24 | 2020-09-01 | SlashNext, Inc. | Method and system for protection against network-based cyber threats |
US10536482B2 (en) * | 2017-03-26 | 2020-01-14 | Microsoft Technology Licensing, Llc | Computer security attack detection using distribution departure |
US11146395B2 (en) * | 2017-10-04 | 2021-10-12 | Amir Keyvan Khandani | Methods for secure authentication |
US11429712B2 (en) * | 2018-07-24 | 2022-08-30 | Royal Bank Of Canada | Systems and methods for dynamic passphrases |
US11494380B2 (en) * | 2019-10-18 | 2022-11-08 | Splunk Inc. | Management of distributed computing framework components in a data fabric service system |
EP4139801A1 (en) * | 2020-04-23 | 2023-03-01 | Abnormal Security Corporation | Detection and prevention of external fraud |
-
2018
- 2018-03-27 JP JP2018059681A patent/JP6762678B2/ja active Active
-
2019
- 2019-02-27 US US17/041,060 patent/US20210026930A1/en active Pending
- 2019-02-27 WO PCT/JP2019/007497 patent/WO2019187920A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210026930A1 (en) | 2021-01-28 |
JP2019174926A (ja) | 2019-10-10 |
WO2019187920A1 (ja) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
US8630972B2 (en) | Providing context for web articles | |
US20090083260A1 (en) | System and Method for Providing Community Network Based Video Searching and Correlation | |
US10678781B2 (en) | Repairing a link based on an issue | |
US20100274667A1 (en) | Multimedia access | |
US8122022B1 (en) | Abbreviation detection for common synonym generation | |
US20140201180A1 (en) | Intelligent Supplemental Search Engine Optimization | |
US20090094189A1 (en) | Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
US10691734B2 (en) | Searching multilingual documents based on document structure extraction | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
JP6876649B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
JP6760987B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム | |
US9183297B1 (en) | Method and apparatus for generating lexical synonyms for query terms | |
JP6762678B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム | |
JP6830917B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
JP6632564B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
JP6530002B2 (ja) | コンテンツ探索装置、コンテンツ探索方法、プログラム | |
Do et al. | Movie indexing and summarization using social network techniques | |
Adikara et al. | Movie recommender systems using hybrid model based on graphs with co-rated, genre, and closed caption features | |
JP6625087B2 (ja) | 違法コンテンツ探索装置及び違法コンテンツ探索方法 | |
JP6621437B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
US20230401389A1 (en) | Enhanced Natural Language Processing Search Engine for Media Content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6762678 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |