JP6632945B2 - 重複検出装置、重複検出方法及び重複検出プログラム - Google Patents

重複検出装置、重複検出方法及び重複検出プログラム Download PDF

Info

Publication number
JP6632945B2
JP6632945B2 JP2016151729A JP2016151729A JP6632945B2 JP 6632945 B2 JP6632945 B2 JP 6632945B2 JP 2016151729 A JP2016151729 A JP 2016151729A JP 2016151729 A JP2016151729 A JP 2016151729A JP 6632945 B2 JP6632945 B2 JP 6632945B2
Authority
JP
Japan
Prior art keywords
block
registration
content
hash value
reduced data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016151729A
Other languages
English (en)
Other versions
JP2018022258A (ja
Inventor
バス オニバン
バス オニバン
モハンマド シャーリア ローマン
モハンマド シャーリア ローマン
清本 晋作
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016151729A priority Critical patent/JP6632945B2/ja
Publication of JP2018022258A publication Critical patent/JP2018022258A/ja
Application granted granted Critical
Publication of JP6632945B2 publication Critical patent/JP6632945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、コンテンツの重複を検出する装置、方法及びプログラムに関する。
従来、写真、絵画、音楽などのコンテンツの重複(例えば、オリジナルとフェイク)を検出する手法が研究されている。
例えば、非特許文献1では、min−hashを改良したlocality sensitive hashingと呼ばれる手法により、大規模データベースから類似画像を検出するためのインデックスを作成するアルゴリズムが提案されている。
また、非特許文献2では、エントロピーに基づくフィルタリング手法により、誤判定を引き起こす要素を除外する技術が提案されている。
Ondrej Chum, James Philbin, and Andrew Zisserman, "Near Duplicate Image Detection: min−Hash and tf−idf Weighting," BMVC, Vol. 810, 2008. Wei Dong et al., "High−confidence near−duplicate image detection," Proceedings of the 2nd ACM International Conference on Multimedia Retrieval, ACM, 2012.
しかしながら、多数のコンテンツが次々に登録される過程において、新たに登録されるコンテンツと既存のコンテンツとの重複を都度判定し、オリジナル作品であることを保証する効率的な手法はこれまでなかった。
本発明は、コンテンツの登録時に、既存のコンテンツとの重複を適切に検出できる重複検出装置、重複検出方法及び重複検出プログラムを提供することを目的とする。
本発明に係る重複検出装置は、コンテンツを表すデータを、当該コンテンツの特徴量を示す縮小データに変換する変換部と、前記縮小データのハッシュ値を算出する演算部と、前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録部と、を備え、前記登録部は、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とする。
前記登録部は、コンテンツの所有者情報を前記ブロックに登録し、前記ハッシュ値が同一のブロックが既に登録されている場合、前記所有者情報が同一なら前記コンテンツの登録を有効とし、前記所有者情報が異なるなら前記コンテンツの登録を無効としてもよい。
前記登録部は、前記ハッシュ値、及び前記ブロックの位置が対応付けられたデータベースにより、前記ハッシュ値が同一のブロックの有無を判定してもよい。
前記データベースは、分散ハッシュテーブルであってもよい。
本発明に係る重複検出方法は、コンテンツを表すデータを、当該コンテンツの特徴量を示す縮小データに変換する変換ステップと、前記縮小データのハッシュ値を算出する演算ステップと、前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録ステップと、をコンピュータが実行し、前記登録ステップにおいて、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とする。
本発明に係る重複検出プログラムは、コンテンツを表すデータを、当該コンテンツの特徴量を示す縮小データに変換する変換ステップと、前記縮小データのハッシュ値を算出する演算ステップと、前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録ステップと、をコンピュータに実行させ、前記登録ステップにおいて、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とさせる。
本発明によれば、コンテンツの登録時に、既存のコンテンツとの重複を適切に検出できる。
実施形態に係る重複検出装置の機能構成を示すブロック図である。 実施形態に係るハッシュテーブルを例示する図である。 実施形態に係るコンテンツが登録される手順を示す図である。 実施形態に係るコンテンツの登録処理を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る重複検出装置1の機能構成を示すブロック図である。
重複検出装置1は、制御部、記憶部、入出力デバイス、並びに外部機器とデータを送受信する通信部などを備えた情報処理装置(コンピュータ)である。重複検出装置1は、ユーザの端末からアクセスされて処理結果を返信するサーバ装置、あるいは、PC、タブレット又はスマートフォンなどのユーザの端末自体に実装されてよい。
制御部は、例えばCPUであり、重複検出装置1のハードウェア群全体を制御する機能部である。制御部は、記憶部に格納された所定のソフトウェア(重複検出プログラム)を実行することにより、本実施形態における各種機能を実現する。
重複検出装置1の制御部は、変換部11と、演算部12と、登録部13とを備える。
変換部11は、写真、絵画又は音楽など、ユーザの著作物であるコンテンツを表すデータを、このコンテンツの特徴量を示す縮小データに変換する。
例えば、写真のデジタルデータの場合、変換部11は、各画素値を要素とする行列から、特異値分解又はフーリエ変換などの手法により、特徴量を抽出した行列を縮小データとして導出する。
このとき、変換部11は、重要度の低い要素を除外し、例えば特異値分解における大きな特異値、又はフーリエ変換における低周波成分など、所定の閾値以内の要素数からなる部分行列を生成する。なお、重要度の低い要素を除外するための閾値は、適宜決定されてよい。
演算部12は、変換部11により生成された縮小データのハッシュ値を算出する。
登録部13は、算出されたハッシュ値を、コンテンツの所有者情報と共に、ブロックチェーン2のブロックに追加登録する。
このとき、登録部13は、ハッシュ値が同一のブロックがブロックチェーン2に既に登録されている場合、所定の条件で、このコンテンツの登録を無効とする登録制御を行う。
すなわち、登録部13は、新たに受け付けたコンテンツを変換した縮小データのハッシュ値が既に登録されている値である場合、所有者情報が同一ならコンテンツの登録を有効とし、所有者情報が異なるならコンテンツの登録を無効とする。
登録部13は、ハッシュ値、及びブロックの位置が対応付けられたデータベースにより、ハッシュ値が同一のブロックの有無を判定する。このデータベースは、ハッシュテーブル3であってよい。
図2は、本実施形態に係るハッシュテーブル3を例示する図である。
ブロックチェーン2に登録されたハッシュ値がキーに、登録されたブロックの位置が値に格納される。
ブロックチェーン2が大規模な場合、ハッシュテーブル3は、分散ハッシュテーブルとして構成されてよい。なお、分散ハッシュテーブルの方式(例えば、CAN、Chord、Pastry、Tapestryなど)は限定されない。
なお、ブロックチェーン2及びハッシュテーブル3は、重複検出装置1に格納されてもよいし、外部のサーバに、又は分散配置されたクライアント群に格納されてもよい。
図3は、本実施形態に係るブロックチェーン2に対してコンテンツが登録される手順を示す図である。
まず、画像の各画素値を要素とした行列Aは、変換部11により所定の特徴量が抽出された縮小データaに変換される。縮小データaは、演算部12によりハッシュ演算が行われ、ハッシュ値αがブロック「1」に登録される。
次に、所有者Xの画像を表す行列Bは、変換部11により所定の特徴量が抽出された縮小データbに変換される。縮小データbは、演算部12によりハッシュ演算が行われ、ハッシュ値βがブロック「1」のハッシュ値と共にブロック「2」に登録される。
同様に、行列Cは、変換部11により所定の特徴量が抽出された縮小データcに変換される。縮小データcは、演算部12によりハッシュ演算が行われ、ハッシュ値γがブロック「2」のハッシュ値と共にブロック「3」に登録される。
ここで、行列Bと僅かに異なるが所定の特徴量が一致する行列B’が入力された場合、B’を変換した縮小データbは、行列Bの縮小データbと一致するため、ハッシュ値βが既にブロック「2」に登録されていることがハッシュテーブル3により検索される。
この行列B’の所有者Yは、ブロック「2」に登録されている所有者Xと異なるため、YがXの画像を模倣したと判断され、ブロックチェーン2への登録が無効となる。
一方、行列Bと僅かに異なるが所定の特徴量が一致する行列B’’が入力された場合、B’と同様に、B’’を変換した縮小データbは、行列Bの縮小データbと一致するため、ハッシュ値βが既にブロック「2」に登録されていることがハッシュテーブル3により検索される。
この場合、行列B’’の所有者Xは、ブロック「2」に登録されている所有者Xと同一であるため、X自身の著作物を用いたと判断され、ブロックチェーン2への登録が有効となり、ブロック「4」に登録される。
図4は、本実施形態に係る重複検出装置1におけるコンテンツの登録処理を示すフローチャートである。
本処理では、画像などのコンテンツを入力として、ブロックチェーン2への登録の可否が判定される。
ステップS1において、変換部11は、画像などのコンテンツを示す行列から特徴量を抽出し、縮小データを生成する。
ステップS2において、演算部12は、ステップS1で生成された縮小データに対してハッシュ演算を行い、ハッシュ値を生成する。
ステップS3において、登録部13は、ステップS2で生成されたハッシュ値がハッシュテーブル3にあるか否かを判定する。この判定がYESの場合、処理はステップS4に移り、判定がNOの場合、処理はステップS6に移る。
ステップS4において、登録部13は、ステップS3でハッシュテーブル3から得られたブロック位置により、ブロックチェーン2を検索し、該当ブロックに登録されたコンテンツの所有者情報を取得する。
ステップS5において、登録部13は、ステップS4で得られた所有者情報と、入力されたコンテンツの所有者とが同一か否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS8に移る。
ステップS6において、登録部13は、入力されたコンテンツがオリジナルと判断し、ブロックチェーン2にステップS2で生成されたハッシュ値を追加登録する。
ステップS7において、登録部13は、ステップS6で登録されたハッシュ値を検索するためのキー(ハッシュ値)及び値(ブロック位置)を、ハッシュテーブル3に追加登録する。
ステップS8において、登録部13は、入力されたコンテンツが既存のコンテンツの模倣と判断し、ブロックチェーン2への登録を無効とする。
本実施形態によれば、重複検出装置1は、ブロックチェーン2に新たなコンテンツを登録する際に、オリジナル性を確認するため、既存のコンテンツとの比較を行う。このとき、重複検出装置1は、コンテンツを表すデータ同士の比較を、特徴量を示す縮小データを用いて行うので、コンテンツ間の僅かな相違を無視し、重要な特徴のみに着目して既存のコンテンツとの重複を適切に検出できる。
この結果、オリジナル性が保証されたコンテンツのみがブロックチェーン2に登録される。
また、重複検出装置1は、ブロックチェーン2のブロック毎にコンテンツの所有者情報を登録するので、コンテンツの重複を検出した際に、所有者が同一であれば登録を有効に、所有者が異なれば登録を無効に制御できる。これにより、重複検出装置1は、コンテンツのオリジナル性を所有者が異なる場合に検証し、自身の著作物を再利用したコンテンツを模倣とする誤検出を抑制できる。
また、重複検出装置1は、ハッシュテーブル3によりブロックチェーン2を検索するので、効率的にコンテンツの重複を検出できる。
さらに、分散ハッシュテーブルが採用されることにより、大規模システムにおける効率化が期待できる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
重複検出装置1は、単一のサーバとして実装されてもよいし、クラウドの複数のサーバに分散配置されてもよい。また、ユーザの端末が同様の機能を有していてもよいし、複数の端末に分散配置されてもよい。
さらに、ブロックチェーン2及びハッシュテーブル3は、重複検出装置1とは別のサーバにおいて管理されてよいが、重複検出装置1の記憶部において管理されてもよい。また、複数のサーバ又は端末に分散配置されてもよい。
重複検出装置1による検出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 重複検出装置
2 ブロックチェーン
3 ハッシュテーブル
11 変換部
12 演算部
13 登録部

Claims (6)

  1. コンテンツを表すデータを、所定以上の重要度の特徴量が抽出された縮小データに変換する変換部と、
    前記縮小データのハッシュ値を算出する演算部と、
    前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録部と、を備え、
    前記登録部は、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とする重複検出装置。
  2. 前記登録部は、
    コンテンツの所有者情報を前記ブロックに登録し、
    前記ハッシュ値が同一のブロックが既に登録されている場合、前記所有者情報が同一なら前記コンテンツの登録を有効とし、前記所有者情報が異なるなら前記コンテンツの登録を無効とする請求項1に記載の重複検出装置。
  3. 前記登録部は、前記ハッシュ値、及び前記ブロックの位置が対応付けられたデータベースにより、前記ハッシュ値が同一のブロックの有無を判定する請求項1又は請求項2に記載の重複検出装置。
  4. 前記データベースは、分散ハッシュテーブルである請求項3に記載の重複検出装置。
  5. コンテンツを表すデータを、所定以上の重要度の特徴量が抽出された縮小データに変換する変換ステップと、
    前記縮小データのハッシュ値を算出する演算ステップと、
    前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録ステップと、をコンピュータが実行し、
    前記登録ステップにおいて、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とする重複検出方法。
  6. コンテンツを表すデータを、所定以上の重要度の特徴量が抽出された縮小データに変換する変換ステップと、
    前記縮小データのハッシュ値を算出する演算ステップと、
    前記ハッシュ値を、ブロックチェーンのブロックに追加登録する登録ステップと、をコンピュータに実行させ、
    前記登録ステップにおいて、前記ハッシュ値が同一のブロックが既に登録されている場合、前記コンテンツの登録を無効とさせるための重複検出プログラム。
JP2016151729A 2016-08-02 2016-08-02 重複検出装置、重複検出方法及び重複検出プログラム Active JP6632945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016151729A JP6632945B2 (ja) 2016-08-02 2016-08-02 重複検出装置、重複検出方法及び重複検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016151729A JP6632945B2 (ja) 2016-08-02 2016-08-02 重複検出装置、重複検出方法及び重複検出プログラム

Publications (2)

Publication Number Publication Date
JP2018022258A JP2018022258A (ja) 2018-02-08
JP6632945B2 true JP6632945B2 (ja) 2020-01-22

Family

ID=61164485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016151729A Active JP6632945B2 (ja) 2016-08-02 2016-08-02 重複検出装置、重複検出方法及び重複検出プログラム

Country Status (1)

Country Link
JP (1) JP6632945B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595709B (zh) * 2018-05-10 2020-02-18 阿里巴巴集团控股有限公司 基于区块链的音乐原创性分析方法和装置
JP6884128B2 (ja) * 2018-09-20 2021-06-09 株式会社日立製作所 データ重複排除装置、データ重複排除方法、及びデータ重複排除プログラム
JP7393343B2 (ja) 2018-10-22 2023-12-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 制御方法、コンテンツ管理システム、及び、プログラム
KR102012400B1 (ko) * 2018-11-27 2019-08-20 안종현 블록체인 기반 IoT 인증 시스템
KR102179076B1 (ko) * 2018-11-29 2020-11-16 동서대학교 산학협력단 공개 데이터셋의 데이터 무결성 보장을 위한 블록체인 솔루션 제공 시스템, 이의 처리 방법
CN110598463B (zh) 2019-04-19 2021-05-14 腾讯科技(深圳)有限公司 基于区块链的信息处理方法、装置和计算机可读存储介质
JP7140389B2 (ja) * 2019-07-16 2022-09-21 ジャパンモード株式会社 仮想アイテム出品受付プログラム及びシステム
CN110674140B (zh) * 2019-09-29 2022-04-15 腾讯科技(深圳)有限公司 基于区块链的内容处理方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5347765B2 (ja) * 2009-06-30 2013-11-20 株式会社Jvcケンウッド デジタルコンテンツデータの管理システム、管理方法、利用装置及び改変検出装置
JP5592337B2 (ja) * 2011-11-18 2014-09-17 日本電信電話株式会社 コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム
JP6104209B2 (ja) * 2014-04-08 2017-03-29 日本電信電話株式会社 ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム
JP6601624B2 (ja) * 2016-05-10 2019-11-06 日本電信電話株式会社 コンテンツ流通システム、コンテンツ流通方法、コンテンツ生成装置及びコンテンツ生成プログラム

Also Published As

Publication number Publication date
JP2018022258A (ja) 2018-02-08

Similar Documents

Publication Publication Date Title
JP6632945B2 (ja) 重複検出装置、重複検出方法及び重複検出プログラム
US11030311B1 (en) Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise
CN108092962B (zh) 一种恶意url检测方法及装置
CN106126617B (zh) 一种视频检测方法及服务器
Zhou et al. Coverless image steganography without embedding
WO2016180268A1 (zh) 一种文本聚合方法及装置
WO2017202214A1 (zh) 文件验证方法及装置
US20130042306A1 (en) Determining machine behavior
US11475133B2 (en) Method for machine learning of malicious code detecting model and method for detecting malicious code using the same
JP2011507081A (ja) 時間イベント・ベースの画紋法のためのコンピュータ実装方法、コンピュータ・プログラム、画像の著作権侵害を自動的に検出するための装置及びコンピュータ実装方法
JP2014229317A (ja) 1つ以上の画像処理アルゴリズムの自動選択のための方法およびシステム
KR100986223B1 (ko) 불법 동영상 데이터 검색 장치 및 방법
US10127382B2 (en) Malware detection method
CN112136123A (zh) 表征文件以进行相似性搜索
CN111079816A (zh) 图像的审核方法、装置和服务器
JPWO2020044469A1 (ja) 不正Webページ検出装置、不正Webページ検出装置の制御方法及び制御プログラム
CN107577943B (zh) 基于机器学习的样本预测方法、装置及服务器
JP2021096858A (ja) ベクトル量子化を利用した重複文書探知方法およびシステム
CN107786529B (zh) 网站的检测方法、装置及系统
CN109495471B (zh) 一种对web攻击结果判定方法、装置、设备及可读存储介质
WO2019192375A1 (zh) 多媒体处理方法及其装置、存储介质、电子产品
JP6169497B2 (ja) 接続先情報判定装置、接続先情報判定方法、及びプログラム
US11328095B2 (en) Peceptual video fingerprinting
CN111368128A (zh) 目标图片的识别方法、装置和计算机可读存储介质
Imamura et al. Image content detection method using correlation coefficient between pixel value histograms

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191211

R150 Certificate of patent or registration of utility model

Ref document number: 6632945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150