JP2019028984A - 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 - Google Patents
非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 Download PDFInfo
- Publication number
- JP2019028984A JP2019028984A JP2018030578A JP2018030578A JP2019028984A JP 2019028984 A JP2019028984 A JP 2019028984A JP 2018030578 A JP2018030578 A JP 2018030578A JP 2018030578 A JP2018030578 A JP 2018030578A JP 2019028984 A JP2019028984 A JP 2019028984A
- Authority
- JP
- Japan
- Prior art keywords
- images
- image
- visual
- clustering
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
1又は複数の実施形態では、前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される。
1又は複数の実施形態では、前記代表画像の集合は、少なくとも100万個の画像を含む。
1又は複数の実施形態では、前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む。
1又は複数の実施形態では、スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する。
Claims (24)
- 複数の画像をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを備えたコンピュータ化されたシステムに関連して実行され、
a.前記複数の画像内の視覚的単語の語彙を生成することと、
b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、コンピュータで実施される方法。 - 前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項1に記載のコンピュータで実施される方法。
- 前記代表画像の集合は、少なくとも100万個の画像を含む、請求項2に記載のコンピュータで実施される方法。
- 前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項1に記載のコンピュータで実施される方法。
- スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項1に記載のコンピュータで実施される方法。
- 前記語彙内の前記視覚的単語から、前記複数の画像のなかの画像を指し示す索引が逆索引である、請求項1に記載のコンピュータで実施される方法。
- 前記共有視覚的単語の数に基づいて、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の前記収集された他の画像をソートすることをさらに含む、請求項1に記載のコンピュータで実施される方法。
- 共有視覚的単語数の最上位の数字を有する所定の数の前記収集された他の画像を選択することをさらに含む、請求項7に記載のコンピュータで実施される方法。
- 前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングするアフィン変換を決定することを含む、請求項1に記載のコンピュータで実施される方法。
- 前記幾何検証を実行することは、前記選択された画像の少なくとも一部を前記複数の画像の別の画像にマッピングする透視変換を決定することを含む、請求項1に記載のコンピュータで実施される方法。
- 前記他の画像に対して前記共有視覚的単語の分布の均一性を検証することと、所定の閾値に満たない前記共有視覚的単語の分布の均一性を有する他の画像を排除することとをさらに含む、請求項1に記載のコンピュータで実施される方法。
- 前記他の画像に対して前記共有視覚的単語の前記分布の均一性を検証することは、前記他の画像を複数のセルを有する粗い2次元格子に分割することと、各グリッドセルについて、前記セル内の全視覚的単語に対して一致する視覚的単語の割合を決定することと、グリッドセル間の前記共有視覚的単語の分布の十分な均一性の統計的検定を行うこととを含む、請求項11に記載のコンピュータで実施される方法。
- 前記複数の画像をクラスタ化することは、修正された完全連結凝集階層クラスタリングアルゴリズムを使用して行われる、請求項1に記載のコンピュータで実施される方法。
- 前記複数の画像をクラスタ化することは、前記類似性尺度に基づいて計算された疎距離行列を使用して行われる、請求項1に記載のコンピュータで実施される方法。
- 複数の画像をクラスタ化するためのコンピュータ化されたシステムであって、中央処理装置と、一組のコンピュータ実行可能命令を格納するメモリとを備え、前記一組のコンピュータ実行可能命令は、
a.前記複数の画像内の視覚的単語の語彙を生成することと、
b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、コンピュータ化されたシステム。 - 前記視覚的単語の語彙が、代表画像の集合から抽出された一組の画像特徴から生成される、請求項15に記載のコンピュータ化されたシステム。
- 代表画像の集合は、少なくとも100万個の画像を含む、請求項15に記載のコンピュータ化されたシステム。
- 前記視覚的単語の語彙を生成することは、類似の特徴ベクトルをクラスタ化することと、各クラスタ重心に類似するすべての特徴ベクトルを視覚的単語で表現することと、前記視覚的単語を各クラスタの前記視覚的単語の語彙に加えることとを含む、請求項15に記載のコンピュータ化されたシステム。
- スケール不変特徴変換(Scale−Invariant Feature Transform:SIFT)を使用して、前記複数の画像のそれぞれに対して前記画像特徴点の画像特徴を抽出する、請求項15に記載のコンピュータ化されたシステム。
- 中央処理装置とメモリとを備えたコンピュータ化されたシステムに複数の画像をクラスタ化する方法を実行させるプログラムであって、
前記方法は、
a.前記複数の画像内の視覚的単語の語彙を生成することと、
b.前記複数の画像のそれぞれの画像特徴点の画像特徴を抽出することと、
c.前記抽出された画像特徴に基づいて、前記語彙の前記視覚的単語から、前記複数の画像のなかの前記視覚的単語を含む画像を指し示す索引を生成することと、
d.前記生成された索引を使用して、少なくとも1つの視覚的単語を選択された画像と共有する、前記複数の画像の他のすべての画像を収集し、前記共有された視覚的単語の数を決定することと、
e.共有視覚的単語が、前記選択された画像内と前記複数の画像のなかの前記他の画像との同じ位置に位置するかどうかを検証するための幾何検証を実行し、すべての共有視覚的単語に対する、検証された共有視覚的単語の割合を類似性尺度とすることと、
f.前記類似性尺度に基づいて前記複数の画像を階層的にクラスタ化することと
を含む、プログラム。 - 複数の内容項目をクラスタ化するためのコンピュータで実施される方法であって、中央処理装置とメモリとを組み込んだコンピュータ化されたシステムに関連して実行され、
a.前記複数の内容項目内の単語の語彙を生成することと、
b.前記複数の内容項目の特徴を抽出することと、
c.前記抽出された特徴に基づいて、前記語彙の前記単語から、前記複数の内容項目のなかの前記単語を含む内容項目を指し示す索引を生成することと、
d.前記生成された索引を使用して、少なくとも1つの単語を選択された内容項目と共有する、前記複数の内容項目の他のすべての内容項目を収集し、前記共有された単語の数を決定することと、
e.前記共有された単語が、前記選択された内容項目と前記複数の内容項目のなかの前記他の内容項目との同じ位置に位置するかどうかを検証するための内容検証を実行し、すべての共有単語に対して、検証された共有単語の割合を類似性尺度とすることと、
f.前記類似性尺度に基づいて前記複数の内容項目を階層的にクラスタ化することと
を含む、コンピュータで実施される方法。 - 前記複数の内容項目における前記内容項目がテキストである、請求項21に記載のコンピュータで実施される方法。
- 前記複数の内容項目における前記内容項目が音声記録である、請求項21に記載のコンピュータで実施される方法。
- 前記複数の内容項目における前記内容項目が映像である、請求項21に記載のコンピュータで実施される方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/663,815 US10504002B2 (en) | 2017-07-30 | 2017-07-30 | Systems and methods for clustering of near-duplicate images in very large image collections |
US15/663815 | 2017-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019028984A true JP2019028984A (ja) | 2019-02-21 |
JP7020170B2 JP7020170B2 (ja) | 2022-02-16 |
Family
ID=65038663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018030578A Active JP7020170B2 (ja) | 2017-07-30 | 2018-02-23 | 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10504002B2 (ja) |
JP (1) | JP7020170B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582306A (zh) * | 2020-03-30 | 2020-08-25 | 南昌大学 | 一种基于关键点图表示的近重复图像匹配方法 |
CN111898544B (zh) * | 2020-07-31 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 文字图像匹配方法、装置和设备及计算机存储介质 |
CN112182279B (zh) * | 2020-12-03 | 2021-03-19 | 武大吉奥信息技术有限公司 | 一种基于离散网格与影像匹配的室内自定位方法及设备 |
US11635878B2 (en) * | 2021-01-31 | 2023-04-25 | Walmart Apollo, Llc | Systems and methods for altering a graphical user interface |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2005122690A (ja) * | 2003-07-02 | 2005-05-12 | Sony United Kingdom Ltd | 情報処理 |
JP2012079187A (ja) * | 2010-10-05 | 2012-04-19 | Yahoo Japan Corp | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム |
JP2013206436A (ja) * | 2012-03-29 | 2013-10-07 | Rakuten Inc | 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体 |
JP2014197386A (ja) * | 2013-03-08 | 2014-10-16 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
JP2017111553A (ja) * | 2015-12-15 | 2017-06-22 | ヤフー株式会社 | 画像認識装置及び画像認識装置の動作方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711293B1 (en) | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
US8385971B2 (en) * | 2008-08-19 | 2013-02-26 | Digimarc Corporation | Methods and systems for content processing |
US8805117B2 (en) | 2011-07-19 | 2014-08-12 | Fuji Xerox Co., Ltd. | Methods for improving image search in large-scale databases |
US9740963B2 (en) * | 2014-08-05 | 2017-08-22 | Sri International | Multi-dimensional realization of visual content of an image collection |
US9697233B2 (en) * | 2014-08-12 | 2017-07-04 | Paypal, Inc. | Image processing and matching |
-
2017
- 2017-07-30 US US15/663,815 patent/US10504002B2/en active Active
-
2018
- 2018-02-23 JP JP2018030578A patent/JP7020170B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001160057A (ja) * | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2005122690A (ja) * | 2003-07-02 | 2005-05-12 | Sony United Kingdom Ltd | 情報処理 |
JP2012079187A (ja) * | 2010-10-05 | 2012-04-19 | Yahoo Japan Corp | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム |
JP2013206436A (ja) * | 2012-03-29 | 2013-10-07 | Rakuten Inc | 画像検索装置、画像検索方法、プログラムおよびコンピュータ読取り可能な記憶媒体 |
JP2014197386A (ja) * | 2013-03-08 | 2014-10-16 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
JP2017111553A (ja) * | 2015-12-15 | 2017-06-22 | ヤフー株式会社 | 画像認識装置及び画像認識装置の動作方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190034758A1 (en) | 2019-01-31 |
JP7020170B2 (ja) | 2022-02-16 |
US10504002B2 (en) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
US11023682B2 (en) | Vector representation based on context | |
Thyagharajan et al. | A review on near-duplicate detection of images using computer vision techniques | |
Sun et al. | LSTM for dynamic emotion and group emotion recognition in the wild | |
US11263223B2 (en) | Using machine learning to determine electronic document similarity | |
JP7020170B2 (ja) | 非常に大きな画像集合における近似重複画像をクラスタ化するためのシステム及び方法、複数の画像をクラスタ化するための方法及びシステム、プログラム、複数の内容項目をクラスタ化するための方法 | |
US10713306B2 (en) | Content pattern based automatic document classification | |
US20160328384A1 (en) | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video | |
CN104484671B (zh) | 应用于移动平台的目标检索系统 | |
US20220230648A1 (en) | Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification | |
US20200175332A1 (en) | Out-of-sample generating few-shot classification networks | |
CN107924398B (zh) | 用于提供以评论为中心的新闻阅读器的系统和方法 | |
CN110647832A (zh) | 获取证件中信息的方法和装置、电子设备和存储介质 | |
US20220044105A1 (en) | Training multimodal representation learning model on unnanotated multimodal data | |
CN106663123B (zh) | 以评论为中心的新闻阅读器 | |
Zhang et al. | Large‐scale video retrieval via deep local convolutional features | |
US11227231B2 (en) | Computational efficiency in symbolic sequence analytics using random sequence embeddings | |
Amato et al. | Aggregating binary local descriptors for image retrieval | |
Mironica et al. | Fisher kernel based relevance feedback for multimodal video retrieval | |
CN115544257B (zh) | 网盘文档快速分类方法、装置、网盘及存储介质 | |
CN103870476A (zh) | 检索方法及设备 | |
Wang et al. | Random angular projection for fast nearest subspace search | |
US20230186072A1 (en) | Extracting explanations from attention-based models | |
US20220343073A1 (en) | Quantitative comment summarization | |
Liu et al. | Joint learning of lstms-cnn and prototype for micro-video venue classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7020170 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |