JP2024519504A - Reverse image search based on deep neural network (DNN) model and image feature detection model - Google Patents

Reverse image search based on deep neural network (DNN) model and image feature detection model Download PDF

Info

Publication number
JP2024519504A
JP2024519504A JP2023567990A JP2023567990A JP2024519504A JP 2024519504 A JP2024519504 A JP 2024519504A JP 2023567990 A JP2023567990 A JP 2023567990A JP 2023567990 A JP2023567990 A JP 2023567990A JP 2024519504 A JP2024519504 A JP 2024519504A
Authority
JP
Japan
Prior art keywords
image
feature vector
generated
received
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023567990A
Other languages
Japanese (ja)
Inventor
ジョンファ イ
プラッギャ ガーグ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/482,290 external-priority patent/US11947631B2/en
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2024519504A publication Critical patent/JP2024519504A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

逆画像検索のための電子装置及び方法を提供する。電子装置は画像を受け取る。電子装置は、画像に関連する第1の画像特徴セットをDNNモデルによって抽出し、第1の画像特徴セットに基づいて第1の特徴ベクトルを生成する。電子装置は、画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、第2の画像特徴セットに基づいて第2の特徴ベクトルを生成する。電子装置は、第1及び第2の特徴ベクトルの結合に基づいて第3の特徴ベクトルを生成する。電子装置は、第3の特徴ベクトルと、予め記憶された画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定し、類似度メトリックに基づいて予め記憶された画像を識別する。電子装置は、予め記憶された画像に関連する情報を表示するようにディスプレイ装置を制御する。【選択図】 図1An electronic device and method for reverse image searching is provided. The electronic device receives an image. The electronic device extracts a first set of image features associated with the image via a DNN model and generates a first feature vector based on the first set of image features. The electronic device extracts a second set of image features associated with the image via an image feature detection model and generates a second feature vector based on the second set of image features. The electronic device generates a third feature vector based on a combination of the first and second feature vectors. The electronic device determines a similarity metric between the third feature vector and a fourth feature vector of each image in a set of pre-stored images and identifies the pre-stored images based on the similarity metric. The electronic device controls a display device to display information associated with the pre-stored images. (FIG. 1)

Description

〔関連出願との相互参照/引用による組み入れ〕
本出願は、2021年5月18日に出願された米国仮特許出願シリアル番号第63/189,956号の優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。
CROSS REFERENCE TO RELATED APPLICATIONS/INCORPORATION BY REFERENCE
This application claims priority to U.S. Provisional Patent Application Serial No. 63/189,956, filed May 18, 2021, the contents of which are incorporated herein by reference in their entirety.

本開示の様々な実施形態は、逆画像検索に関する。具体的には、本開示の様々な実施形態は、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法に関する。 Various embodiments of the present disclosure relate to reverse image searching. In particular, various embodiments of the present disclosure relate to electronic devices and methods for reverse image searching based on deep neural network (DNN) models and image feature detection models.

情報通信技術の進歩は、様々なインターネットベースの画像検索システム(例えば、ウェブ検索エンジン)をもたらした。従来、ユーザは、入力画像を検索クエリとしてウェブ検索エンジンにアップロードすることができる。このような場合、ウェブ検索エンジンは、(逆画像検索法を使用して)インターネットから出力画像セットを提供することができる。出力画像セットは、入力画像に類似したものであることができる。このような逆画像検索法は、入力画像に類似する出力画像セットを決定するために機械学習モデルを採用することができる。場合によっては、機械学習モデルが入力画像内の1又は2以上のオブジェクトを誤分類した結果、出力画像セットが望ましくない又は無関係な画像を含んでしまう場合がある。 Advances in information and communication technology have led to a variety of Internet-based image retrieval systems (e.g., web search engines). Traditionally, a user may upload an input image to a web search engine as a search query. In such a case, the web search engine may provide an output image set from the Internet (using a reverse image search technique). The output image set may be similar to the input image. Such a reverse image search technique may employ a machine learning model to determine an output image set that is similar to the input image. In some cases, the machine learning model may misclassify one or more objects in the input image, resulting in the output image set including undesirable or irrelevant images.

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法の限界及び不利点が明らかになるであろう。 The limitations and disadvantages of conventional approaches will become apparent to one skilled in the art by comparing the described system with certain aspects of the present disclosure illustrated in the remainder of this application and with reference to the drawings.

実質的に少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための電子装置及び方法を提供する。 The present invention provides an electronic device and method for reverse image search based on a deep neural network (DNN) model and an image feature detection model, substantially as illustrated and/or described in connection with at least one of the figures and more fully set forth in the claims.

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。 These and other features and advantages of the present disclosure can be understood by considering the following detailed description of the disclosure in conjunction with the accompanying drawings, in which like reference characters refer to like elements throughout.

本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。FIG. 1 is a block diagram illustrating an exemplary network environment for reverse image search based on a deep neural network (DNN) model and an image feature detection model, in accordance with an embodiment of the present disclosure. 本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。FIG. 1 is a block diagram illustrating an exemplary electronic device for reverse image search based on a deep neural network (DNN) model and an image feature detection model, in accordance with an embodiment of the present disclosure. 本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。FIG. 1 illustrates an example operation for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure. 本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。1 is a flowchart illustrating an example method for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure.

逆画像検索の精度を高めるためにディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づいて逆画像検索を行うための開示する電子装置及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、逆画像検索のためのディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルを実装する電子装置を提供する。電子装置は、(ユーザが類似する画像を検索する必要がある画像などの)第1の画像を受け取ることができる。電子装置は、受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出し、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像に関連する第1の特徴ベクトルを生成する。電子装置は、受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像に関連する第2の特徴ベクトルを生成することができる。画像特徴検出モデルの例としては、以下に限定するわけではないが、スケール不変特徴変換(Scale-Invariant Feature Transform:SIFT)ベースのモデル、高速化ロバスト特徴(Speeded-Up Robust Feature:SURF)ベースのモデル、方向付きFAST及び回転BRIEF(Oriented FAST and Rotated BRIEF:ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(Fast Library for Approximate Nearest Neighbors:FLANN)ベースのモデルを挙げることができる。画像特徴検出モデルは、DNNモデル108によって一部が誤検出及び/又は誤分類された可能性のある画像特徴を抽出することができる。 The disclosed electronic device and method for performing reverse image search based on a deep neural network (DNN) model and an image feature detection model to improve the accuracy of the reverse image search can be implemented as described below. An exemplary aspect of the present disclosure provides an electronic device implementing a deep neural network (DNN) model and an image feature detection model for reverse image search. The electronic device can receive a first image (such as an image for which a user needs to search for similar images). The electronic device can extract a first set of image features associated with the received first image by the deep neural network (DNN) model, and generate a first feature vector associated with the received first image based on the extracted first image feature set. The electronic device can extract a second set of image features associated with the received first image by the image feature detection model, and generate a second feature vector associated with the received first image based on the extracted second image feature set. Examples of image feature detection models include, but are not limited to, a Scale-Invariant Feature Transform (SIFT)-based model, a Speeded-Up Robust Feature (SURF)-based model, an Oriented FAST and Rotated BRIEF (ORB)-based model, or a Fast Library for Approximate Nearest Neighbors (FLANN)-based model. The image feature detection model can extract image features that may have been partially misdetected and/or misclassified by the DNN model 108.

電子装置は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルをさらに生成することができる。ある例では、第3の特徴ベクトルの生成が、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。電子装置は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、(データベースに記憶された画像などの)予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックをさらに決定することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(受け取った第1の画像と同一又は同様の画像などの)予め記憶された第3の画像をさらに識別し、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することができる。 The electronic device may further generate a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector. In one example, the generation of the third feature vector may be further based on application of a principal component analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector. The electronic device may further determine a similarity metric between the generated third feature vector associated with the received first image and a fourth feature vector of each image of the pre-stored second set of images (e.g., images stored in a database). Examples of similarity metrics may include, but are not limited to, cosine distance similarity or Euclidean distance similarity. The electronic device may further identify a pre-stored third image (e.g., an image that is the same or similar to the received first image) from the pre-stored second set of images based on the determined similarity metric, and control the display device to display information associated with the identified pre-stored third image.

開示する電子装置は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルを自動的に生成することができる。この結果、第3の特徴ベクトルは、DNNモデルによって決定できる第1の画像特徴セットと、画像特徴検出モデルによって決定できる第2の画像特徴セットとを含むことができる。第1の画像特徴セットは、受け取った第1の画像に関連する高水準画像特徴(例えば、目、鼻、耳、髪などの顔の特徴)を含み、第2の画像特徴セットは、受け取った第1の画像に関連する低水準画像特徴(例えば、顔のエッジ、ライン、輪郭)を含む。高水準画像特徴及び低水準画像特徴の両方を第3の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。例えば、受け取った第1の画像が、DNNモデルの訓練データセット内で十分に表現されていない画像である場合、第1の画像特徴セットは、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第2の画像特徴セットは、受け取った第1の画像に関連する低水準画像特徴を含むことができるので、第2の画像特徴セットを第3の特徴ベクトルに含めることで、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別する精度を高めることができる。一方で、画像の品質が良くない場合(例えば、解像度が低い不鮮明な画像の場合)、第1の画像特徴セット(すなわち、高水準画像特徴)は、類似する画像を識別できるほど十分なものでない可能性がある。このような場合には、第2の画像特徴(すなわち、低水準画像特徴)の方が、類似する画像の識別にとって有用かつ正確な場合がある。 The disclosed electronic device can automatically generate a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector. As a result, the third feature vector can include a first image feature set that can be determined by a DNN model and a second image feature set that can be determined by an image feature detection model. The first image feature set includes high-level image features associated with the received first image (e.g., facial features such as eyes, nose, ears, hair, etc.), and the second image feature set includes low-level image features associated with the received first image (e.g., facial edges, lines, contours). By including both the high-level image features and the low-level image features in the third feature vector, the identification of similar images can be complemented. For example, if the received first image is an image that is not well represented in the training dataset of the DNN model, the first image feature set may not be sufficient to identify images similar to the received first image from the pre-stored second image set. However, since the second image feature set may include low-level image features related to the received first image, including the second image feature set in the third feature vector may increase the accuracy of identifying images similar to the received first image from the pre-stored second image set. On the other hand, if the image quality is poor (e.g., in the case of a low-resolution, blurry image), the first image feature set (i.e., high-level image features) may not be sufficient to identify similar images. In such cases, the second image features (i.e., low-level image features) may be more useful and accurate for identifying similar images.

図1は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的なネットワーク環境を示すブロック図である。図1にはネットワーク環境100を示す。ネットワーク環境100は、電子装置102、サーバ104、及びデータベース106を含むことができる。さらに、サーバ104に実装されたディープニューラルネットワーク(DNN)モデル108及び画像特徴検出モデル110も示す。図1に示すように、データベース106には訓練データセット112を記憶することができる。電子装置102、サーバ104及びデータベース106は、通信ネットワーク114を介して互いに通信可能に結合することができる。さらに、電子装置102に関連するユーザ116も示す。図1には電子装置102及びサーバ104を2つの独立した装置として示しているが、いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ104の機能全体を電子装置102に組み込むこともできる。 FIG. 1 is a block diagram illustrating an exemplary network environment for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure. FIG. 1 illustrates a network environment 100. The network environment 100 may include an electronic device 102, a server 104, and a database 106. Also illustrated is a deep neural network (DNN) model 108 and an image feature detection model 110 implemented on the server 104. As illustrated in FIG. 1, the database 106 may store a training data set 112. The electronic device 102, the server 104, and the database 106 may be communicatively coupled to each other via a communication network 114. Also illustrated is a user 116 associated with the electronic device 102. Although FIG. 1 illustrates the electronic device 102 and the server 104 as two separate devices, in some embodiments, the entire functionality of the server 104 may be incorporated into the electronic device 102 without departing from the scope of the present disclosure.

電子装置102は、第1の画像にDNNモデル108及び画像特徴検出モデル110を実装することに基づいて第1の画像に類似する画像セットを識別して表示するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。電子装置102の例としては、以下に限定するわけではないが、画像検索エンジン、サーバ、パーソナルコンピュータ、ラップトップ、コンピュータワークステーション、メインフレームマシン、ゲーム装置、仮想現実(VR)/拡張現実(AR)/複合現実(MR)装置、スマートフォン、携帯電話機、コンピュータ装置、タブレット、及び/又はいずれかの消費者向け電子(CE)装置を挙げることができる。 The electronic device 102 may include suitable logic, circuitry, interfaces, and/or code that may be configured to identify and display a set of images similar to a first image based on implementing the DNN model 108 and the image feature detection model 110 on the first image. Examples of the electronic device 102 may include, but are not limited to, an image search engine, a server, a personal computer, a laptop, a computer workstation, a mainframe machine, a gaming device, a virtual reality (VR)/augmented reality (AR)/mixed reality (MR) device, a smartphone, a mobile phone, a computing device, a tablet, and/or any consumer electronics (CE) device.

DNNモデル108は、画像特徴検出タスクに基づいて第1の画像内の第1の画像特徴セットを検出するように訓練できる深層畳み込みニューラルネットワークモデルとすることができる。DNNモデル108は、例えば(単複の)活性化関数、重みの数、コスト関数、正則化関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。DNNモデル108は、計算ネットワーク又は(ノードとも呼ばれる)人工ニューロンのシステムと呼ぶことができる。DNNモデル108のノードは、DNNモデル108のニューラルネットワークトポロジーで定められるような複数の層状に配置することができる。DNNモデル108の複数の層は、入力層、1又は2以上の隠れ層、及び出力層を含むことができる。複数の層の各層は、1又は2以上のノード(又は人工ニューロン)を含むことができる。入力層における全てのノードの出力は、(単複の)隠れ層の少なくとも1つのノードに結合することができる。同様に、各隠れ層の入力は、DNNモデル108の他の層における少なくとも1つのノードの出力に結合することができる。各隠れ層の出力は、DNNモデル108の他の層における少なくとも1つのノードの入力に結合することができる。最終層の(単複の)ノードは、少なくとも1つの隠れ層から入力を受け取って結果を出力することができる。層の数及び各層におけるノードの数は、DNNモデル108のハイパーパラメータから決定することができる。このようなハイパーパラメータは、訓練データセット112に基づくDNNモデル108の訓練前又は訓練中に設定することができる。 The DNN model 108 may be a deep convolutional neural network model that can be trained to detect a first set of image features in a first image based on an image feature detection task. The DNN model 108 may be defined by hyperparameters such as activation function(s), number of weights, cost function, regularization function, input size, and number of layers. The DNN model 108 may be referred to as a computational network or a system of artificial neurons (also called nodes). The nodes of the DNN model 108 may be arranged in multiple layers as defined by the neural network topology of the DNN model 108. The multiple layers of the DNN model 108 may include an input layer, one or more hidden layers, and an output layer. Each layer of the multiple layers may include one or more nodes (or artificial neurons). The output of every node in the input layer may be coupled to at least one node in the hidden layer(s). Similarly, the input of each hidden layer may be coupled to the output of at least one node in another layer of the DNN model 108. The output of each hidden layer may be coupled to the input of at least one node in another layer of the DNN model 108. The node(s) in the final layer may receive input from at least one hidden layer and output a result. The number of layers and the number of nodes in each layer may be determined from hyperparameters of the DNN model 108. Such hyperparameters may be set before or during training of the DNN model 108 based on the training dataset 112.

DNNモデル108の各ノードは、ネットワークの訓練中に調整できるパラメータセットを有する数学関数(例えば、シグモイド関数又は正規化線形ユニット(rectified linear unit))に対応することができる。パラメータセットは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、DNNモデル108の他の(単複の)層(例えば、前の(単複の)層)のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。DNNモデル108のノードの全部又は一部は、同じ又は異なる数学関数に対応することができる。 Each node of the DNN model 108 can correspond to a mathematical function (e.g., a sigmoid function or a rectified linear unit) having a parameter set that can be adjusted during training of the network. The parameter set can include, for example, weight parameters and regularization parameters. Each node can calculate an output using a mathematical function based on one or more inputs from nodes in other layer(s) (e.g., previous layer(s)) of the DNN model 108. All or some of the nodes of the DNN model 108 can correspond to the same or different mathematical functions.

DNNモデル108の訓練では、(訓練データセットからの)所与の入力に対する最終層の出力がDNNモデル108の損失関数に基づく正しい結果に一致するかどうかに基づいてDNNモデル108の各ノードの1又は2以上のパラメータを更新することができる。上記プロセスは、損失関数の最小値が達成されて訓練エラーが最小化されるまで同じ又は異なる入力について繰り返すことができる。当業では、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法及びメタヒューリスティック法などの複数の訓練法が知られている。 Training the DNN model 108 may involve updating one or more parameters of each node of the DNN model 108 based on whether the output of the final layer for a given input (from the training dataset) matches the correct result based on the loss function of the DNN model 108. The above process may be repeated for the same or different inputs until a minimum of the loss function is achieved and the training error is minimized. Several training methods are known in the art, such as gradient descent, stochastic gradient descent, batch gradient descent, gradient boosting, and metaheuristic methods.

ある実施形態では、DNNモデル108が、例えば電子装置102又はサーバ104上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。DNNモデル108は、電子装置102又はサーバ110などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。DNNモデル108は、入力画像内の画像特徴を検出するための1又は2以上の動作を電子装置102又はサーバ104などのコンピュータ装置が実行できるようにするコンピュータ実行可能コード又はルーチンを含むことができる。これに加えて又は代えて、DNNモデル108は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。例えば、電子装置102(又はサーバ104)には、画像特徴検出タスクのためのDNNモデル108の計算を加速させる推論アクセラレータチップを含めることができる。いくつかの実施形態では、DNNモデル108を、ハードウェア及びソフトウェアの両方の組み合わせを使用して実装することができる。DNNモデル108の例としては、以下に限定するわけではないが、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、Regions with CNN(R-CNN)、Fast R-CNN、Faster R-CNN、You Only Look Once(YOLO)ネットワーク、残差ニューラルネットワーク(Res-Net)、特徴ピラミッドネットワーク(FPN)、網膜ネット、シングルショット検出器(SSD)、及び/又はこれらの組み合わせを挙げることができる。 In some embodiments, the DNN model 108 may include electronic data that may be implemented, for example, as a software component of an application executable on the electronic device 102 or server 104. The DNN model 108 may rely on libraries, external scripts, or other logic/instructions for execution by a processing device, such as the electronic device 102 or server 110. The DNN model 108 may include computer-executable code or routines that enable a computing device, such as the electronic device 102 or server 104, to perform one or more operations to detect image features in an input image. Additionally or alternatively, the DNN model 108 may be implemented using hardware, including a processor, a microprocessor (e.g., performing or controlling one or more operations), a field programmable gate array (FPGA), or an application specific integrated circuit (ASIC). For example, the electronic device 102 (or server 104) may include an inference accelerator chip that accelerates the computation of the DNN model 108 for image feature detection tasks. In some embodiments, the DNN model 108 may be implemented using a combination of both hardware and software. Examples of the DNN model 108 include, but are not limited to, an artificial neural network (ANN), a convolutional neural network (CNN), Regions with CNN (R-CNN), Fast R-CNN, Faster R-CNN, You Only Look Once (YOLO) network, a residual neural network (Res-Net), a feature pyramid network (FPN), a retina net, a single shot detector (SSD), and/or combinations thereof.

画像特徴検出モデル110は、第1の画像に関連する画像特徴を抽出するように構成された画像処理アルゴリズムとすることができる。画像特徴検出モデル110は、例えば画像特徴の数、エッジ閾値、重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。画像特徴検出モデル110のハイパーパラメータは、画像特徴検出モデル110のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。画像特徴検出モデル110は、例えば電子装置102又はサーバ104上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。画像特徴検出モデル110は、電子装置102又はサーバ104などの処理装置による実行のためにライブラリ、外部スクリプト又はその他のロジック/命令に依拠することができる。画像特徴検出モデル110は、第1の画像に関連する画像特徴セットを抽出することなどの1又は2以上の動作を電子装置102又はサーバ104などのコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、画像特徴検出モデル110は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、画像特徴検出モデル110を、ハードウェアとソフトウェアとの組み合わせを使用して実装することもできる。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。 The image feature detection model 110 may be an image processing algorithm configured to extract image features associated with the first image. The image feature detection model 110 may be defined by hyperparameters such as, for example, the number of image features, an edge threshold, the number of weights, a cost function, an input size, and the number of layers. The hyperparameters of the image feature detection model 110 may be adjusted to move toward a global minimum of the cost function of the image feature detection model 110, and the weights may be updated accordingly. The image feature detection model 110 may include electronic data that may be implemented as a software component of an application executable on, for example, the electronic device 102 or the server 104. The image feature detection model 110 may rely on libraries, external scripts, or other logic/instructions for execution by a processing device, such as the electronic device 102 or the server 104. The image feature detection model 110 may include code and routines configured to enable a computing device, such as the electronic device 102 or the server 104, to perform one or more operations, such as extracting a set of image features associated with the first image. Additionally or alternatively, the image feature detection model 110 may be implemented using hardware, including a processor, a microprocessor (e.g., performing or controlling one or more operations), a field programmable gate array (FPGA), or an application specific integrated circuit (ASIC). Alternatively, in some embodiments, the image feature detection model 110 may be implemented using a combination of hardware and software. Examples of the image feature detection model 110 may include, but are not limited to, a scale invariant feature transform (SIFT)-based model, a speed-up robust features (SURF)-based model, an oriented FAST and rotated BRIEF (ORB)-based model, or a fast library for approximate nearest neighbors (FLANN)-based model.

サーバ104は、DNNモデル108及び画像特徴検出モデル110を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。サーバ104は、DNNモデル108を使用して第1の画像に関連する第1の特徴ベクトルを生成し、画像特徴検出モデル110を使用して第1の画像に関連する第2の特徴ベクトルを生成することができる。サーバ104は、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデルをさらに記憶することができる。記憶された機械学習モデルは、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するように構成することができる。例示的な実施形態では、サーバ104がクラウドサーバとして実装され、ウェブアプリケーション、クラウドアプリケーション、HTTPリクエスト、リポジトリ操作及びファイル転送などを通じて動作を実行することができる。サーバ104の他の実装例としては、以下に限定するわけではないが、データベースサーバ、ファイルサーバ、ウェブサーバ、アプリケーションサーバ、メインフレームサーバ、又はクラウドコンピューティングサーバを挙げることができる。 The server 104 may include suitable logic, circuitry, interfaces, and/or code that may be configured to store the DNN model 108 and the image feature detection model 110. The server 104 may use the DNN model 108 to generate a first feature vector associated with a first image and the image feature detection model 110 to generate a second feature vector associated with the first image. The server 104 may further store a machine learning model different from the DNN model 108 and the image feature detection model 110. The stored machine learning model may be configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector. In an exemplary embodiment, the server 104 is implemented as a cloud server and may perform operations through web applications, cloud applications, HTTP requests, repository operations, file transfers, and the like. Other implementations of the server 104 may include, but are not limited to, a database server, a file server, a web server, an application server, a mainframe server, or a cloud computing server.

少なくとも1つの実施形態では、当業者に周知の複数の技術を使用することにより、サーバ104を複数の分散型クラウドベースリソースとして実装することができる。当業者であれば、本開示の範囲を2つの別個のエンティティとしてのサーバ104及び電子装置102の実装に限定しないこともできると理解するであろう。いくつかの実施形態では、本開示の範囲から逸脱することなく、サーバ104の機能を全体的に又は少なくとも部分的に電子装置102に組み込むこともできる。 In at least one embodiment, the server 104 can be implemented as multiple distributed cloud-based resources using techniques known to those of skill in the art. Those skilled in the art will appreciate that the scope of the present disclosure may not be limited to the implementation of the server 104 and the electronic device 102 as two separate entities. In some embodiments, the functionality of the server 104 may be incorporated in whole or at least in part into the electronic device 102 without departing from the scope of the present disclosure.

データベース106は、DNNモデル108のための訓練データセット112を記憶するように構成できる好適なロジック、インターフェイス及び/又はコードを含むことができる。訓練データセット112は、予め記憶された訓練画像セット、及び予め記憶された訓練画像セットの各画像に割り当てられた所定のタグを含むことができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。DNNモデル108は、訓練データセット112に基づいて画像特徴検出タスクのために予め訓練することができる。ある実施形態では、データベース106を、予め記憶された第2の画像セットを記憶するようにさらに構成することができる。データベース106は、リレーショナルデータベース又は非リレーショナルデータベースとすることができる。また、いくつかの事例では、データベース106をクラウドサーバなどのサーバ(例えば、サーバ104)上に記憶し、又は電子装置102上にキャッシュして記憶することもできる。これに加えて又は代えて、データベース106は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。他のいくつかの事例では、データベース106を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。 The database 106 may include suitable logic, interfaces, and/or code that may be configured to store a training data set 112 for the DNN model 108. The training data set 112 may include a pre-stored set of training images and a pre-defined tag assigned to each image of the pre-stored set of training images. The pre-defined tag assigned to a particular training image may include a label corresponding to an image feature that may have been pre-determined for the particular training image. The DNN model 108 may be pre-trained for an image feature detection task based on the training data set 112. In some embodiments, the database 106 may be further configured to store a second pre-stored set of images. The database 106 may be a relational or non-relational database. Also, in some cases, the database 106 may be stored on a server, such as a cloud server (e.g., the server 104), or cached and stored on the electronic device 102. Additionally or alternatively, database 106 may be implemented using hardware, including a processor, a microprocessor (e.g., performing or controlling one or more operations), a field programmable gate array (FPGA), or an application specific integrated circuit (ASIC). In some other cases, database 106 may be implemented using a combination of hardware and software.

通信ネットワーク114は、電子装置102、サーバ104及びデータベース106が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク114の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ロングタームエボリューション(LTE)ネットワーク、(無線ローカルエリアネットワーク)WLAN、ローカルエリアネットワーク(LAN)、電話回線(POTS)、及び/又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。ネットワーク環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク114に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE 802.11s、IEEE 802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、又はBluetooth(BT)通信プロトコルのうちの少なくとも1つ、或いはこれらの組み合わせを挙げることができる。 The communication network 114 may include a communication medium that allows the electronic device 102, the server 104, and the database 106 to communicate with each other. Examples of the communication network 114 may include, but are not limited to, the Internet, a cloud network, a Long Term Evolution (LTE) network, a (wireless local area network) WLAN, a local area network (LAN), a telephone line (POTS), and/or a metropolitan area network (MAN). The various devices in the network environment 100 may be configured to connect to the communication network 114 according to various wired and wireless communication protocols. Examples of such wired and wireless communication protocols include, but are not limited to, at least one of the following: Transmission Control Protocol and Internet Protocol (TCP/IP), User Datagram Protocol (UDP), Hypertext Transfer Protocol (HTTP), File Transfer Protocol (FTP), ZigBee, EDGE, IEEE 802.11, Light Fidelity (Li-Fi), 802.16, IEEE 802.11s, IEEE 802.11g, multi-hop communication, wireless access point (AP), device-to-device communication, cellular communication protocol, or Bluetooth (BT) communication protocol, or a combination thereof.

動作中、電子装置102は、逆画像検索クエリを開始することができる。ある実施形態では、逆画像検索を、(図2に示す)ディスプレイ装置を介して受け取られたユーザ入力に基づいて開始することができる。電子装置102は、逆画像検索の開始時に第1の画像を画像検索クエリとして受け取るように構成することができる。例えば、第1の画像は、ユーザ入力に基づいて電子装置102の(図2に示す)I/O装置を通じてアップロードされた画像に対応することができる。第1の画像は、前景又は背景オブジェクトが固定された静止画像、又はビデオから抽出された画像に関連することができる。電子装置102は、受け取った第1の画像に関連する第1の画像特徴セットをDNNモデル108によって抽出するように構成することができる。電子装置102は、受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデル110によって抽出するように構成することができる。第1の画像特徴セット及び第2の画像特徴セットの詳細については、例えば図3に示す。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。 In operation, the electronic device 102 may initiate a reverse image search query. In some embodiments, the reverse image search may be initiated based on user input received via a display device (shown in FIG. 2). The electronic device 102 may be configured to receive a first image as an image search query at the initiation of the reverse image search. For example, the first image may correspond to an image uploaded through an I/O device (shown in FIG. 2) of the electronic device 102 based on user input. The first image may relate to a still image with fixed foreground or background objects, or an image extracted from a video. The electronic device 102 may be configured to extract a first set of image features associated with the received first image by the DNN model 108. The electronic device 102 may be configured to extract a second set of image features associated with the received first image by the image feature detection model 110. Details of the first and second image feature sets are shown, for example, in FIG. 3. Examples of the image feature detection model 110 include, but are not limited to, a scale invariant feature transform (SIFT)-based model, a speed-up robust features (SURF)-based model, an oriented FAST and rotated BRIEF (ORB)-based model, or a fast library for approximate nearest neighbors (FLANN)-based model.

電子装置102は、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像に関連する第1の特徴ベクトルを生成するようにさらに構成することができる。電子装置102は、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像に関連する第2の特徴ベクトルを生成するようにさらに構成することができる。受け取った第1の画像に関連する第1の特徴ベクトルは、第1の画像特徴セットに関する情報を含むことができるベクトルとすることができ、受け取った第1の画像に関連する第2の特徴ベクトルは、第2の画像特徴セットに関する情報を含むことができるベクトルとすることができる。電子装置102は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像に関連する第3の特徴ベクトルを生成するようにさらに構成することができる。第3の特徴ベクトルは、以下に限定するわけではないが、生成された第1の特徴ベクトル及び生成された第2のベクトルを含む。ある実施形態では、第3の特徴ベクトルの生成が、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。第3の特徴ベクトルの生成の詳細については、例えば図3で説明する。 The electronic device 102 may be further configured to generate a first feature vector associated with the received first image based on the extracted first image feature set. The electronic device 102 may be further configured to generate a second feature vector associated with the received first image based on the extracted second image feature set. The first feature vector associated with the received first image may be a vector that may include information about the first image feature set, and the second feature vector associated with the received first image may be a vector that may include information about the second image feature set. The electronic device 102 may be further configured to generate a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector. The third feature vector includes, but is not limited to, the generated first feature vector and the generated second vector. In an embodiment, the generation of the third feature vector may be further based on application of a principal component analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector. Details of the generation of the third feature vector are described, for example, in FIG. 3.

電子装置102は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、(データベース106に記憶された画像などの)予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。電子装置102は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(受け取った第1の画像と同一又は同様の画像などの)予め記憶された第3の画像を識別するように構成することができる。電子装置102は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御するようさらに構成することができる。類似度メトリックの決定及び予め記憶された第3の画像の識別の詳細については、例えば図3でさらに説明する。 The electronic device 102 may be configured to determine a similarity metric between the generated third feature vector associated with the received first image and the fourth feature vector of each image of the pre-stored second set of images (e.g., images stored in the database 106). Examples of similarity metrics may include, but are not limited to, cosine distance similarity or Euclidean distance similarity. The electronic device 102 may be configured to identify a pre-stored third image (e.g., an image that is the same or similar to the received first image) from the pre-stored second set of images based on the determined similarity metric. The electronic device 102 may be further configured to control a display device to display information related to the identified pre-stored third image. Details of the determination of the similarity metric and the identification of the pre-stored third image are further described, for example, in FIG. 3.

図2は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な電子装置を示すブロック図である。図2の説明は、図1の要素に関連して行う。図2には、電子装置102のブロック図200を示す。電子装置102は、回路202、メモリ204、入力/出力(I/O)装置206、及びネットワークインターフェイス208を含むことができる。I/O装置206は、ディスプレイ装置210をさらに含むことができる。ネットワークインターフェイス208は、通信ネットワーク114を介して電子装置102をサーバ104及びデータベース106に接続することができる。 2 is a block diagram illustrating an exemplary electronic device for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure. The description of FIG. 2 is provided with reference to the elements of FIG. 1. FIG. 2 illustrates a block diagram 200 of an electronic device 102. The electronic device 102 may include a circuit 202, a memory 204, an input/output (I/O) device 206, and a network interface 208. The I/O device 206 may further include a display device 210. The network interface 208 may connect the electronic device 102 to the server 104 and the database 106 via the communication network 114.

回路202は、電子装置102によって実行される異なる動作に関連するプログラム命令を実行するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。回路202は、独立したプロセッサとして実装できる1又は2以上の特殊処理ユニットを含むことができる。ある実施形態では、1又は2以上の特殊処理ユニットを、1又は2以上の特殊処理ユニットの機能をまとめて実行するように構成できる統合プロセッサ又はプロセッサ群として実装することができる。回路202は、当業で周知の複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、X86ベースのプロセッサ、グラフィックプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、中央処理装置(CPU)、及び/又はその他の制御回路とすることができる。 The circuitry 202 may include suitable logic, circuits, and/or interfaces that may be configured to execute program instructions associated with different operations performed by the electronic device 102. The circuitry 202 may include one or more specialized processing units that may be implemented as independent processors. In some embodiments, the one or more specialized processing units may be implemented as an integrated processor or processors that may be configured to collectively perform the functions of the one or more specialized processing units. The circuitry 202 may be implemented based on multiple processor technologies known in the art. Example implementations of the circuitry 202 may be an X86-based processor, a graphic processing unit (GPU), a reduced instruction set computing (RISC) processor, an application specific integrated circuit (ASIC) processor, a complex instruction set computing (CISC) processor, a microcontroller, a central processing unit (CPU), and/or other control circuitry.

メモリ204は、回路202によって実行されるプログラム命令を記憶するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。少なくとも1つの実施形態では、メモリ204を、DNNモデル108及び画像特徴検出モデル110を記憶するように構成することができる。メモリ204は、以下に限定するわけではないが、類似度メトリック、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデル(例えば、図3の機械学習モデル316)、生成された第1の特徴ベクトルに関連する第1の重み、及び生成された第2の特徴ベクトルに関連する第2の重みのうちの1つ又は2つ以上を記憶するように構成することができる。ある実施形態では、メモリ204が、第1の画像、及び識別された予め記憶された第3の画像を記憶することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードなどを挙げることができる。 The memory 204 may include suitable logic, circuitry, interfaces, and/or code that may be configured to store program instructions executed by the circuit 202. In at least one embodiment, the memory 204 may be configured to store the DNN model 108 and the image feature detection model 110. The memory 204 may be configured to store one or more of, but is not limited to, a similarity metric, a machine learning model different from the DNN model 108 and the image feature detection model 110 (e.g., the machine learning model 316 of FIG. 3), a first weight associated with the generated first feature vector, and a second weight associated with the generated second feature vector. In an embodiment, the memory 204 may store the first image and the identified pre-stored third image. Examples of implementations of memory 204 include, but are not limited to, random access memory (RAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), hard disk drive (HDD), solid-state drive (SSD), CPU cache, and/or secure digital (SD) cards.

I/O装置206は、入力を受け取り、受け取った入力に基づいて出力を提供するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。I/O装置206は、回路202と通信するように構成できる様々な入力及び出力装置を含むことができる。ある例では、電子装置102が、逆画像検索クエリを含むユーザ入力を(I/O装置206を介して)受け取ることができる。逆画像検索クエリは、第1の画像を含むことができる。別の例では、電子装置102が、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を(I/O装置206を介して)受け取ることができる。電子装置102は、識別された予め記憶された第3の画像を出力するようにI/O装置206を制御することができる。I/O装置206の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、ディスプレイ装置(例えば、ディスプレイ装置210)、マイク、又はスピーカを挙げることができる。 The I/O device 206 may include suitable logic, circuitry, interfaces, and/or code that may be configured to receive input and provide output based on the received input. The I/O device 206 may include various input and output devices that may be configured to communicate with the circuit 202. In one example, the electronic device 102 may receive (via the I/O device 206) a user input that includes a reverse image search query. The reverse image search query may include a first image. In another example, the electronic device 102 may receive (via the I/O device 206) a user input that includes a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector. The electronic device 102 may control the I/O device 206 to output the identified pre-stored third image. Examples of the I/O device 206 may include, but are not limited to, a touch screen, a keyboard, a mouse, a joystick, a display device (e.g., the display device 210), a microphone, or a speaker.

ディスプレイ装置210は、電子装置102の出力を表示するように構成できる好適なロジック、回路及びインターフェイスを含むことができる。ディスプレイ装置210は、識別された予め記憶された第3の画像に関連する情報を表示するために利用することができる。いくつかの実施形態では、ディスプレイ装置210を、電子装置102に関連する外部結合ディスプレイ装置とすることができる。ディスプレイ装置210は、ユーザ116がディスプレイ装置210を介してユーザ入力を提供できるようにするタッチ画面とすることができる。タッチ画面は、抵抗膜式タッチ画面、静電容量式タッチ画面、熱式タッチ画面、或いはディスプレイ装置210に入力を提供するために使用できる他のいずれかのタッチ画面のうちの少なくとも1つとすることができる。ディスプレイ装置210は、以下に限定するわけではないが、液晶ディスプレイ(LCD)ディスプレイ、発光ダイオード(LED)ディスプレイ、プラズマディスプレイ、又は有機LED(OLED)ディスプレイ技術、又はその他のディスプレイ装置のうちの少なくとも1つなどの複数の既知の技術を通じて実現することができる。 The display device 210 may include suitable logic, circuitry, and interfaces that may be configured to display the output of the electronic device 102. The display device 210 may be utilized to display information related to the identified pre-stored third image. In some embodiments, the display device 210 may be an externally coupled display device associated with the electronic device 102. The display device 210 may be a touch screen that allows the user 116 to provide user input via the display device 210. The touch screen may be at least one of a resistive touch screen, a capacitive touch screen, a thermal touch screen, or any other touch screen that may be used to provide input to the display device 210. The display device 210 may be implemented through a number of known technologies, such as, but not limited to, at least one of a liquid crystal display (LCD) display, a light emitting diode (LED) display, a plasma display, or an organic LED (OLED) display technology, or other display device.

ネットワークインターフェイス208は、通信ネットワーク114を介した電子装置102、サーバ104及びデータベース106の間の通信を容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、様々な既知の技術を使用して通信ネットワーク112との間の電子装置102の有線又は無線通信をサポートするように実装することができる。ネットワークインターフェイス208は、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、加入者IDモジュール(SIM)カード、又はローカルバッファ回路を含むことができる。 The network interface 208 may include suitable logic, circuitry, interfaces, and/or code that may be configured to facilitate communication between the electronic device 102, the server 104, and the database 106 over the communications network 114. The network interface 208 may be implemented to support wired or wireless communication of the electronic device 102 to and from the communications network 112 using a variety of known technologies. The network interface 208 may include, but is not limited to, an antenna, a radio frequency (RF) transceiver, one or more amplifiers, a tuner, one or more oscillators, a digital signal processor, a coder-decoder (CODEC) chipset, a subscriber identity module (SIM) card, or a local buffer circuit.

ネットワークインターフェイス208は、インターネット、イントラネット、無線ネットワーク、セルラー電話ネットワーク、無線ローカルエリアネットワーク(LAN)又はメトロポリタンエリアネットワーク(MAN)などのネットワークと有線通信、無線通信又はこれらの組み合わせを介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーションズ(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多重アクセス(W-CDMA)、ロングタームエボリューション(LTE)、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、Bluetooth、(IEEE802.11a、IEEE802.11b、IEEE802.11g又はIEEE802.11nなどの)ワイヤレスフィデリティ(WiFi)、ボイスオーバーインターネットプロトコル(VoIP)、ライトフィデリティ(Li-Fi)、ワールドワイド・インターオペラビリティ・フォー・マイクロウェーブ・アクセス(Wi-MAX)、電子メール用プロトコル、インスタントメッセージ、及びショートメッセージサービス(SMS)などの複数の通信標準、プロトコル及び技術のうちの1つ又は2つ以上を使用するように構成することができる。 The network interface 208 may be configured to communicate with a network such as the Internet, an intranet, a wireless network, a cellular telephone network, a wireless local area network (LAN) or a metropolitan area network (MAN) via wired communication, wireless communication or a combination thereof. The wireless communication may be configured to use one or more of a number of communication standards, protocols, and technologies, such as Global System for Mobile Communications (GSM), Enhanced Data GSM Environment (EDGE), Wideband Code Division Multiple Access (W-CDMA), Long Term Evolution (LTE), Code Division Multiple Access (CDMA), Time Division Multiple Access (TDMA), Bluetooth, Wireless Fidelity (WiFi) (such as IEEE 802.11a, IEEE 802.11b, IEEE 802.11g, or IEEE 802.11n), Voice over Internet Protocol (VoIP), Light Fidelity (Li-Fi), Worldwide Interoperability for Microwave Access (Wi-MAX), protocols for email, instant messaging, and short message service (SMS).

回路202の動作については、例えば図3及び図4でさらに説明する。なお、図2に示す電子装置102は、他の様々なコンポーネント又はシステムを含むこともできる。電子装置102の他のコンポーネント又はシステムの説明については、簡潔にするために本開示からは省略する。 The operation of circuitry 202 is further described, for example, in FIGS. 3 and 4. It should be noted that electronic device 102 shown in FIG. 2 may also include various other components or systems. Descriptions of other components or systems of electronic device 102 are omitted from this disclosure for the sake of brevity.

図3は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な動作を示す図である。図3の説明は、図1及び図2の要素に関連して行う。図3には、DNNモデル108及び画像特徴検出モデル110に基づく逆画像検索のための302~314の例示的な動作を示すブロック図300を示す。例示的な動作は、例えば図1の電子装置102又は図2の回路202などのいずれかのコンピュータシステムによって実行することができる。 FIG. 3 illustrates an exemplary operation for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure. FIG. 3 is described with reference to elements of FIGS. 1 and 2. FIG. 3 illustrates a block diagram 300 illustrating exemplary operations 302-314 for reverse image search based on a DNN model 108 and an image feature detection model 110. The exemplary operations may be performed by any computer system, such as, for example, the electronic device 102 of FIG. 1 or the circuit 202 of FIG. 2.

302において、第1の画像を受け取ることができる。ある実施形態では、回路202を、第1の画像を受け取るように構成することができる。例えば、第1の画像302Aを受け取ることができる。第1の画像302Aは、例えば電子装置102上の(メモリ204のような)永続記憶装置、画像取り込み装置、クラウドサーバ、又はこれらの組み合わせなどのデータソースから受け取ることができる。第1の画像302Aは、ユーザ116が逆画像検索を使用して同様又は同一の画像結果を必要とし得る関心オブジェクトを含むことができる。或いは、第1の画像302Aは、第1のビデオの一連の画像からの画像に対応することもできる。回路202は、第1のビデオから第1の画像302Aを抽出するように構成することができる。第1のビデオは、ユーザ116が逆画像検索を使用して同様又は同一のビデオ結果を必要とする関心オブジェクトを含むビデオに対応することができる。第1の画像302Aは、前景又は背景が固定された画像を表すことができる。例えば、図示のように、第1の画像302Aは、映画のワンシーン(例えば、図3に示すような、関心オブジェクトとしてのスパイダーマンの画像)を表すことができる。 At 302, a first image may be received. In an embodiment, the circuit 202 may be configured to receive a first image. For example, a first image 302A may be received. The first image 302A may be received from a data source, such as a persistent storage device (such as memory 204) on the electronic device 102, an image capture device, a cloud server, or a combination thereof. The first image 302A may include an object of interest for which the user 116 may require similar or identical image results using a reverse image search. Alternatively, the first image 302A may correspond to an image from a series of images of a first video. The circuit 202 may be configured to extract the first image 302A from the first video. The first video may correspond to a video including an object of interest for which the user 116 may require similar or identical video results using a reverse image search. The first image 302A may represent an image with a fixed foreground or background. For example, as shown, the first image 302A may represent a scene from a movie (e.g., an image of Spider-Man as an object of interest, as shown in FIG. 3).

回路202は、第1の画像302Aを受け取った後に、受け取った第1の画像302Aを画像特徴抽出のためにDNNモデル108及び画像特徴検出モデル110に入力することができる。回路202は、DNNモデル108を使用して、例えば304で説明するように第1の画像302Aに関連する第1の画像特徴セットを抽出することができる。さらに、回路202は、画像特徴検出モデル110を使用して、例えば306で説明するように第1の画像302Aに関連する第2の画像特徴セットを抽出することができる。動作304及び306は、本開示の範囲から逸脱することなくあらゆる順序で実行することができる。 After receiving the first image 302A, the circuit 202 can input the received first image 302A to the DNN model 108 and the image feature detection model 110 for image feature extraction. The circuit 202 can use the DNN model 108 to extract a first set of image features associated with the first image 302A, for example, as described at 304. Additionally, the circuit 202 can use the image feature detection model 110 to extract a second set of image features associated with the first image 302A, for example, as described at 306. Operations 304 and 306 can be performed in any order without departing from the scope of this disclosure.

304において、第1の画像特徴を抽出することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する第1の画像特徴セットを(DNNモデル108などの)ディープニューラルネットワーク(DNN)モデルによって抽出するように構成することができる。抽出される第1の画像特徴セットは、受け取った第1の画像302A内の1又は2以上のオブジェクトに関連する固有の特徴に対応することができる。DNNモデル108は、予め記憶された訓練画像セットのうちの所定のタグが割り当てられた訓練データセット112に基づいて画像特徴抽出タスクのために予め訓練することができる。特定の訓練画像に割り当てられる所定のタグは、特定の訓練画像について予め決定しておくことができる画像特徴に対応するラベルを含むことができる。回路202は、DNNモデル108に第1の画像302Aを入力として供給し、DNNモデル108によって第1の画像302Aに対して実行された画像特徴検出タスクに基づいて、DNNモデル108からの出力として第1の画像特徴セット(すなわち、第1の画像302Aに関連する画像特徴セット)を受け取ることができる。 At 304, a first image feature may be extracted. In one embodiment, the circuit 202 may be configured to extract a first set of image features associated with the received first image 302A by a deep neural network (DNN) model (such as the DNN model 108). The extracted first set of image features may correspond to unique features associated with one or more objects in the received first image 302A. The DNN model 108 may be pre-trained for an image feature extraction task based on a training data set 112 of a pre-stored set of training images to which pre-defined tags have been assigned. The pre-defined tags assigned to a particular training image may include labels corresponding to image features that may have been pre-determined for the particular training image. The circuit 202 may provide the first image 302A as an input to the DNN model 108 and receive the first set of image features (i.e., a set of image features associated with the first image 302A) as an output from the DNN model 108 based on an image feature detection task performed by the DNN model 108 on the first image 302A.

ある実施形態では、抽出される第1の画像特徴セットが、含まれている各オブジェクトを特定のオブジェクトクラスに分類するために必要とされる情報を含むことができる。抽出される第1の画像特徴セットの例としては、以下に限定するわけではないが、形状、テクスチャ、色、及びその他の高水準画像特徴を挙げることができる。例えば、図3に示すように、第1の画像302Aに関連する抽出された第1の画像特徴304Aは、(スパイダーマンの顔などの)関心オブジェクト上のグレイシェードとして示す色を含むことができる。例えば、第1の画像302Aにおいてスパイダーマン又はその他の人物/キャラクタなどの人物の顔が関心オブジェクトである場合、第1の画像特徴セット304Aは、目の形、耳の形、鼻の形、及び人物/キャラクタの他の高水準な顔の細部の形/テクスチャを含むことができる。DNNモデル108による第1の画像特徴セットの抽出の詳細な実装は当業者に周知であると考えられ、従ってこのような第1の画像特徴セットの抽出の詳細な説明については、簡潔にするために本開示からは省略する。 In some embodiments, the first set of extracted image features may include information required to classify each included object into a particular object class. Examples of the first set of extracted image features may include, but are not limited to, shape, texture, color, and other high-level image features. For example, as shown in FIG. 3, the extracted first image features 304A associated with the first image 302A may include color shown as a shade of gray on the object of interest (such as Spiderman's face). For example, if the face of a person, such as Spiderman or other person/character, is the object of interest in the first image 302A, the first set of image features 304A may include eye shape, ear shape, nose shape, and shape/texture of other high-level facial details of the person/character. The detailed implementation of the extraction of the first set of image features by the DNN model 108 is believed to be well known to those skilled in the art, and therefore a detailed description of such extraction of the first set of image features is omitted from this disclosure for the sake of brevity.

回路202は、抽出された第1の画像特徴セットに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。このような第1の特徴ベクトルは、固有の第1の画像特徴セットと呼ぶこともできる。生成された第1の特徴ベクトルは、それぞれが抽出された第1の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第1の特徴ベクトルの各ベクトル要素は、第1の画像特徴セットからの特定の第1の画像特徴に対応できる値を記憶することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第1の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。第1の特徴ベクトルのi番目の要素は、i番目の第1の画像特徴の値を表すことができる。 The circuit 202 may be configured to generate a first feature vector associated with the received first image 302A based on the extracted first image feature set. Such a first feature vector may also be referred to as a unique first image feature set. The generated first feature vector may include a plurality of vector elements, each of which may correspond to an image feature from the extracted first image feature set. Each vector element of the first feature vector may store a value that may correspond to a particular first image feature from the first image feature set. For example, if the received first image 302A is a high definition image (e.g., an image of "1024x1024" pixels), the first feature vector may be a "1x2048" vector having 2048 vector elements. The i-th element of the first feature vector may represent the value of the i-th first image feature.

306において、第2の画像特徴セットを抽出することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する第2の画像特徴セットを(画像特徴検出モデル110などの)画像特徴検出モデルによって抽出するように構成することができる。抽出される第2の画像特徴セットは、受け取った第1の画像302Aに含まれる1又は2以上のオブジェクトに関連する特定の固有の特徴に対応することができる。いくつかの実施形態では、第2の画像特徴セットは、(例えば、304において)DNNモデル108によって誤検出された又は未検出のままである可能性がある画像特徴とすることができる。ある実施形態では、抽出される第2の画像特徴セットが、(第1の画像302A内の)各オブジェクトを特定のオブジェクトクラスに最適に分類するために必要とされる情報を含むことができる。第2の画像特徴セットの例としては、以下に限定するわけではないが、エッジ、ライン、輪郭及びその他の低水準画像特徴を挙げることができる。画像特徴検出モデル110の例としては、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルを挙げることができる。これらの例示的な方法の詳細な実装は当業者に周知であると考えられ、従ってこのような方法の詳細な説明については、簡潔にするために本開示からは省略する。例えば、図3に示すように、第1の画像302Aに関連する第2の画像特徴セット306Aは、SIFTベースのモデルに基づいて抽出された第2の画像特徴セットを示し、第1の画像302Aに関連する第2の画像特徴セット306Bは、SURFベースのモデルに基づいて抽出された第2の画像特徴セットを示す。例えば、第1の画像302A内のスパイダーマン又は他のいずれかの人物/キャラクタなどの人物の顔が関心オブジェクトである場合、第2の画像特徴セット306A(又は第2の画像特徴セット306B)は、目のエッジ及び輪郭、耳のエッジ及び輪郭、鼻のエッジ及び輪郭、並びに人物/キャラクタの他の低水準な顔の詳細を含むことができる。 At 306, a second set of image features may be extracted. In some embodiments, the circuit 202 may be configured to extract a second set of image features associated with the received first image 302A by an image feature detection model (such as the image feature detection model 110). The extracted second set of image features may correspond to certain unique features associated with one or more objects contained in the received first image 302A. In some embodiments, the second set of image features may be image features that may have been misdetected or remain undetected by the DNN model 108 (e.g., at 304). In some embodiments, the extracted second set of image features may include information required to optimally classify each object (in the first image 302A) into a particular object class. Examples of the second set of image features may include, but are not limited to, edges, lines, contours, and other low-level image features. Examples of the image feature detection model 110 may include, but are not limited to, a scale-invariant feature transform (SIFT)-based model, a speed-up robust features (SURF)-based model, an oriented FAST and rotated BRIEF (ORB)-based model, or a fast library for approximate nearest neighbors (FLANN)-based model. Detailed implementations of these exemplary methods are believed to be well known to those skilled in the art, and therefore detailed descriptions of such methods are omitted from this disclosure for the sake of brevity. For example, as shown in FIG. 3, a second image feature set 306A associated with a first image 302A represents a second image feature set extracted based on a SIFT-based model, and a second image feature set 306B associated with a first image 302A represents a second image feature set extracted based on a SURF-based model. For example, if the face of a person, such as Spider-Man or any other person/character in the first image 302A, is the object of interest, the second image feature set 306A (or the second image feature set 306B) may include eye edges and contours, ear edges and contours, nose edges and contours, and other low level facial details of the person/character.

回路202は、抽出された第2の画像特徴セットに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するようにさらに構成することができる。このような第2の特徴ベクトルは、固有の第2の画像特徴セットと呼ぶこともできる。生成された第2の特徴ベクトルは、それぞれが抽出された第2の画像特徴セットからの画像特徴に対応できる複数のベクトル要素を含むことができる。第2の特徴ベクトルの各ベクトル要素は、第2の画像特徴セットからの特定の第2の画像特徴に対応できる値を記憶することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第2の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。第2の特徴ベクトルのi番目の要素は、i番目の第2の画像特徴の値を表すことができる。 The circuit 202 may further be configured to generate a second feature vector associated with the received first image 302A based on the extracted second image feature set. Such a second feature vector may also be referred to as a unique second image feature set. The generated second feature vector may include a plurality of vector elements, each of which may correspond to an image feature from the extracted second image feature set. Each vector element of the second feature vector may store a value that may correspond to a particular second image feature from the second image feature set. For example, if the received first image 302A is a high definition image (e.g., an image of "1024x1024" pixels), the second feature vector may be a "1x2048" vector having 2048 vector elements. The i-th element of the second feature vector may represent the value of the i-th second image feature.

308において、特徴ベクトルを結合することができる。ある実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。ある実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを自動的に結合するように構成することができる。例えば、受け取った第1の画像302Aが高精細画像(例えば、「1024×1024」画素の画像)である場合、第1の特徴ベクトルは、2048個のベクトル要素を有する「1×2048」ベクトルであることができ、第2の特徴ベクトルも、2048個のベクトル要素を有する「1×2048」ベクトルであることができる。このような場合、第3の特徴ベクトルは、4096個のベクトル要素を有する「1×4096」ベクトルであることができる。 At 308, the feature vectors can be combined. In some embodiments, the circuit 202 can be configured to generate a third feature vector associated with the received first image 302A based on combining the generated first feature vector and the generated second feature vector. In some embodiments, the circuit 202 can be configured to automatically combine the generated first feature vector and the generated second feature vector. For example, if the received first image 302A is a high definition image (e.g., an image of "1024 x 1024" pixels), the first feature vector can be a "1 x 2048" vector having 2048 vector elements, and the second feature vector can also be a "1 x 2048" vector having 2048 vector elements. In such a case, the third feature vector can be a "1 x 4096" vector having 4096 vector elements.

ある実施形態では、回路202を、機械学習モデル316(すなわち、DNNモデル108及び画像特徴検出モデル110とは異なる機械学習モデル)によって、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するように構成することができる。機械学習モデル316は、同様のサイズの特徴ベクトルセットに基づいて訓練できる回帰モデルとすることができ、各ベクトルにはユーザが定義した重み値をタグ付けすることができる。機械学習モデル316は、特徴ベクトル重み割り当てタスクに基づいて訓練することができ、ここでは、機械学習モデル316が、2つの同様のサイズの特徴ベクトルセットを入力として受け取り、2つの同様のサイズの特徴ベクトルセットの各々の重みを出力することができる。機械学習モデル316は、例えば重みの数、コスト関数、入力サイズ及び層の数などのハイパーパラメータによって定めることができる。機械学習モデル316のハイパーパラメータは、機械学習モデル316のコスト関数の大域的極小値に向かうように調整することができ、重みもそのように更新することができる。機械学習モデル316は、訓練データセット内の特徴情報に基づく数エポックの訓練後に、入力セットの重み値を出力するように訓練することができる。この出力は、入力セットの各入力(例えば、第1の特徴ベクトル及び第2の特徴ベクトル)の重み値を示すことができる。 In one embodiment, the circuit 202 can be configured to determine a first weight associated with the first generated feature vector and a second weight associated with the second generated feature vector by a machine learning model 316 (i.e., a machine learning model different from the DNN model 108 and the image feature detection model 110). The machine learning model 316 can be a regression model that can be trained based on a set of similarly sized feature vectors, where each vector can be tagged with a user-defined weight value. The machine learning model 316 can be trained based on a feature vector weight assignment task, where the machine learning model 316 can receive two similarly sized feature vector sets as inputs and output weights for each of the two similarly sized feature vector sets. The machine learning model 316 can be defined by hyperparameters, such as the number of weights, the cost function, the input size, and the number of layers. The hyperparameters of the machine learning model 316 can be adjusted to move toward a global minimum of the cost function of the machine learning model 316, and the weights can be updated accordingly. The machine learning model 316 can be trained to output weight values for an input set after several epochs of training based on feature information in a training data set. This output can indicate a weight value for each input in the input set (e.g., the first feature vector and the second feature vector).

機械学習モデル316は、例えば電子装置102上で実行可能なアプリケーションのソフトウェアコンポーネントとして実装できる電子データを含むことができる。機械学習モデル316は、回路202などのプロセッサを含むコンピュータ装置による実行のためにライブラリ、外部スクリプト又は他のロジック/命令に依拠することができる。機械学習モデル316は、第1の特徴ベクトルに関連する第1の重みの決定、及び第2の特徴ベクトルに関連する第2の重みの決定のための1又は2以上の動作を回路202などのプロセッサを含むコンピュータ装置が実行できるようにするよう構成されたコード及びルーチンを含むことができる。これに加えて又は代えて、機械学習モデル316は、プロセッサ、(例えば、1又は2以上の動作の実行又はその制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを使用して実装することもできる。或いは、いくつかの実施形態では、機械学習モデル316を、ハードウェアとソフトウェアとの組み合わせを使用して実装することができる。 The machine learning model 316 may include electronic data that may be implemented, for example, as a software component of an application executable on the electronic device 102. The machine learning model 316 may rely on libraries, external scripts, or other logic/instructions for execution by a computing device including a processor, such as the circuit 202. The machine learning model 316 may include code and routines configured to enable a computing device including a processor, such as the circuit 202, to perform one or more operations for determining a first weight associated with a first feature vector and determining a second weight associated with a second feature vector. Additionally or alternatively, the machine learning model 316 may be implemented using hardware, including a processor, a microprocessor (e.g., performing or controlling one or more operations), a field programmable gate array (FPGA), or an application specific integrated circuit (ASIC). Alternatively, in some embodiments, the machine learning model 316 may be implemented using a combination of hardware and software.

生成された第1の特徴ベクトルに関連する第1の重み及び生成された第2の特徴ベクトルに関連する第2の重みの各々は、画像内の関心オブジェクトの識別、従って関心オブジェクトを含むことができる類似する画像の識別のためのそれぞれの特徴ベクトルの信頼性の尤度を示すことができる。第1の重み及び第2の重みは、信頼性のための信頼値を(0~1の確率値で)指定することができる。従って、信頼性の高い特徴ベクトルほど高い重み値を有することができる。例えば、受け取った第1の画像302Aが高解像度画像であり、抽出された第1の画像特徴セットの方が抽出された第2の画像特徴セットよりも精密である場合、生成された第1の特徴ベクトルは生成された第2の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第1の特徴ベクトルに関連する第1の重みが、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.4値)と比べて高い重み値(例えば、0.6値)を有することができる。対照的に、受け取った第1の画像302Aが低解像度画像であり、抽出された第2の画像特徴セットの方が抽出された第1の画像特徴セットよりも精密である場合、生成された第2の特徴ベクトルは、生成された第1の特徴ベクトルよりも高い信頼性を有することができる。このような例では、生成された第1の特徴ベクトルに関連する第1の重みが、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.6値)と比べて低い重み値(例えば、0.4値)を有することができる。さらに、受け取った第1の画像302Aが中解像度画像(例えば、標準解像度画像)である場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重み(例えば、0.5値)と比べて等しい重み値(例えば、0.5)を有することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトル及び生成された第2の特徴ベクトルを結合し、この結合に基づいて第3の特徴ベクトルをさらに生成するようにさらに構成することができる。 Each of the first weight associated with the generated first feature vector and the second weight associated with the generated second feature vector may indicate a likelihood of the reliability of the respective feature vector for identifying an object of interest in an image and thus identifying similar images that may contain the object of interest. The first weight and the second weight may specify a confidence value for the reliability (with a probability value between 0 and 1). Thus, a more reliable feature vector may have a higher weight value. For example, if the received first image 302A is a high-resolution image and the extracted first image feature set is more precise than the extracted second image feature set, the generated first feature vector may have a higher reliability than the generated second feature vector. In such an example, the first weight associated with the generated first feature vector may have a higher weight value (e.g., a value of 0.6) compared to the second weight associated with the generated second feature vector (e.g., a value of 0.4). In contrast, if the received first image 302A is a low-resolution image and the extracted second image feature set is more precise than the extracted first image feature set, the generated second feature vector may have a higher reliability than the generated first feature vector. In such an example, the first weight associated with the generated first feature vector may have a lower weight value (e.g., a 0.4 value) compared to the second weight associated with the generated second feature vector (e.g., a 0.6 value). Furthermore, if the received first image 302A is a medium resolution image (e.g., a standard resolution image), the first weight associated with the generated first feature vector may have an equal weight value (e.g., 0.5) compared to the second weight associated with the generated second feature vector (e.g., a 0.5 value). The circuit 202 may be further configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight, and further generate a third feature vector based on the combination.

ある実施形態では、回路202を、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取るように構成することができる。ある例では、受け取ったユーザ入力が、生成された第1の特徴ベクトルに関連する第1の重みを「0.4」として示すことができ、この結果、回路202は、生成された第2の特徴ベクトルに関連する第2の重みを「0.6」として決定するように構成することができる。別の例では、受け取ったユーザ入力が、生成された第1の特徴ベクトルに関連する第1の重みを「0.5」として示し、生成された第2の特徴ベクトルに関連する第2の重みを「0.5」として示すことができる。回路202は、受け取ったユーザ入力に基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合し、この結合に基づいて第3の特徴ベクトルをさらに生成するようにさらに構成することができる。 In one embodiment, the circuit 202 can be configured to receive a user input including a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector. In one example, the received user input can indicate the first weight associated with the generated first feature vector as "0.4", such that the circuit 202 can be configured to determine the second weight associated with the generated second feature vector as "0.6". In another example, the received user input can indicate the first weight associated with the generated first feature vector as "0.5" and the second weight associated with the generated second feature vector as "0.5". The circuit 202 can be further configured to combine the generated first feature vector and the generated second feature vector based on the received user input, and further generate a third feature vector based on the combination.

ある実施形態では、回路202を、DNNモデル108によって、受け取った第1の画像302AをDNNモデル108に関連する画像タグの組からの第1の画像タグに分類するように構成することができる。第1の画像タグは、受け取った第1の画像302Aが属することができる画像タグを指定することができる。例えば、受け取った第1の画像302Aは、スパイダーマンのキャラクタなどの画像タグを有することができる。回路202は、DNNモデル108に関連する(訓練データセット112などの)訓練データセット内で、第1の画像タグに関連する第1の画像カウントを決定するようにさらに構成することができる。例えば、回路202は、第1の画像タグを、訓練データセット112内の予め記憶された訓練画像セットからの予め記憶された訓練画像の画像タグと比較することができる。訓練データセット112内の予め記憶された訓練画像の画像タグが第1の画像タグに一致する場合、回路202は、第1の画像タグに関連する第1の画像カウントを1だけ増分する。同様に、回路202は、訓練データセット112内の予め記憶された訓練画像の各々の画像タグと第1の画像タグとの比較に基づいて第1の画像カウントを決定することができる。回路202は、第1の画像タグに関連する決定された第1の画像カウントに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。例えば、訓練データセット112内の第1の画像カウントが一定の閾値(例えば、訓練データセット112内の全画像の閾値カウント又はパーセンテージ)よりも高い場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重みと比べて高い重み値を有することができる。対照的に、訓練データセット112内の第1の画像カウントが閾値又は公称値(例えば、100万の画像の訓練データセット112内の数百の画像などの容易に無視できる値)よりも低い場合、生成された第1の特徴ベクトルに関連する第1の重みは、生成された第2の特徴ベクトルに関連する第2の重みと比べて低い重み値を有することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトル及び生成された第2の特徴ベクトルを結合して第3の特徴ベクトルを生成し、この結合に基づいて第3の特徴ベクトルをさらに生成するように構成することができる。 In an embodiment, the circuit 202 can be configured to classify the received first image 302A by the DNN model 108 to a first image tag from a set of image tags associated with the DNN model 108. The first image tag can specify an image tag to which the received first image 302A can belong. For example, the received first image 302A can have an image tag such as a Spider-Man character. The circuit 202 can be further configured to determine a first image count associated with the first image tag in a training dataset (such as the training dataset 112) associated with the DNN model 108. For example, the circuit 202 can compare the first image tag to image tags of pre-stored training images from a set of pre-stored training images in the training dataset 112. If the image tag of the pre-stored training image in the training dataset 112 matches the first image tag, the circuit 202 increments the first image count associated with the first image tag by one. Similarly, the circuit 202 may determine a first image count based on a comparison of the image tag of each of the pre-stored training images in the training dataset 112 with the first image tag. The circuit 202 may be further configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined first image count associated with the first image tag. For example, if the first image count in the training dataset 112 is higher than a certain threshold (e.g., a threshold count or percentage of all images in the training dataset 112), the first weight associated with the generated first feature vector may have a high weight value compared to the second weight associated with the generated second feature vector. In contrast, if the first image count in the training dataset 112 is lower than a threshold or nominal value (e.g., a value that is easily negligible, such as a few hundred images in a training dataset 112 of one million images), the first weight associated with the generated first feature vector may have a low weight value compared to the second weight associated with the generated second feature vector. The circuit 202 may be configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight to generate a third feature vector, and further generate a third feature vector based on the combination.

ある実施形態では、回路202を、抽出された第1の画像特徴セット又は抽出された第2の画像特徴セットの少なくとも一方に基づいて、受け取った第1の画像302Aに関連する画質スコアを決定するように構成することができる。画質スコアは、受け取った第1の画像302Aの忠実度に関連する定性的値を示すことができる。画質スコアが高ければ高いほど、受け取った第1の画像302Aの忠実度が高いことを示すことができる。画質スコアは、以下に限定するわけではないが、受け取った第1の画像302Aに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現(tone reproduction)、コントラスト、彩度、歪曲収差、口径食(vignetting)、露光精度、色収差、レンズフレア、色モアレ(color moire)、又はアーチファクトに対応することができる。鮮明さは、受け取った第1の画像302Aに関連する画像特徴に関連する詳細に対応することができる。例えば、受け取った第1の画像302Aの画素数又はフォーカスが高い場合、受け取った第1の画像302Aの鮮明さは高いものであることができる。ノイズは、受け取った第1の画像302Aにおける画素レベルでの望ましくない変動などの、受け取った第1の画像302Aにおける外乱に対応することができる。ダイナミックレンジは、受け取った第1の画像302A内に取り込まれた光の最も明るい陰影と最も暗い陰影との間の階調差(tonal difference)の量に対応することができる。階調再現は、受け取った第1の画像302A内に取り込まれた光の量と、受け取った第1の画像302Aが曝される光の量との間の相関に対応することができる。コントラストは、受け取った第1の画像302Aにおける色変化の量に対応することができる。彩度は、受け取った第1の画像302Aにおける色の強さに対応することができる。歪曲収差は、受け取った第1の画像302Aにおける望ましくない画素変化に対応することができる。口径食は、受け取った第1の画像302Aの中央部と比較した、受け取った第1の画像302Aの隅部からの黒化、鮮明さの低下又は彩度の低下に対応することができる。露光精度は、受け取った第1の画像302Aを最適な明度で取り込むことに対応することができる。色収差は、受け取った第1の画像302Aにおける色の歪みに対応することができる。レンズフレアは、明るい光に対する画像取り込み装置の反応に対応することができる。色モアレは、受け取った第1の画像302Aに現れる反復的色縞(repetitive color stripes)に対応することができる。受け取った第1の画像302Aに関連するアーチファクトは、受け取った第1の画像302A内に存在し得るいずれかの仮想オブジェクトに対応することができる。 In some embodiments, the circuit 202 may be configured to determine an image quality score associated with the received first image 302A based on at least one of the extracted first set of image features or the extracted second set of image features. The image quality score may indicate a qualitative value associated with the fidelity of the received first image 302A. A higher image quality score may indicate a higher fidelity of the received first image 302A. The image quality score may correspond to, but is not limited to, sharpness, noise, dynamic range, tone reproduction, contrast, saturation, distortion, vignetting, exposure accuracy, chromatic aberration, lens flare, color moire, or artifacts associated with the received first image 302A. Sharpness may correspond to details associated with image features associated with the received first image 302A. For example, if the pixel count or focus of the received first image 302A is high, the sharpness of the received first image 302A may be high. Noise can correspond to disturbances in the received first image 302A, such as undesired variations at the pixel level in the received first image 302A. Dynamic range can correspond to the amount of tonal difference between the lightest and darkest shades of light captured in the received first image 302A. Tonal reproduction can correspond to the correlation between the amount of light captured in the received first image 302A and the amount of light to which the received first image 302A is exposed. Contrast can correspond to the amount of color variation in the received first image 302A. Saturation can correspond to the intensity of colors in the received first image 302A. Distortion can correspond to undesired pixel variations in the received first image 302A. Vignetting can correspond to darkening, reduced sharpness, or reduced saturation from the corners of the received first image 302A compared to the center of the received first image 302A. Exposure accuracy can correspond to capturing the received first image 302A at an optimal brightness. Chromatic aberration may correspond to color distortions in the received first image 302A. Lens flare may correspond to the response of the image capture device to bright light. Color moiré may correspond to repetitive color stripes appearing in the received first image 302A. Artifacts associated with the received first image 302A may correspond to any virtual objects that may be present in the received first image 302A.

回路202は、決定された画質スコアに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。例えば、決定された画質スコアが高い場合、生成された第1の特徴ベクトルに関連する第1の重みには、生成された第2の特徴ベクトルに関連する第2の重みと比べて高い重み値を割り当てることができる。対照的に、決定された画質スコアが低い又はわずか(nominal)である場合、生成された第1の特徴ベクトルに関連する第1の重みには、生成された第2の特徴ベクトルに関連する第2の重みと比べて低い重み値を割り当てることができる。ある実施形態では、画質スコアが閾値を上回る場合、決定される第1の重みは決定される第2の重みよりも高いことができる。閾値は、例えば「0.4」、「0.6」及び「0.8」などの画質スコアを含むことができる。ある実施形態では、回路202を、画質スコアの閾値を設定するユーザ入力を受け取るように構成することができる。別の実施形態では、回路202を、画質スコアの閾値を自動的に設定するように構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するように構成することができる。その後、回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するようにさらに構成することができる。 The circuit 202 may further be configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined image quality score. For example, if the determined image quality score is high, the first weight associated with the generated first feature vector may be assigned a higher weight value than the second weight associated with the generated second feature vector. In contrast, if the determined image quality score is low or nominal, the first weight associated with the generated first feature vector may be assigned a lower weight value than the second weight associated with the generated second feature vector. In an embodiment, if the image quality score is above a threshold, the determined first weight may be higher than the determined second weight. The threshold may include image quality scores such as, for example, "0.4", "0.6", and "0.8". In an embodiment, the circuit 202 may be configured to receive a user input to set the image quality score threshold. In another embodiment, the circuit 202 may be configured to automatically set the image quality score threshold. The circuitry 202 may be configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight. The circuitry 202 may then be further configured to generate a third feature vector based on the combination of the generated first feature vector and the generated second feature vector.

310において、次元性を低減することができる。ある実施形態では、回路202を、生成された第3の特徴ベクトルの次元性を低減するように構成することができる。いくつかの実施形態では、回路202が、生成された第3の特徴ベクトルを特徴抽出器の入力層のサイズに一致するようにサイズ変更(又は圧縮)し、サイズ変更された生成された第3の特徴ベクトルを特徴抽出器の入力層に受け渡すことができる。これにより、生成された第3の特徴ベクトルから望ましくない情報又は反復的情報を低減することができる。第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。例えば、生成された第3のベクトルが4096個のベクトル要素を有する「1×4096」ベクトルである場合、PCA変換の適用後には、生成された第3のベクトルを、256個のベクトル要素を有する「1×256」ベクトルに縮小することができる。PCA変換の詳細な実装は当業者に周知であると考えられ、従ってこのような変換の詳細な説明については、簡潔にするために本開示からは省略する。 At 310, the dimensionality can be reduced. In an embodiment, the circuit 202 can be configured to reduce the dimensionality of the generated third feature vector. In some embodiments, the circuit 202 can resize (or compress) the generated third feature vector to match the size of the input layer of the feature extractor and pass the resized generated third feature vector to the input layer of the feature extractor. This can reduce undesirable or repetitive information from the generated third feature vector. The generation of the third feature vector can be further based on the application of a Principal Component Analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector. For example, if the generated third vector is a "1x4096" vector having 4096 vector elements, after application of the PCA transform, the generated third vector can be reduced to a "1x256" vector having 256 vector elements. The detailed implementation of the PCA transform is believed to be well known to those skilled in the art, and therefore a detailed description of such a transform is omitted from this disclosure for the sake of brevity.

312において、類似度メトリックを決定することができる。ある実施形態では、回路202を、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。予め記憶された第2の画像セットはデータベース106に記憶することができる。ある実施形態では、回路202を、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルを生成するように構成することができる。例えば、回路202は、予め記憶された第2の画像セットの各画像にDNNモデル108、画像特徴検出モデル110、又はこれらの両方の組み合わせを適用して、それぞれの予め記憶された第2の画像の第4の特徴ベクトルを生成することができる。別の例では、各それぞれの予め記憶された第2の画像の第4の特徴ベクトルを予め決定して、それぞれの予め記憶された第2の画像と共にデータベース106に予め記憶しておくことができる。類似度メトリックは、受け取った第1の画像302Aに類似する画像を予め記憶された第2の画像セットから決定するための類似度尺度に対応することができる。このような事例では、類似する画像を識別するために、決定された類似度メトリックに基づいて、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルを予め記憶された第2の画像セットの各画像の第4の特徴ベクトルと比較することができる。類似度メトリックの例としては、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度を挙げることができる。コサイン距離類似度では、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間のコサイン距離を決定することができる。例えば、特定の予め記憶された第2の画像の第4の特徴ベクトルが生成された第3のベクトルに対して小さなコサイン距離を有する場合、この特定の予め記憶された第2の画像を、受け取った第1の画像302Aに類似する画像のうちの1つとして識別することができる。 At 312, a similarity metric may be determined. In an embodiment, the circuit 202 may be configured to determine a similarity metric between the generated third feature vector associated with the received first image 302A and a fourth feature vector of each image of the pre-stored second set of images. The pre-stored second set of images may be stored in the database 106. In an embodiment, the circuit 202 may be configured to generate a fourth feature vector of each image of the pre-stored second set of images. For example, the circuit 202 may apply the DNN model 108, the image feature detection model 110, or a combination of both to each image of the pre-stored second set of images to generate a fourth feature vector of each pre-stored second image. In another example, the fourth feature vector of each respective pre-stored second image may be pre-determined and pre-stored in the database 106 with the respective pre-stored second image. The similarity metric may correspond to a similarity measure for determining images from the pre-stored second set of images that are similar to the received first image 302A. In such a case, the generated third feature vector associated with the received first image 302A can be compared to the fourth feature vector of each image of the pre-stored second set of images based on the determined similarity metric to identify similar images. Examples of similarity metrics can include, but are not limited to, cosine distance similarity or Euclidean distance similarity. In cosine distance similarity, a cosine distance between the generated third feature vector associated with the received first image 302A and the fourth feature vector of each image of the pre-stored second set of images can be determined. For example, if the fourth feature vector of a particular pre-stored second image has a small cosine distance to the generated third vector, the particular pre-stored second image can be identified as one of the images similar to the received first image 302A.

314において、類似する画像を識別することができる。ある実施形態では、回路202を、決定された類似度メトリックに基づいて、予め記憶された第3の画像を予め記憶された第2の画像セットからの類似する画像として識別するように構成することができる。例えば、回路202は、類似度メトリックに基づいて、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルを、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルと比較することができる。類似度メトリックに基づいて、特定の予め記憶された第2の画像の第4の特徴ベクトルが、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルに一致すると判定された場合、回路202は、予め記憶された第2の画像セットからの特定の予め記憶された第2の画像を予め記憶された第3の画像(すなわち、類似する画像)として識別することができる。 At 314, similar images can be identified. In an embodiment, the circuit 202 can be configured to identify the pre-stored third image as a similar image from the pre-stored second set of images based on the determined similarity metric. For example, the circuit 202 can compare the generated third feature vector associated with the received first image 302A to the fourth feature vector of each image of the pre-stored second set of images based on the similarity metric. If it is determined that the fourth feature vector of the particular pre-stored second image matches the generated third feature vector associated with the received first image 302A based on the similarity metric, the circuit 202 can identify the particular pre-stored second image from the pre-stored second set of images as a pre-stored third image (i.e., a similar image).

回路202は、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御するようさらに構成することができる。識別された予め記憶された第3の画像に関連する情報は、以下に限定するわけではないが、予め記憶された第3の画像自体、予め記憶された第3の画像に関連するメタデータ、第3の特徴ベクトルと第4の特徴ベクトルとの間の特徴マップ、予め記憶された第3の画像のファイルサイズ、予め記憶された第3の画像に関連する記憶位置、又は予め記憶された第3の画像に関連するファイルダウンロード経路などの情報を含むことができる。ある実施形態では、識別された予め記憶された第3の画像が、予め記憶された第2のビデオに対応することができる。予め記憶された第2のビデオは第1のビデオに関連することができる。例えば、予め記憶された第3の画像は、予め記憶された第2のビデオ内の画像フレームセットからの画像フレームのうちの1つとすることができる。ある実施形態では、第1のビデオから第1の画像302Aを抽出することができる。予め記憶された第3の画像は、受け取った第1の画像302Aに関連又は類似することができるので、予め記憶された第2のビデオは、第1のビデオに関連又は類似することができる。 The circuit 202 may further be configured to control a display device (such as the display device 210) to display information related to the identified pre-stored third image. The information related to the identified pre-stored third image may include information such as, but not limited to, the pre-stored third image itself, metadata related to the pre-stored third image, a feature map between the third feature vector and the fourth feature vector, a file size of the pre-stored third image, a storage location associated with the pre-stored third image, or a file download path associated with the pre-stored third image. In an embodiment, the identified pre-stored third image may correspond to a pre-stored second video. The pre-stored second video may be associated with the first video. For example, the pre-stored third image may be one of the image frames from a set of image frames in the pre-stored second video. In an embodiment, the first image 302A may be extracted from the first video. The pre-stored third image can be related or similar to the received first image 302A, and the pre-stored second video can be related or similar to the first video.

図3に示す例として、DNNモデル108及び(SIFTベースのモデルなどの)画像特徴検出モデル110に基づいて識別できる識別された予め記憶された第3の画像に関連する情報314Aを示す。情報314Aは、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、識別された予め記憶された第3の画像に関連する第4の特徴ベクトルとの間の特徴マップを含むことができる。図3に示す例として、DNNモデル108及び(SURFベースのモデルなどの)画像特徴検出モデル110に基づいて識別できる識別された予め記憶された第3の画像に関連する情報314Bをさらに示す。情報314Bも、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、識別された予め記憶された第3の画像に関連する第4の特徴ベクトルとの間の特徴マップを含むことができる。 3 shows information 314A related to an identified pre-stored third image that can be identified based on the DNN model 108 and the image feature detection model 110 (e.g., a SIFT-based model). The information 314A can include a feature map between a generated third feature vector related to the received first image 302A and a fourth feature vector related to the identified pre-stored third image. ...

上述したように、開示する電子装置102は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを自動的に生成することができる。この結果、第3の特徴ベクトルは、DNNモデル108によって決定できる第1の画像特徴セットと、画像特徴検出モデル110によって決定できる第2の画像特徴セットとを含むことができる。第1の画像特徴セットは、受け取った第1の画像302A(例えば、人物の顔の画像)に関連する高水準な画像特徴(例えば、目、鼻、耳、髪などの顔の特徴)を含むことができ、第2の画像特徴セットは、低水準な画像特徴(例えば、点、エッジ、線、輪郭、又は顔の基本オブジェクト及び形状)を含むことができる。高水準画像特徴及び低水準画像特徴の両方を第3の特徴ベクトルに含めることで、類似する画像の識別を補完し合うことができる。あるシナリオでは、第1の画像特徴セットが、受け取った第1の画像302A内に存在し得る全ての特徴を検出して抽出しないことがある。例えば、いくつか特徴がDNNモデル108によって誤検出され又は未検出のままの場合がある。例えば、受け取った第1の画像302AがDNNモデル108の訓練データセット112内で十分に表現されていない画像である場合、第1の画像特徴セットは、受け取った第1の画像に類似する画像を予め記憶された第2の画像セットから識別できるほど十分なものでない可能性がある。しかしながら、第2の画像特徴セット(すなわち、画像特徴検出モデル110によって決定される第2の画像特徴セット)は、受け取った第1の画像302Aに関連する低水準画像特徴を含むことができるので、第2の画像特徴セットを第3の特徴ベクトルに含めることで、受け取った第1の画像302Aに類似する画像を予め記憶された第2の画像セットから識別する精度をさらに高めることができる。例えば、画像の品質が良くない場合(例えば、解像度が低い不鮮明な画像の場合)、第1の画像特徴セット(すなわち、高水準画像特徴)は、類似する画像を識別するできるほど十分なものでない可能性がある。このような場合には、第2の画像特徴(すなわち、低水準画像特徴)の方が、類似する画像の識別にとって有用かつ正確な場合がある。 As described above, the disclosed electronic device 102 can automatically generate a third feature vector associated with the received first image 302A based on a combination of the generated first feature vector and the generated second feature vector. As a result, the third feature vector can include a first image feature set that can be determined by the DNN model 108 and a second image feature set that can be determined by the image feature detection model 110. The first image feature set can include high-level image features (e.g., facial features such as eyes, nose, ears, hair, etc.) associated with the received first image 302A (e.g., an image of a person's face), and the second image feature set can include low-level image features (e.g., points, edges, lines, contours, or basic objects and shapes of a face). Including both the high-level image features and the low-level image features in the third feature vector can complement each other in identifying similar images. In some scenarios, the first image feature set may not detect and extract all features that may be present in the received first image 302A. For example, some features may be misdetected or remain undetected by the DNN model 108. For example, if the received first image 302A is an image that is not well represented in the training data set 112 of the DNN model 108, the first image feature set may not be sufficient to identify images similar to the received first image from the pre-stored second image set. However, since the second image feature set (i.e., the second image feature set determined by the image feature detection model 110) may include low-level image features related to the received first image 302A, the second image feature set may be included in the third feature vector to further improve the accuracy of identifying images similar to the received first image 302A from the pre-stored second image set. For example, if the image quality is poor (e.g., in the case of a blurry image with low resolution), the first image feature set (i.e., high-level image features) may not be sufficient to identify similar images. In such a case, the second image features (i.e., low-level image features) may be more useful and accurate for identifying similar images.

図4は、本開示の実施形態による、ディープニューラルネットワーク(DNN)モデル及び画像特徴検出モデルに基づく逆画像検索のための例示的な方法を示すフローチャートである。図4の説明は、図1、図2及び図3の要素に関連して行う。図4にはフローチャート400を示す。フローチャート400に示す方法は、電子装置102又は回路202などのいずれかのコンピュータシステムによって実行することができる。方法は402から開始して404に進むことができる。 FIG. 4 is a flowchart illustrating an exemplary method for reverse image search based on a deep neural network (DNN) model and an image feature detection model, according to an embodiment of the present disclosure. FIG. 4 is described with reference to elements of FIGS. 1, 2, and 3. FIG. 4 illustrates a flowchart 400. The method illustrated in flowchart 400 may be performed by any computer system, such as electronic device 102 or circuit 202. The method may start at 402 and proceed to 404.

404において、(第1の画像302Aなどの)第1の画像を受け取ることができる。1又は2以上の実施形態では、回路202を、第1の画像302Aを受け取るように構成することができる。第1の画像302Aを受け取ることについては、例えば図3(の302)でさらに説明している。 At 404, a first image (e.g., first image 302A) can be received. In one or more embodiments, circuitry 202 can be configured to receive first image 302A. Receiving first image 302A is further described, for example, in FIG. 3 (at 302).

406において、受け取った(例えば、第1の画像302A)第1の画像に関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットをディープニューラルネットワーク(DNN)モデル(例えば、DNNモデル108)によって抽出することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する第1の画像特徴セット304AをDNNモデル108によって抽出するように構成することができる。第1の画像特徴セット304Aの抽出については、例えば図3(の304)でさらに説明している。 At 406, a first set of image features (e.g., first image feature set 304A) associated with the received first image (e.g., first image 302A) can be extracted by a deep neural network (DNN) model (e.g., DNN model 108). In one or more embodiments, the circuit 202 can be configured to extract the first set of image features 304A associated with the received first image 302A by the DNN model 108. Extraction of the first set of image features 304A is further described, for example, in FIG. 3 (at 304).

408において、抽出された第1の画像特徴セット304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成することができる。回路202は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。第1の特徴ベクトルの生成については、例えば図3(の304)でさらに説明している。 At 408, a first feature vector associated with the received first image 302A may be generated based on the extracted set of first image features 304A. The circuit 202 may be configured to generate a first feature vector associated with the received first image 302A based on the extracted set of first image features 304A. Generation of the first feature vector is further described, for example, in FIG. 3 (at 304).

410において、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを画像特徴検出モデル(例えば、画像特徴検出モデル110)によって抽出することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する第2の画像特徴セット306Aを画像特徴検出モデル110によって抽出するように構成することができる。画像特徴検出モデル110は、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む。第2の画像特徴セット306Aの抽出については、例えば図3(の306)でさらに説明している。 At 410, a second set of image features (e.g., second set of image features 306A) associated with the received first image 302A can be extracted by an image feature detection model (e.g., image feature detection model 110). In one or more embodiments, the circuit 202 can be configured to extract the second set of image features 306A associated with the received first image 302A by the image feature detection model 110. The image feature detection model 110 includes at least one of a scale invariant feature transform (SIFT)-based model, a speeded up robust features (SURF)-based model, an oriented FAST and rotated BRIEF (ORB)-based model, or a fast library for approximate nearest neighbors (FLANN)-based model. Extraction of the second set of image features 306A is further described, for example, in FIG. 3 (at 306).

412において、抽出された第2の画像特徴セット306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成することができる。1又は2以上の実施形態では、回路202を、抽出された第2の画像特徴セット306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するように構成することができる。第2の特徴ベクトルの生成については、例えば図3(の306)でさらに説明している。 At 412, a second feature vector associated with the received first image 302A may be generated based on the extracted set of second image features 306A. In one or more embodiments, the circuit 202 may be configured to generate a second feature vector associated with the received first image 302A based on the extracted set of second image features 306A. Generation of the second feature vector is further described, for example, in FIG. 3 (at 306).

414において、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成することができる。1又は2以上の実施形態では、回路202を、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。第3の特徴ベクトルの生成については、例えば図3(の308)でさらに説明している。 At 414, a third feature vector associated with the received first image 302A may be generated based on a combination of the generated first feature vector and the generated second feature vector. In one or more embodiments, the circuit 202 may be configured to generate a third feature vector associated with the received first image 302A based on a combination of the generated first feature vector and the generated second feature vector. The generation of the third feature vector may be further based on application of a principal component analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector. The generation of the third feature vector is further described, for example, in FIG. 3 (at 308).

416において、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することができる。1又は2以上の実施形態では、回路202を、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。ある例では、類似度メトリックが、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。類似度メトリックの決定については、例えば図3(の312)でさらに説明している。 At 416, a similarity metric may be determined between the generated third feature vector associated with the received first image 302A and the fourth feature vector of each image of the pre-stored second set of images. In one or more embodiments, the circuit 202 may be configured to determine a similarity metric between the generated third feature vector associated with the received first image 302A and the fourth feature vector of each image of the pre-stored second set of images. In one example, the similarity metric may include, but is not limited to, at least one of cosine distance similarity or Euclidean distance similarity. Determining the similarity metric is further described, for example, in FIG. 3 (at 312).

418において、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから(予め記憶された第3の画像などの)予め記憶された第3の画像を識別することができる。1又は2以上の実施形態では、回路202を、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別するように構成することができる。予め記憶された第3の画像の識別については、例えば図3(の314)でさらに説明している。 At 418, a pre-stored third image (e.g., a pre-stored third image) may be identified from the set of pre-stored second images based on the determined similarity metric. In one or more embodiments, the circuit 202 may be configured to identify the pre-stored third image from the set of pre-stored second images based on the determined similarity metric. Identifying the pre-stored third image is further described, for example, in FIG. 3 (at 314).

420において、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御することができる。回路202は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置210を制御するよう構成することができる。ディスプレイ装置210の制御については、例えば図3(の314)でさらに説明している。制御は終了に進む。 At 420, a display device (such as display device 210) may be controlled to display information associated with the identified pre-stored third image. Circuitry 202 may be configured to control display device 210 to display information associated with the identified pre-stored third image. Control of display device 210 is further described, for example, in FIG. 3 (at 314). Control proceeds to an end.

フローチャート400については、404、406、408、410、412、416、418及び420などの離散的動作として示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような離散的動作をさらなる動作にさらに分割し、より少ない動作に結合し、又は削除することもできる。 Although flowchart 400 is illustrated as discrete operations such as 404, 406, 408, 410, 412, 416, 418, and 420, the disclosure is not so limited. Thus, in some embodiments, such discrete operations may be further divided into additional operations, combined into fewer operations, or eliminated, depending on the particular implementation, without departing from the essence of the disclosed embodiments.

本開示の様々な実施形態は、機械及び/又は(電子装置102などの)コンピュータによって実行可能な命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。命令は、機械及び/又はコンピュータに(第1の画像302Aなどの)第1の画像を受け取ることを含む動作を実行させることができる。動作は、受け取った第1の画像302Aに関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットを(DNNモデル108などの)ディープニューラルネットワーク(DNN)モデルによって抽出することをさらに含むことができる。動作は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを(画像特徴検出モデル110などの)画像特徴検出モデルによって抽出することをさらに含むことができる。動作は、抽出された第2の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成することをさらに含むことができる。動作は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成することをさらに含むことができる。動作は、受け取った第1の画像に関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することをさらに含むことができる。動作は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別することをさらに含むことができる。動作は、識別された予め記憶された第3の画像に関連する情報を表示するように(ディスプレイ装置210などの)ディスプレイ装置を制御することをさらに含むことができる。 Various embodiments of the present disclosure may provide a non-transitory computer-readable medium and/or storage medium having instructions executable by a machine and/or a computer (such as electronic device 102). The instructions may cause the machine and/or computer to perform operations including receiving a first image (such as first image 302A). The operations may further include extracting a first set of image features (such as first image feature set 304A) associated with the received first image 302A by a deep neural network (DNN) model (such as DNN model 108). The operations may further include generating a first feature vector associated with the received first image 302A based on the extracted first image features 304A. The operations may further include extracting a second set of image features (such as second image feature set 306A) associated with the received first image 302A by an image feature detection model (such as image feature detection model 110). The operations may further include generating a second feature vector associated with the received first image 302A based on the extracted second image features 304A. The operations may further include generating a third feature vector associated with the received first image 302A based on a combination of the generated first feature vector and the generated second feature vector. The operations may further include determining a similarity metric between the generated third feature vector associated with the received first image and a fourth feature vector of each image of the pre-stored second set of images. The operations may further include identifying a pre-stored third image from the pre-stored second set of images based on the determined similarity metric. The operations may further include controlling a display device (such as display device 210) to display information associated with the identified pre-stored third image.

本開示の例示的な態様は、(回路202などの)回路を含む(図1の電子装置102などの)電子装置を提供することができる。回路202は、第1の画像302Aを受け取るように構成することができる。回路202は、受け取った第1の画像302Aに関連する(第1の画像特徴セット304Aなどの)第1の画像特徴セットをディープニューラルネットワーク(DNN)モデル108によって抽出するように構成することができる。回路202は、抽出された第1の画像特徴304Aに基づいて、受け取った第1の画像302Aに関連する第1の特徴ベクトルを生成するように構成することができる。回路202は、受け取った第1の画像302Aに関連する(第2の画像特徴セット306Aなどの)第2の画像特徴セットを画像特徴検出モデル110によって抽出するように構成することができる。回路202は、抽出された第2の画像特徴306Aに基づいて、受け取った第1の画像302Aに関連する第2の特徴ベクトルを生成するように構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて、受け取った第1の画像302Aに関連する第3の特徴ベクトルを生成するように構成することができる。回路202は、受け取った第1の画像302Aに関連する生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定するように構成することができる。回路202は、決定された類似度メトリックに基づいて、予め記憶された第2の画像セットから予め記憶された第3の画像を識別するように構成することができる。回路202は、識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置210を制御するよう構成することができる。 An exemplary aspect of the present disclosure may provide an electronic device (such as the electronic device 102 of FIG. 1 ) including a circuit (such as the circuit 202). The circuit 202 may be configured to receive a first image 302A. The circuit 202 may be configured to extract a first set of image features (such as the first image feature set 304A) associated with the received first image 302A by a deep neural network (DNN) model 108. The circuit 202 may be configured to generate a first feature vector associated with the received first image 302A based on the extracted first image features 304A. The circuit 202 may be configured to extract a second set of image features (such as the second image feature set 306A) associated with the received first image 302A by an image feature detection model 110. The circuit 202 may be configured to generate a second feature vector associated with the received first image 302A based on the extracted second image features 306A. The circuit 202 may be configured to generate a third feature vector associated with the received first image 302A based on a combination of the generated first feature vector and the generated second feature vector. The circuit 202 may be configured to determine a similarity metric between the generated third feature vector associated with the received first image 302A and a fourth feature vector of each image of the pre-stored second set of images. The circuit 202 may be configured to identify a pre-stored third image from the pre-stored second set of images based on the determined similarity metric. The circuit 202 may be configured to control the display device 210 to display information associated with the identified pre-stored third image.

ある実施形態によれば、画像特徴検出モデル110は、以下に限定するわけではないが、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含むことができる。 According to an embodiment, the image feature detection model 110 may include at least one of, but is not limited to, a scale invariant feature transform (SIFT) based model, a speeded up robust features (SURF) based model, an oriented FAST and rotated BRIEF (ORB) based model, or a fast library for approximate nearest neighbors (FLANN) based model.

ある実施形態によれば、第3の特徴ベクトルの生成は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に対する主成分分析(PCA)変換の適用にさらに基づくことができる。ある実施形態によれば、類似度メトリックは、以下に限定するわけではないが、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含むことができる。 According to an embodiment, the generation of the third feature vector may be further based on applying a Principal Component Analysis (PCA) transform to a combination of the generated first feature vector and the generated second feature vector. According to an embodiment, the similarity metric may include at least one of, but is not limited to, cosine distance similarity or Euclidean distance similarity.

ある実施形態によれば、回路202は、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを、DNNモデル108及び画像特徴検出モデル110とは異なる(機械学習モデル316などの)機械学習モデルによって決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。 According to an embodiment, the circuit 202 may be further configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector by a machine learning model (such as the machine learning model 316) different from the DNN model 108 and the image feature detection model 110. The circuit 202 may be further configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight. The circuit 202 may be configured to generate a third feature vector based on the combination of the generated first feature vector and the generated second feature vector.

ある実施形態によれば、回路202は、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取るようにさらに構成することができる。回路202は、受け取ったユーザ入力に基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。 According to an embodiment, the circuit 202 may be further configured to receive a user input including a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector. The circuit 202 may be further configured to combine the generated first feature vector and the generated second feature vector based on the received user input. The circuit 202 may be configured to generate a third feature vector based on the combination of the generated first feature vector and the generated second feature vector.

ある実施形態によれば、回路202は、DNNモデル108によって、受け取った第1の画像302AをDNNモデル108に関連する画像タグの組からの第1の画像タグに分類するようにさらに構成することができる。回路202は、DNNモデル108に関連する(訓練データセット112などの)訓練データセット内で、第1の画像タグに関連する第1の画像カウントを決定するように構成される。回路202は、第1の画像タグに関連する画像の決定された第1のカウントに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。 According to an embodiment, the circuit 202 may be further configured to classify, by the DNN model 108, the received first image 302A to a first image tag from a set of image tags associated with the DNN model 108. The circuit 202 may be configured to determine a first image count associated with the first image tag in a training data set (such as the training data set 112) associated with the DNN model 108. The circuit 202 may be further configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined first count of images associated with the first image tag. The circuit 202 may be further configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight. The circuit 202 may be configured to generate a third feature vector based on the combination of the generated first feature vector and the generated second feature vector.

ある実施形態によれば、回路202は、抽出された第1の画像特徴セット304A又は抽出された第2の画像特徴セット306Aの少なくとも一方に基づいて、受け取った第1の画像302Aに関連する画質スコアを決定するように構成することができる。回路202は、決定された画質スコアに基づいて、生成された第1の特徴ベクトルに関連する第1の重みと、生成された第2の特徴ベクトルに関連する第2の重みとを決定するようにさらに構成することができる。回路202は、決定された第1の重み及び決定された第2の重みに基づいて、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとを結合するようにさらに構成することができる。回路202は、生成された第1の特徴ベクトルと生成された第2の特徴ベクトルとの結合に基づいて第3の特徴ベクトルを生成するように構成することができる。ある実施形態によれば、画質スコアは、以下に限定するわけではないが、受け取った第1の画像302Aに関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ又はアーチファクトのうちの少なくとも1つに対応することができる。 According to an embodiment, the circuit 202 may be configured to determine an image quality score associated with the received first image 302A based on at least one of the extracted first image feature set 304A or the extracted second image feature set 306A. The circuit 202 may be further configured to determine a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined image quality score. The circuit 202 may be further configured to combine the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight. The circuit 202 may be configured to generate a third feature vector based on the combination of the generated first feature vector and the generated second feature vector. According to an embodiment, the image quality score may correspond to at least one of, but not limited to, sharpness, noise, dynamic range, tone reproduction, contrast, saturation, distortion, vignetting, exposure accuracy, chromatic aberration, lens flare, color moiré, or artifacts associated with the received first image 302A.

ある実施形態によれば、回路202は、第1のビデオと、予め記憶された第2のビデオに対応できる識別された予め記憶された第3の画像とから、第1の画像302Aを抽出するようにさらに構成することができる。予め記憶された第2のビデオは第1のビデオに関連することができる。 According to an embodiment, the circuitry 202 may be further configured to extract the first image 302A from the first video and an identified pre-stored third image that may correspond to a pre-stored second video. The pre-stored second video may be related to the first video.

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。 The present disclosure can be implemented in hardware or in a combination of hardware and software. The present disclosure can be implemented in a centralized manner in at least one computer system, or in a distributed manner where different elements can be distributed across several interconnected computer systems. Any computer system or other device adapted to perform the methods described herein can be suitable. The combination of hardware and software can be a general-purpose computer system including a computer program that, when loaded and executed, can control a computer system to perform the methods described herein. The present disclosure can be implemented in hardware, including as part of an integrated circuit that also performs other functions.

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。 The present disclosure may also be embodied in a computer program product, including all features enabling the implementation of the methods described herein, which is capable of executing these methods when loaded into a computer system. A computer program in this context means any expression in any language, code or notation of a set of instructions intended to cause a system capable of processing information to execute a particular function, either directly or after a) conversion into another language, code or notation, b) reproduction in a different content form, or both.

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。 Although the present disclosure has been described with reference to several embodiments, those skilled in the art will recognize that various modifications can be made and equivalents substituted without departing from the scope of the present disclosure. Additionally, many modifications can be made to adapt a particular situation or material to the teachings of the present disclosure without departing from its scope. Therefore, it is not intended that the present disclosure be limited to the particular embodiments disclosed, but rather, it is intended to include all embodiments falling within the scope of the appended claims.

102 電子装置
104 サーバ
106 データベース
108 ディープニューラルネットワーク(DNN)モデル
110 画像特徴検出モデル
112 訓練データセット
114 通信ネットワーク
116 ユーザ
102 Electronic device 104 Server 106 Database 108 Deep Neural Network (DNN) model 110 Image feature detection model 112 Training dataset 114 Communication network 116 User

Claims (20)

電子装置であって、
第1の画像を受け取り、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出し、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成し、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出し、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成し、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定し、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別し、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御する、
ように構成された回路を備える、
ことを特徴とする電子装置。
1. An electronic device comprising:
Receiving a first image;
extracting a first set of image features associated with the received first image using a deep neural network (DNN) model;
generating a first feature vector associated with the received first image based on the extracted set of first image features;
extracting a second set of image features associated with the received first image using an image feature detection model;
generating a second feature vector associated with the received first image based on the extracted set of second image features;
generating a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector;
determining a similarity metric between the generated third feature vector associated with the received first image and a fourth feature vector of each image of a second set of pre-stored images;
identifying a third pre-stored image from the second set of pre-stored images based on the determined similarity metric;
controlling a display device to display information related to the identified pre-stored third image.
The circuit is configured to
1. An electronic device comprising:
前記画像特徴検出モデルは、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む、
請求項1に記載の電子装置。
The image feature detection model includes at least one of a Scale Invariant Feature Transform (SIFT) based model, a Speed Up Robust Features (SURF) based model, an Oriented FAST and Rotated BRIEF (ORB) based model, or a Fast Library for Approximate Nearest Neighbors (FLANN) based model.
2. The electronic device of claim 1.
前記第3の特徴ベクトルの前記生成は、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルの前記結合に対する主成分分析(PCA)変換の適用にさらに基づく、
請求項1に記載の電子装置。
the generation of the third feature vector is further based on applying a principal component analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector.
2. The electronic device of claim 1.
前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項1に記載の電子装置。
the similarity metric includes at least one of a cosine distance similarity or a Euclidean distance similarity;
2. The electronic device of claim 1.
前記回路は、
前記DNNモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
The circuit comprises:
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector by a machine learning model distinct from the DNN model and the image feature detection model;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The electronic device of claim 1 , further configured to:
前記回路は、
前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取り、
前記受け取ったユーザ入力に基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
The circuit comprises:
receiving user input including a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector;
combining the generated first feature vector and the generated second feature vector based on the received user input;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The electronic device of claim 1 , further configured to:
前記回路は、
前記DNNモデルによって、前記受け取った第1の画像を前記DNNモデルに関連する画像タグの組からの第1の画像タグに分類し、
前記DNNモデルに関連する訓練データセットにおいて前記第1の画像タグに関連する第1の画像カウントを決定し、
前記第1の画像タグに関連する前記決定された第1の画像カウントに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
The circuit comprises:
classifying, with the DNN model, the received first image into a first image tag from a set of image tags associated with the DNN model;
determining a first image count associated with the first image tag in a training data set associated with the DNN model;
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined first image count associated with the first image tag;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The electronic device of claim 1 , further configured to:
前記回路は、
前記抽出された第1の画像特徴セット又は前記抽出された第2の画像特徴セットの少なくとも一方に基づいて、前記受け取った第1の画像に関連する画質スコアを決定し、
前記決定された画質スコアに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定し、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合し、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成する、
ようにさらに構成される、請求項1に記載の電子装置。
The circuit comprises:
determining an image quality score associated with the received first image based on at least one of the extracted first set of image features or the extracted second set of image features;
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined image quality score;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The electronic device of claim 1 , further configured to:
前記画質スコアは、前記受け取った第1の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも1つに対応する、
請求項8に記載の電子装置。
the image quality score corresponds to at least one of sharpness, noise, dynamic range, tone reproduction, contrast, color saturation, distortion, vignetting, exposure accuracy, chromatic aberration, lens flare, color moiré, or artifacts associated with the received first image;
9. The electronic device of claim 8.
前記回路は、第1のビデオと、該第1のビデオに関連する予め記憶された第2のビデオに対応する前記識別された予め記憶された第3の画像とから前記第1の画像を抽出するようにさらに構成される、
請求項1に記載の電子装置。
the circuitry is further configured to extract the first image from a first video and the identified pre-stored third image corresponding to a pre-stored second video related to the first video.
2. The electronic device of claim 1.
電子装置において、
第1の画像を受け取ることと、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出することと、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別することと、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含むことを特徴とする方法。
In an electronic device,
Receiving a first image;
extracting a first set of image features associated with the received first image using a deep neural network (DNN) model;
generating a first feature vector associated with the received first image based on the extracted set of first image features;
extracting a second set of image features associated with the received first image using an image feature detection model;
generating a second feature vector associated with the received first image based on the extracted set of second image features;
generating a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector;
determining a similarity metric between the generated third feature vector associated with the received first image and a fourth feature vector of each image of a second set of pre-stored images;
identifying a third pre-stored image from the second set of pre-stored images based on the determined similarity metric;
controlling a display device to display information related to the identified pre-stored third image;
The method according to claim 1, further comprising:
前記画像特徴検出モデルは、スケール不変特徴変換(SIFT)ベースのモデル、高速化ロバスト特徴(SURF)ベースのモデル、方向付きFAST及び回転BRIEF(ORB)ベースのモデル、又は近似最近傍のための高速ライブラリ(FLANN)ベースのモデルのうちの少なくとも1つを含む、
請求項11に記載の方法。
The image feature detection model includes at least one of a Scale Invariant Feature Transform (SIFT) based model, a Speed Up Robust Features (SURF) based model, an Oriented FAST and Rotated BRIEF (ORB) based model, or a Fast Library for Approximate Nearest Neighbors (FLANN) based model.
The method of claim 11.
前記第3の特徴ベクトルの前記生成は、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルの前記結合に対する主成分分析(PCA)変換の適用にさらに基づく、
請求項11に記載の方法。
the generation of the third feature vector is further based on applying a principal component analysis (PCA) transform to the combination of the generated first feature vector and the generated second feature vector.
The method of claim 11.
前記類似度メトリックは、コサイン距離類似度又はユークリッド距離類似度の少なくとも一方を含む、
請求項11に記載の方法。
the similarity metric includes at least one of a cosine distance similarity or a Euclidean distance similarity;
The method of claim 11.
前記DNNモデル及び前記画像特徴検出モデルとは異なる機械学習モデルによって、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector by a machine learning model distinct from the DNN model and the image feature detection model;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The method of claim 11 further comprising:
前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを含むユーザ入力を受け取ることと、
前記受け取ったユーザ入力に基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
receiving user input including a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector;
combining the generated first feature vector and the generated second feature vector based on the received user input;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The method of claim 11 further comprising:
前記DNNモデルによって、前記受け取った第1の画像を前記DNNモデルに関連する画像タグの組からの第1の画像タグに分類することと、
前記DNNモデルに関連する訓練データセットにおいて前記第1の画像タグに関連する第1の画像カウントを決定することと、
前記第1の画像タグに関連する前記決定された第1の画像カウントに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
classifying, by the DNN model, the received first image into a first image tag from a set of image tags associated with the DNN model;
determining a first image count associated with the first image tag in a training data set associated with the DNN model;
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined first image count associated with the first image tag;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The method of claim 11 further comprising:
前記抽出された第1の画像特徴セット又は前記抽出された第2の画像特徴セットの少なくとも一方に基づいて、前記受け取った第1の画像に関連する画質スコアを決定することと、
前記決定された画質スコアに基づいて、前記生成された第1の特徴ベクトルに関連する第1の重みと、前記生成された第2の特徴ベクトルに関連する第2の重みとを決定することと、
前記決定された第1の重み及び前記決定された第2の重みに基づいて、前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとを結合することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの前記結合に基づいて前記第3の特徴ベクトルを生成することと、
をさらに含む、請求項11に記載の方法。
determining an image quality score associated with the received first image based on at least one of the extracted first set of image features or the extracted second set of image features;
determining a first weight associated with the generated first feature vector and a second weight associated with the generated second feature vector based on the determined image quality score;
combining the generated first feature vector and the generated second feature vector based on the determined first weight and the determined second weight;
generating the third feature vector based on the combination of the generated first feature vector and the generated second feature vector;
The method of claim 11 further comprising:
前記画質スコアは、前記受け取った第1の画像に関連する鮮明さ、ノイズ、ダイナミックレンジ、階調再現、コントラスト、彩度、歪曲収差、口径食、露光精度、色収差、レンズフレア、色モアレ、又はアーチファクトのうちの少なくとも1つに対応する、
請求項18に記載の方法。
the image quality score corresponds to at least one of sharpness, noise, dynamic range, tone reproduction, contrast, color saturation, distortion, vignetting, exposure accuracy, chromatic aberration, lens flare, color moiré, or artifacts associated with the received first image;
20. The method of claim 18.
コンピュータ実行可能命令を記憶した非一時的コンピュータ可読媒体であって、前記コンピュータ実行可能命令は、電子装置によって実行された時に、
第1の画像を受け取ることと、
前記受け取った第1の画像に関連する第1の画像特徴セットをディープニューラルネットワーク(DNN)モデルによって抽出することと、
前記抽出された第1の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第1の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する第2の画像特徴セットを画像特徴検出モデルによって抽出することと、
前記抽出された第2の画像特徴セットに基づいて、前記受け取った第1の画像に関連する第2の特徴ベクトルを生成することと、
前記生成された第1の特徴ベクトルと前記生成された第2の特徴ベクトルとの結合に基づいて、前記受け取った第1の画像に関連する第3の特徴ベクトルを生成することと、
前記受け取った第1の画像に関連する前記生成された第3の特徴ベクトルと、予め記憶された第2の画像セットの各画像の第4の特徴ベクトルとの間の類似度メトリックを決定することと、
前記決定された類似度メトリックに基づいて、前記予め記憶された第2の画像セットから予め記憶された第3の画像を識別することと、
前記識別された予め記憶された第3の画像に関連する情報を表示するようにディスプレイ装置を制御することと、
を含む動作を前記電子装置に実行させる、ことを特徴とする非一時的コンピュータ可読媒体。
A non-transitory computer-readable medium having computer-executable instructions stored thereon, the computer-executable instructions, when executed by an electronic device,
Receiving a first image;
extracting a first set of image features associated with the received first image using a deep neural network (DNN) model;
generating a first feature vector associated with the received first image based on the extracted set of first image features;
extracting a second set of image features associated with the received first image using an image feature detection model;
generating a second feature vector associated with the received first image based on the extracted set of second image features;
generating a third feature vector associated with the received first image based on a combination of the generated first feature vector and the generated second feature vector;
determining a similarity metric between the generated third feature vector associated with the received first image and a fourth feature vector of each image of a second set of pre-stored images;
identifying a third pre-stored image from the second set of pre-stored images based on the determined similarity metric;
controlling a display device to display information related to the identified pre-stored third image;
23. A non-transitory computer-readable medium for causing the electronic device to perform operations including:
JP2023567990A 2021-05-18 2022-05-18 Reverse image search based on deep neural network (DNN) model and image feature detection model Pending JP2024519504A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163189956P 2021-05-18 2021-05-18
US63/189,956 2021-05-18
US17/482,290 2021-09-22
US17/482,290 US11947631B2 (en) 2021-05-18 2021-09-22 Reverse image search based on deep neural network (DNN) model and image-feature detection model
PCT/IB2022/054647 WO2022243912A1 (en) 2021-05-18 2022-05-18 Reverse image search based on deep neural network (dnn) model and image-feature detection model

Publications (1)

Publication Number Publication Date
JP2024519504A true JP2024519504A (en) 2024-05-14

Family

ID=81927630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023567990A Pending JP2024519504A (en) 2021-05-18 2022-05-18 Reverse image search based on deep neural network (DNN) model and image feature detection model

Country Status (4)

Country Link
EP (1) EP4323892A1 (en)
JP (1) JP2024519504A (en)
CN (1) CN116420143A (en)
WO (1) WO2022243912A1 (en)

Also Published As

Publication number Publication date
WO2022243912A1 (en) 2022-11-24
EP4323892A1 (en) 2024-02-21
CN116420143A (en) 2023-07-11

Similar Documents

Publication Publication Date Title
US11182903B2 (en) Image mask generation using a deep neural network
US10521705B2 (en) Automatically selecting images using multicontext aware ratings
US11087447B2 (en) Systems and methods for quality assurance of image recognition model
US10643336B2 (en) Image processing apparatus and method for object boundary stabilization in an image of a sequence of images
WO2019100724A1 (en) Method and device for training multi-label classification model
WO2019100723A1 (en) Method and device for training multi-label classification model
JP7289435B2 (en) Multiple neural network-based object segmentation in a sequence of color image frames
WO2019233263A1 (en) Method for video processing, electronic device and computer-readable storage medium
CN111738357B (en) Junk picture identification method, device and equipment
US8244044B2 (en) Feature selection and extraction
US10614347B2 (en) Identifying parameter image adjustments using image variation and sequential processing
US10122912B2 (en) Device and method for detecting regions in an image
CN112101386B (en) Text detection method, device, computer equipment and storage medium
US11367196B2 (en) Image processing method, apparatus, and storage medium
US10163212B2 (en) Video processing system and method for deformation insensitive tracking of objects in a sequence of image frames
AU2016225841A1 (en) Predicting accuracy of object recognition in a stitched image
US10089721B2 (en) Image processing system and method for object boundary smoothening for image segmentation
US20220156577A1 (en) Training neural network model based on data point selection
JP7439607B2 (en) Data Augmentation in Training Deep Neural Networks (DNN) Based on Genetic Models
CN108765532A (en) Children paint this method for establishing model, reading machine people and storage device
US11947631B2 (en) Reverse image search based on deep neural network (DNN) model and image-feature detection model
US20220269906A1 (en) Neural network-based image-to-image translation
WO2024041108A1 (en) Image correction model training method and apparatus, image correction method and apparatus, and computer device
US11232616B2 (en) Methods and systems for performing editing operations on media
JP2024519504A (en) Reverse image search based on deep neural network (DNN) model and image feature detection model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231102