JP2022541832A

JP2022541832A - 画像を検索するための方法及び装置

Info

Publication number: JP2022541832A
Application number: JP2022504246A
Authority: JP
Inventors: 忠▲強▼ 郭
Original assignee: ベイジン・ジンドン・ゼンシ・インフォメーション・テクノロジー・カンパニー・リミテッド
Priority date: 2019-07-23
Filing date: 2020-03-19
Publication date: 2022-09-27
Anticipated expiration: 2040-03-19
Also published as: CN112307243A; US20220292132A1; CN112307243B; KR20220018633A; WO2021012691A1; JP7504192B2

Abstract

本開示の実施例は、画像を検索するための方法を開示する。この方法の一特定の実施形態は、ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するステップと、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるステップと、画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するステップと、第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む。本実施形態は、アイテムのスケッチ及びキーワードに基づく検索を実現する。

Description

本願は、２０１９年７月２３日に中国特許庁に提出された、申請番号２０１９１０６６５０３９．８で、出願人が北京京東振世信息技術有限公司で、発明の名称が「画像を検索するための方法及び装置」である中国特許申請の優先権利を主張する。本願の全内容は、参照により本願に組み込まれる。

本開示の実施例は、コンピュータ技術分野に関し、特に画像を検索するための方法及び装置に関する。

現在、画像検索には通常、テキストベースの画像検索とコンテンツベースの画像検索が含まれる。ここで、テキストベースの画像検索は通常、テキストで説明する方法を使用して画像の特徴を説明し、画像ライブラリ内の各画像に対応するテキストの説明を照合して検索結果を決定する。コンテンツベースの画像検索は通常、画像の色、テクスチャ、及びレイアウトなど特徴に基づいて、画像ライブラリ内の各画像に対応する色、テクスチャ、及びレイアウトなどの特徴を照合して検索結果を決定する。

画像のテキストによる説明は通常、主観的なものであるため、それにより検索結果の正確さに影響を及ぼす。元の画像のみは、比較的豊富な色やテクスチャなどの特徴を有しているため、一部の既存のコンテンツベースの画像検索では、通常、ユーザが検索するアイテムの元の画像を提供する必要がある。また、画像から抽出された色やテクスチャなどの特徴は通常、画像の客観的な説明情報であり、画像の意味情報を表現することは、困難である。

本開示の実施例は、画像を検索するための方法及び装置を提案する。

第１態様では、本開示の実施例は、画像を検索するための方法を提供し、この方法は、ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するステップと、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるステップと、画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するステップと、第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む。

いくつかの実施例では、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、それは、第１行列の第１プリセット重みを取得し、第２行列の第２プリセット重みを取得するステップと、取得された第１プリセット重み及び第２プリセット重みに基づいて、第１行列と第３行列との一致度と、第２行列と第３行列との一致度の加重和に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するステップと、を含む。

いくつかの実施例では、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度は、第１行列、第２行列、及び第３行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第１符号化行列、第２符号化行列、及び第３符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び、第１符号化行列と第３符号化行列との一致度を第１行列と第３行列との一致度として決定し、第２符号化行列と第３符号化行列との一致度を第２行列と第３行列との一致度として決定するステップにより決定される。

いくつかの実施例では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルＳについて、Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及びＣグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

いくつかの実施例では、Ｓに含まれる各要素をＣグループに分割し、それは、Ｓに含まれる要素の数とＣの商を決定すること、及び決定された商に従ってＣグループの各グループに含まれる要素の数を決定することを含む。

いくつかの実施例では、

ここで、ＤはＳに含まれる要素の数を表し、Ｓ_ｉはＳのｉ番目要素の値を表す。

いくつかの実施例では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行し、更新されたターゲット行列の各行ベクトルの行ベクトルＳについて、Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及びＣグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

いくつかの実施例では、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む。

いくつかの実施例では、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定するということを含む。

いくつかの実施例では、第１行列は、スケッチを少なくとも２つのサブ画像に分割するステップ、予め訓練された畳み込みニューラルネットワークを使用して少なくとも２つのサブ画像をそれぞれ特徴抽出して、少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第１行列として決定するステップにより得られる。

いくつかの実施例では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及びスケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップで訓練して得られる。

それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出することによりスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び／又は精度を決定し、決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び／又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。

第２態様では、本開示の実施例は、画像を検索するための装置を提供し、この装置は、
取得ユニットであって、前記取得ユニットはターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するように構成される取得ユニットと、
取得ユニットであって、前記取得ユニットはターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用されるようにさらに構成される取得ユニットと、
取得ユニットであって、前記取得ユニットは画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するようにさらに構成される取得ユニットと、
決定ユニットであって、前記決定ユニットは第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するように構成される決定ユニットと、
送信ユニットであって、前記送信ユニットは決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される送信ユニットと、を含む。

いくつかの実施例では、決定ユニットは、第１行列の第１プリセット重みを取得し、第２行列の第２プリセット重みを取得し、取得された第１プリセット重み及び第２プリセット重みに基づいて、第１行列と第３行列との一致度と、第２行列と第３行列との一致度の加重和に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するようにさらに構成される。

いくつかの実施例では、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度は、第１行列、第２行列、及び第３行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第１符号化行列、第２符号化行列、及び第３符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び第１符号化行列と第３符号化行列との一致度を第１行列と第３行列との一致度として決定し、第２符号化行列と第３符号化行列との一致度を第２行列と第３行列との一致度として決定するステップにより決定される。

いくつかの実施例では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及び
Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

いくつかの実施例では、

ここで、ＤはＳに含まれる要素の数を表し、Ｓ_ｉはＳのｉ番目の要素の値を表す。

いくつかの実施例では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、
行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行し、
更新されたターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、
及びＣグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

いくつかの実施例では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップで訓練して得られる。
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出してスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び／又は精度を決定し、決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び／又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。

第３態様では、本開示の実施例は、電子デバイスを提供し、この電子デバイスは、１つ又は複数のプロセッサと、１つ又は複数のプログラムを記憶するための記憶装置と、を含み、１つ又は複数のプログラムは、１つ又は複数のプロセッサにより実行される場合、１つ又は複数のプロセッサが、第１態様の任意の実装方法で説明された方法を実現する。

第４態様では、本開示の実施例は、コンピュータプログラムが記憶されるコンピュータ可読媒体を提供し、このコンピュータプログラムは、プロセッサにより実行される場合、第１態様の任意の実装方法で説明された方法を実現する。

本開示の実施例が提供する画像を検索するための方法及び装置は、アイテムのスケッチと対応するキーワードに従って、それぞれ画像セット内の各画像と照合し、照合結果に従って検索結果を決定し、それによりユーザがアイテムの元の画像を検索用に提供できない場合は、アイテムのスケッチを使用して検索を実現することができ、そしてアイテムのキーワードが同時に検索に使用されるため、画像の意味情報は、検索プロセスに統合され、これは、画像の誤検出率及び検出漏れ率を低減するのに寄与し、それにより検索結果の正確さを向上させる。

以下の図面を参照して、非限定的な実施例の詳細な説を読むことにより、本開示の他の特徴、目的及び利点はより明らかになる。

本開示の一実施例を適用できる例示的なシステムアーキテクチャ図である。本開示による画像を検索するための方法の一実施例のフローチャートである。本開示の実施例による画像を検索するための方法の適用シナリオの模式図である。本開示による画像を検索するための方法のさらに別の実施例のフローチャートである。本開示による画像を検索するための装置の一実施例の構造模式図である。本開示の実施例を実施するのに適した電子デバイスの構造模式図である。

以下、図面と実施例を参照して本開示をさらに詳細に説明する。本明細書に記載される特定の実施例は、関連する発明を説明するためにのみ使用され、本発明を限定するものではないことが理解され得る。なお、容易に説明するために、図面には、本発明に関連する部分のみが示されている。

なお、本開示における実施例及び実施例における特徴は、矛盾がない場合、互いに組み合わせることができる。以下、図面を参照して、実施例と併せて本開示を詳細に説明する。

図１は、本開示を適用できる画像を検索するための方法又は画像を検索するための装置の実施例の例示的なアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクのための媒体を提供するために使用される。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブルなどのさまざまな接続タイプを含み得る。

端末装置１０１、１０２、１０３は、ネットワーク１０４を介してサーバ１０５と相互作用して、メッセージなどを送受信する。さまざまなクライアントアプリケーションを端末装置１０１、１０２、１０３にインストールすることができる。例えば、ブラウザアプリケーション、検索アプリケーション、画像処理アプリケーションなどである。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されないさまざまな電子デバイスであってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記電子デバイスにインストールすることができる。それらは、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。

サーバ１０５は、さまざまなサービスを提供するサーバ、例えば、端末装置１０１、１０２、１０３にインストールされたクライアントアプリケーションにバックエンドサポートを提供するバックエンドサーバであってもよい。サーバ１０５は、端末装置１０１、１０２、１０３によって送信されたターゲットアイテムのスケッチ及びキーワードセットを受信し、ターゲットアイテムのスケッチ及びキーワードセットをそれぞれ処理し、さらに処理結果に従って画像セットからターゲットアイテムのスケッチ及びキーワードセットに一致する画像を選択し、選択された画像を端末装置１０１、１０２、１０３に送信することができる。

なお、上記ターゲットアイテムのスケッチ及びキーワードセットは、サーバ１０５のローカルに直接記憶することもでき、サーバ１０５は、ローカルに記憶されたターゲットアイテムのスケッチ及びキーワードセットを直接抽出して処理することができ、このとき、端末装置１０１、１０２、１０３及びネットワーク１０４が存在しなくてもよい）。

なお、本開示の実施例によって提供された画像を検索するための方法は、一般にサーバ１０５によって実行され、それに対応して、画像を検索するための装置は、一般にサーバ１０５に設置される。

なお、端末装置１０１、１０２、１０３にも、画像処理アプリケーションがインストールされることができ、端末装置１０１、１０２、１０３は、画像処理アプリケーションに基づいて顔画像を処理することもでき、このとき、画像を検索するための方法は、端末装置１０１、１０２、１０３が実行することもでき、それに対応して、画像を検索するための装置は、端末装置１０１、１０２、１０３に設置されることもできる。このとき、サーバ１０５及びネットワーク１０４は、例示的なシステムアーキテクチャ１００に存在しなくてもよい。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバで構成される分散サーバクラスターとして実装されてもよく、単一のサーバとして実装されてもよい。サーバ１０５がソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として実装されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実装されてもよい。ここに特別な制限はない。

図１の端末装置、ネットワーク及びサーバの数は、単なる例示であることが理解されるべきである。実装のニーズに応じて、端末装置、ネットワーク及びサーバは、いくつでも存在することができる。

図２を参照し続けると、それは、本開示による画像を検索するための方法の一実施例のフロー２００を示している。画像を検索するための方法は、以下のステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４、及びステップ２０５を含む。

ステップ２０１：ターゲットアイテムのスケッチを特徴抽出することによって得られた第１行列を取得する。

本実施例では、ターゲットアイテムは、ユーザの検索ターゲット、すなわち、ユーザが検索したい画像に示されるアイテムであってもよい。ターゲットアイテムのスケッチを使用して、アイテムのデザイン又は形体概念を初期化して表現することができる。例えば、ターゲットアイテムのスケッチには、アイテムの構造とサイズ、及びアイテムの各部品の相対的な位置関係などが提示され得る。

本実施例では、ユーザは、ターゲットアイテムのスケッチを描くことができるか、又はユーザは、いくつかの既存のスケッチライブラリ（例えば、Ｓｋｅｔｃｈｙ画像ライブラリ）からターゲットアイテムのスケッチを選択することができる。

本実施例では、スケッチを特徴抽出することは、スケッチのいくつかの画像情報を抽出することを指すことができる。一般に、スケッチを分析処理することにより、スケッチの各ピクセルポイントがスケッチの特定の特徴を表現できるかどうかを決定することができる。具体的には、さまざまな既存の画像特徴抽出方法を使用してスケッチを特徴抽出することができる。

例えば、ＳＵＲＦ（スケール不変特徴変換）に基づく特徴抽出方法を使用して、ターゲットアイテムのスケッチの特徴を抽出することができる。別の例として、深層学習に基づく特徴抽出方法を使用して、ターゲットアイテムのスケッチの特徴を抽出することができる。

オプションで、スケッチの特徴抽出結果は、特徴ベクトルであってもよい。このとき、抽出された特徴ベクトルは、上記第１行列と見なすことができる。

本実施例のいくつかの任意選択の実装形態では、最初に、スケッチを少なくとも２つのサブ画像に分割することができる。次に予め訓練された畳み込みニューラルネットワークを使用して、少なくとも２つのサブ画像をそれぞれ特徴抽出し、少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルを得ることができ、さらに、少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を上記第１行列と見なすことができる。

ここで、スケッチを分割する方法を柔軟に選択することができる。例えば、スケッチの幾何学的中心を中心点として使用し、水平方向と垂直方向から、スケッチを４つのサブ画像に均等に分割することができる。

ここで、得られた少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルが行列を構成する方法は、技術者によって事前に設定され得る。例えば、第１行列は、指定された順序で行ごとに並べることにより得られる。

スケッチを分割することにより、その後の一致プロセスでは、ターゲットを絞った方法で対応する位置の画像領域を一致させることができ、すなわち、一致プロセスは、より正確な位置情報を有し、これは、一致結果の精度を高めるのに寄与し、さらに検索結果の精度を高める。

畳み込みニューラルネットワークを使用してターゲットアイテムのスケッチを特徴抽出する場合、畳み込みニューラルネットワークは、画像の特徴を抽出するために使用されるさまざまなタイプの予め訓練済みのニューラルネットワークであってもよい（例えば、深層学習モデルなど）。

一般に、畳み込みニューラルネットワークは、いくつかの畳み込み層、プーリング層、及び完全に接続された層で構成され得る。ここで、畳み込み層は、畳み込み層に入力する画像に対して畳み込み操作を実行して特徴を抽出するために使用され、プーリング層は、畳み込み層の出力結果を圧縮して主要な特徴を抽出するために使用され、完全に接続された層は、抽出された画像の各ローカル特徴を統合して、完全に接続された層の前に各層によって学習された分散特徴表現をサンプルラベルスペースにマッピングすることができる。

オプションで、画像の特徴を抽出するために使用される畳み込みニューラルネットワークは、以下のステップ１とステップ２で訓練して得られ得る。

ステップ１：スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得する。

このステップ１では、さまざまな画像処理アプリケーションを使用して大量のスケッチを生成して、スケッチセットを構成することができ、サードパーティのデータプラットホームからスケッチセットを取得することもできる。スケッチセットに対応する一致する画像セット内の一致する画像及びスケッチを使用して、同じアイテムを提示することができる。ここで、任意のスケッチについて、このスケッチに対応する一致する画像セット内の一致する画像は、技術者によって指定され得るか、又はサードパーティのデータプラットホームから取得され得る。

ステップ２：スケッチセットからスケッチを選択し、以下の訓練ステップ１～訓練ステップ３を実行する。

このステップ２では、スケッチセットからスケッチを選択する方法を、さまざまな適用シナリオに応じて柔軟に設定することができる。例えば、スケッチセットから事前設定数のスケッチをランダムに選択することができる。別の例として、スケッチセットから選択されていない事前設定数のスケッチを選択することができる。

訓練ステップ１：初期モデルを使用して、選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出することにより、スケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する。

ここで、初期モデルは、さまざまなタイプの訓練されていない人工ニューラルネットワーク、又は訓練が完了していない人工ニューラルネットワークであってもよい。例えば、深層学習モデルである。初期モデルは、さまざまな訓練されていない人工ニューラルネットワーク、又は訓練が完了していない人工ニューラルネットワークを組み合わせて得られたモデルであってもよい。具体的には、技術者は、実際のアプリケーション要件（例えば、畳み込み層の数や畳み込みカーネルのサイズなど）に従って初期モデルを構築することができる。

ここで、ターゲット画像セットは、技術者によって事前に設定され得る。オプションで、ターゲット画像セットは、上記画像セットであってもよい。

訓練ステップ２：得られたスケッチに対応するそれぞれの出力行列と、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する。

ここで、２つの出力行列との一致度の計算方法は、さまざまな既存の行列一致アルゴリズムを採用することができる。例えば、２つの行列をそれぞれ事前設定された方法でベクトルに平坦化してから、得られた２つのベクトル間の類似度を計算し、この類似度を２つの出力行列との一致度として使用する。

ここで、事前設定された閾値は、実際のアプリケーション要件に応じて技術者によって事前に設定され得る。

訓練ステップ３：選択された画像と入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び／又は精度を決定し、決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する。

ここで、リコール率は、所望の画像の検出度合いを特徴付けるために使用され得る。一般に、リコール率は、ターゲット画像セットに含まれる入力されたスケッチと同じアイテムを提示する画像の総数に対する、選択された画像と一致する画像セットとの積集合に含まれる画像の数の比率で表され得る。

ここで、精度は、検索されたすべての画像に対する検索された所望の画像の割合を特徴付けるために使用され得る。一般に、精度は、一致する画像セットに含まれる画像の総数に対する選択された画像と一致する画像セットとの積集合に含まれる画像の数の比率で表され得る。

オプションで、リコール率及び／又は精度を決定した後、事前設定された損失関数の値を決定することができ、決定された損失関数の値に従って初期モデルの訓練が完了しているかどうかを決定する。ここで、損失関数の計算方法は、技術者によって事前に設定され得る。例えば、事前設定された損失関数は、決定されたリコール率及び／又は精度と、事前設定されたリコール率及び／又は精度との間の差異の程度を特徴付けるために使用され得る。このとき、決定された損失関数の値が事前設定された損失閾値を下回っているかどうか応じて、初期モデルの訓練が完了しているかどうかを決定することができる。

決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了していると決定した場合、訓練された初期モデルを、画像の特徴を抽出するための上記畳み込みニューラルネットワークとして決定することができる。

決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了していないと決定した場合、決定されたリコール率及び／又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定することができ、スケッチセットからスケッチを再選択し、上記訓練ステップ１～訓練ステップ３を実行し続ける。

具体的には、損失関数の値に従って、勾配降下及びバックプロパゲーションアルゴリズムを使用して初期モデルの各層のパラメータを調整することができ、それにより調整された初期モデルに対応するリコール率及び／又は精度は、できるだけ高くなる。

本実施例では、他の電子デバイスにより、ターゲットアイテムのスケッチを事前に特徴抽出して、第１行列を得ることができる。このとき、画像を検索するための方法の実行主体（図１に示すサーバ１０５）は、他の電子デバイスから第１行列を取得することができる。上記実行主体により、ターゲットアイテムのスケッチを事前に特徴抽出して、第１行列を得ることもできることが理解され得る。このとき、上記実行主体は、ローカルから第１行列を直接取得することができる。

ステップ２０２：ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得する。

本実施例では、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され得る。キーワードセット内のキーワードは、ユーザによって事前に設定され得る。ここで、キーワードセット内のキーワードの単語ベクトルは、単語ベクトルを生成するためのさまざまな既存の方法（例えば、Ｗｏｒｄ２Ｖｅｃ、ＦａｓｔＴｅｘｔなど）を使用して決定することができる。

ここで、キーワードセット内の各キーワードの単語ベクトルが第２行列を構成する方法は、技術者によって事前に設定され得る。例えば、上記第２行列は、各キーワードにそれぞれ対応する単語ベクトルを、事前設定された順序で、行ごとに並べることで得られる。

本実施例では、キーワードセット内の各キーワードの単語ベクトルは、他の電子デバイスによって事前に生成され得、次に第２行列が得られる。このとき、上記実行主体は、他の電子デバイスから第２行列を取得することができる。上記実行主体は、キーワードセット内の各キーワードの単語ベクトルを事前に生成し、次に第２行列を得ることもできることが理解され得る。このとき、上記実行主体は、ローカルから第２行列を直接取得することができる。

オプションで、キーワードの単語ベクトルが事前に生成した後、キーワードと単語ベクトルとの対応する関係を記憶して、次回の再利用の際に、キーワードに対応する単語ベクトルを直接使用できるようにする。これは、画像検索速度の向上に寄与する。このとき、単語ベクトルがニューラルネットワーク（例えば、Ｗｏｒｄ２Ｖｅｃなど）を介して得られた場合、ニューラルネットワークも更新するために、一定の時間間隔の後、新しいキーワードと対応する単語ベクトルを使用してニューラルネットワークを再訓練することができる。

ステップ２０３：画像セット内の各画像を特徴抽出して得られた第３行列セットを取得する。

本実施例では、さまざまな既存の画像特徴抽出方法を使用して画像セット内の各画像をそれぞれ特徴抽出することができる。例えば、ＳＵＲＦ（スケール不変特徴変換）に基づく特徴抽出方法を使用して画像セット内の各画像の特徴を抽出することができる。別の例として、深層学習に基づく特徴抽出方法を使用して画像セット内の各画像の特徴を抽出することができる。

オプションで、同じ畳み込みニューラルネットワークを使用して、ターゲットアイテムのスケッチ及び画像セット内の各画像をそれぞれ特徴抽出することにより、ターゲットアイテムのスケッチに対応する第１行列及び画像セット内の各画像にそれぞれ対応する第３行列を取得することができる。

オプションで、画像セットに含まれる画像は、一般に大量であり、そして画像セットの更新頻度は、一般に低いため、画像セット内の画像を事前に特徴抽出して、各画像にそれぞれ対応する第３行列を得た後、各画像と対応する第３行列との間の対応する関係を記憶することができ、それにより各画像に対応する第３行列を直接使用することができ、各画像にそれぞれ対応する第３行列を取得するために各画像を再度処理する必要はない。これは、画像検索速度の向上に寄与する。画像セットが更新されると、更新された部分と対応する第３行列との間の対応する関係がさらに記憶され得る。このとき、畳み込みニューラルネットワークを使用して第３行列を得ると、画像セットが更新される場合、畳み込みニューラルネットワークも更新するために、更新された部分を使用して畳み込みニューラルネットワークをさらに訓練することができる。

ステップ２０４：第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に応じて、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定する。

本実施例では、さまざまな既存の行列一致アルゴリズムを使用して、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度を計算することができる。さらに、得られた２つの一致度に基づいて第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を包括的に決定することができる。ここで、具体的には、得られた２つの一致度に基づいて第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を包括的に決定する方法を柔軟に設定することができる。

オプションで、２つのうち最大値又は２つの平均値を、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として決定することができる。

オプションで、第１行列の第１プリセット重みを取得することができ、第２行列の第２プリセット重みを取得することができる。次に取得された第１プリセット重みと第２プリセット重みに基づいて、第１行列と第３行列との一致度と、第２行列と第３行列との一致度の加重和に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定する。

ここで、第１プリセット重み及び第２プリセット重みは、技術者によって事前設定され得るか、又は第１プリセット重み及び第２プリセット重みは、ユーザによって入力され得る。オプションで、第１プリセット重み及び第２重みの値の範囲は、［０～１］であってもよく、第１プリセット重みと第２プリセット重みの和は、１に等しい。

オプションで、第１行列と第３行列との一致度と、第２行列と第３行列との一致度の加重和を、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として決定することができ、加重和が決定された後、加重和に対応するプリセット関数の値を、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度として使用することもできる。ここで、プリセット関数は、技術者によって事前設定され得る。

ある場合には、例えば、ユーザが第１プリセット重みを０に設定するか、又は第２プリセット重みを０に設定する場合、ターゲットアイテムのスケッチ又はターゲットアイテムのキーワードセット内のキーワードのみに基づいて画像検索を実現することができることが理解され得る。すなわち、ユーザが実際のニーズに応じてさまざまな検索方法を柔軟に設定して、ターゲットアイテムのスケッチ及びターゲットアイテムのキーワードセット内のキーワードが検索結果に及ぼす影響を制御することができるため、検索結果の正確さの向上に寄与する。

ステップ２０５：決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。

本実施例では、事前設定数は、技術者によって事前設定されてもよい。画像セット内の各画像にそれぞれ対応する一致度を得た後、画像セットから画像を選択する方法を柔軟に設定することができる。

例えば、対応する一致度の降順で、画像セットから事前設定数の画像を選択することができる。別の例として、最初に、事前設定された一致度の閾値に従って画像セットから画像サブセットを選択し、次に画像サブセットから事前設定数の画像をランダムに選択することができる。

本実施例では、画像セットから選択された画像を他の電子デバイスに送信することができる。例えば、上記実行主体に接続されたユーザ端末（図１に示す端末装置１０１、１０２、１０３）に送信することができる。

オプションで、ターゲットアイテムのスケッチと画像セットから選択された画像との間の対応する関係も記憶することができる。したがって、ターゲットアイテムのスケッチを再度取得する場合、記憶されている対応する関係に従って、ターゲットアイテムのスケッチに一致する画像セット内の画像を迅速に取得することができる。

図３を参照し続けると、図３は、本実施例による画像を検索するための方法の適用シナリオの模式図３００である。図３の適用シナリオでは、上記実行主体は、ユーザが使用する端末装置３０８を介してユーザによって入力されたスケッチ３０１を事前に取得し、次にスケッチ３０１の幾何学的中心を中心点として、水平方向と垂直方向から、スケッチ３０１をサブ画像３０１１、サブ画像３０１２、サブ画像３０１３及びサブ画像３０１４に分割することができる。その後、得られた４つのサブ画像を予め訓練された畳み込みニューラルネットワークにそれぞれ入力して、４つのサブ画像にそれぞれ対応する特徴ベクトルを取得することができ、４つのサブ画像にそれぞれ対応する特徴ベクトルが第１行列３０２を構成する。

上記実行主体は、ユーザが端末装置３０８を介して入力したキーワードセット３０３を事前に取得することができる。ここで、キーワードセット３０３は、「ウォーターカップ」、「小容量」、「蓋なし」及び「ハンドル付き」の４つのキーワードを含む。その後、予め訓練されたＷｏｒｄ２Ｖｅｃモデルを使用して４つのキーワードにそれぞれ対応する単語ベクトルを生成することができ、さらに、４つのキーワードにそれぞれ対応する単語ベクトルで構成される第２行列３０４を得ることができる。

上記実行主体は、画像セット３０５内の各画像を事前に処理して、各画像にそれぞれ対応する第３行列を取得し、第３行列セット３０６を得ることができる。ここで、画像セット３０５内の画像の処理手順は、上記スケッチ３０１の処理手順と同様である。説明のための例として、画像セット３０５内の画像を取り上げる。この画像の幾何学的中心を中心点として、水平方向と垂直方向から、この画像を４つのサブ画像に分割する。その後、得られた４つのサブ画像を予め訓練された畳み込みニューラルネットワークにそれぞれ入力して、４つのサブ画像にそれぞれ対応する特徴ベクトルを取得することができ、４つのサブ画像にそれぞれ対応する特徴ベクトルがこの画像に対応する第３行列を構成する。

その後、第３行列セット３０６内の各第３行列にそれぞれ対応する包括的な一致度を決定することができる。説明の例として、第３行列セット３０６内の１つの第３行列を取り上げる。第３行列と第１行列３０２との一致度を、第１一致度として決定することができると同時に、第３行列と第２行列３０４との一致度を、第２一致度として決定ことができる。次に、事前設定された第１重み及び第２重みに従って、第１一致度と第２一致度の加重和を、第３行列に対応する包括的な一致度として決定する。

その後、対応する一致度の降順で、ターゲット画像として画像セット３０５から事前設定数の画像を選択して、ターゲット画像セット３０７を得、そして、表示のために、ターゲット画像セット３０７をユーザが使用する端末装置３０８にプッシュすることができる。

本開示の上記実施例が提供する画像を検索するための方法は、アイテムのスケッチ及びキーワードに基づく検索を実現し、それによりユーザがアイテムの元の画像を提供できない場合に、検索を実行できないこと又は検索結果の精度が低いことを回避することができる。同時に、スケッチが提供するアイテムのサイズや構造などの特徴とキーワードが提供するアイテムの意味的特徴を組み合わせることにより、検索結果の正確さを確保することができる。

図４をさらに参照すると、図４は、画像を検索するための方法のさらに別の実施例のフロー４００を示している。画像を検索するための方法のこのフロー４００は、ステップ４０１、ステップ４０２、ステップ４０３、ステップ４０４、ステップ４０５及びステップ４０６を含む。

ステップ４０１：ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得する。

ステップ４０２：ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得する。

ステップ４０３：画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得する。

上記ステップ４０１、４０２及び４０３の特定の実行プロセスについては、図２に対応する実施例におけるステップ２０１、２０２及び２０３の関連する説明を参照することができ、ここでは繰り返さない。

ステップ４０４：第３行列セット内の第３行列について、第１行列、第２行列、及び第３行列をそれぞれターゲット行列として、ターゲット行列を符号化処理することにより、第１符号化行列、第２符号化行列、及び第３符号化行列を得る。

本実施例では、符号化処理を使用して、ターゲット行列をバイナリ符号化行列にマッピングすることができる。ここで、バイナリ符号化行列は、含まれる要素値が「０」及び「１」である行列を指すことができる。

オプションで、符号化処理は、最初にターゲット行列をプリセット次元の行列に変換し、次に行列に含まれる各要素の値の範囲が［０～１］になるように、行列内の各要素を正規化処理するということを含み得る。その後、プリセット標準値より大きい要素のコード値を「１」に設定し、プリセット標準値以下の要素のコード値を「０」に設定することができる。ここで、プリセット次元とプリセット標準値はいずれも、技術者によって事前に設定され得る。

ここで、いくつかの既存のデータ処理アプリケーションを使用して、ターゲット行列をプリセット次元の行列に変換することができ、プリセット次元に従って、プーリングウィンドウを設定し、ターゲットに対してプーリング操作を実行することもでき（例えば、平均プーリングなと）、それによりターゲット行列をプリセット次元の行列に変換する。

第１行列、第２行列、及び第３行列を符号化処理することにより、対応して生成された第１符号化行列、第２符号化行列、及び第３符号化行列の次元を制御することができ、そして第１符号化行列、第２符号化行列、及び第３符号化行列をバイナリ符号化行列にでき、それによりその後の行列一致の難しさを軽減し、行列一致の速度を大幅に向上させることができる。

オプションで、符号化処理は、以下のステップ（１）とステップ（２）を含み得る。

ステップ（１）：ターゲット行列の各行ベクトルの行ベクトルＳについて、以下のステップ１、ステップ２及びステップ３を実行することができる。

ステップ１：Ｓに含まれる各要素をＣグループに分割する。ここで、Ｃは、符号化行列の列数を表すことができる。

このステップでは、Ｃは、技術者によって事前設定され得る。分割によって得られた各グループにそれぞれ含まれる要素の数も、技術者によって事前設定され得る。

オプションで、最初に、Ｓに含まれる要素の数とＣの商を決定することができ、次に、決定された商に従って、Ｃグループの各グループに含まれる要素の数を決定することができる。

例えば、できるだけ多くのグループに含まれる要素の数は、決定された商を切り上げ又は切り捨てた結果に等しくなることができる。

ステップ２：Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定する。

このステップでは、統計的特徴は、総和、期待値、分散、最大値、及び標準偏差のいずれかが含まれるが、これらに限定されない。特定の統計的特徴は、技術者によってさまざまな適用シナリオに従って選択され得る。

ステップ３：得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定し、得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定する。

このステップでは、ターゲット閾値Ｔは、技術者によって事前に設定され得る。

オプションで、

である。ここで、Ｄは、Ｓに含まれ得る要素の数を表し、Ｓｉは、Ｓのｉ番目の要素の値を表すことができる。

ステップ（２）：Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成することにより、符号化行列を取得する。

さまざまな適用シナリオに応じて、各行ベクトルによって分割された各グループに含まれる要素の数を制御し、各グループにそれぞれ対応する統計的特徴を統計的特徴として使用して符号化処理を実現することにより、より多くの元の情報を保持するのに寄与し、それによりその後の行列一致と画像検索の精度を向上させることができる。

オプションで、符号化処理は、以下のステップ第１、ステップ第２及びステップ第３を含み得る。

ステップ第１：ターゲット行列の各行ベクトルに対して、以下の更新処理をそれぞれ実行して更新されたターゲット行列を取得する。行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定する。ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関がある。

ここで、正規化処理は、具体的には、最初に行ベクトルに含まれる各要素の値の総和を決定することと、次に行ベクトルに含まれる各要素のそれぞれと決定された総和との商を、各要素に対応する正規化結果として決定することとを含み得る。

オプションで、各要素に対応する正規化結果を各要素にそれぞれ対応する更新値として直接使用することができる。

オプションで、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定することができる。ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があることができる。

例えば、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積を、この要素に対応する更新値として決定することができる。別の例として、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定することができる。

ステップ第２：更新されたターゲット行列の各行ベクトルの行ベクトルＳに対して、Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、及び得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップを実行する。

ステップ第３：Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得することができる。

ここで、上記ステップ第２及びステップ第３の特定の実行プロセスは、上記ステップ（２）及びステップ（３）の関連する説明を参照することができ、ここでは繰り返さない。

最初に、第１行列、第２行列、及び第３行列の各行ベクトルを正規化処理して、第１行列、第２行列、及び第３行列を更新することにより、第１行列、第２行列、及び第３行列のノイズを減らし、第１行列、第２行列、及び第３行列の普遍性と安定性を向上させることができ、さらに、その後の行列一致プロセスの精度を確保することができる。

ステップ４０５：第１符号化行列と第３符号化行列との一致度を第１行列と第３行列との一致度として決定し、第２符号化行列と第３符号化行列との一致度を第２行列と第３行列との一致度として決定する。

ステップ４０６：決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。

このステップの特定の実行プロセスは、図２に対応する実施例におけるステップ２０５の関連する説明を参照することができ、ここでは繰り返さない。

なお、本開示におけるターゲット行列（第１行列、第２行列、及び第３行列セット内の第３行列を含む）の特定の構成方法は、柔軟に設定することができる。例えば、ターゲット行列がベクトルである場合、それは、行ベクトルであってもよいし、列ベクトルもであってもよい。ターゲット行列が複数のベクトルで構成されている場合、各ベクトルは、行ごとにターゲット行列を構成することができ、各ベクトルは、列ごとにターゲット行列を構成することもできる。行列の場合、行列の行は、この行列の転置行列の列である。したがって、本開示における「行」は、「列」に置き換えることもでき、対応する「列」は、「行」に置き換えることもできる。

図４から分かるように、図２に対応する実施例と比較して、本実施例における画像を検索するための方法のフロー４００は、行列一致プロセス中において、行列を符号化処理して、一致計算に使用される行列の次元及び計算量を制御できることにより、行列一致プロセスの難しさ及び計算量を軽減し、一致速度を向上させることができ、それにより画像検索速度を向上させることができることを強調している。

図５をさらに参照すると、上記各図に示されている方法の実現として、本開示は、画像を検索するための装置の一実施例を提供し、この装置の実施例は、図２に示されている方法の実施例に対応し、この装置は、さまざまな電子デバイスに具体的に適用することができる。

図５に示すように、本実施例が提供する画像を検索するための装置５００は、取得ユニット５０１、決定ユニット５０２及び送信ユニット５０３を含む。ここで、取得ユニット５０１は、ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するように構成され、取得ユニット５０１は、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得するようにさらに構成され、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、取得ユニット５０１は、画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するようにさらに構成され、決定ユニット５０２は、第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するように構成され、送信ユニット５０３は、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される。

本実施例では、画像を検索するための装置５００において、取得ユニット５０１、決定ユニット５０２及び送信ユニット５０３の特定の処理及びそれらによってもたらされる技術的効果は、図２に対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４及びステップ２０５の関連する説明をそれぞれ参照することができ、ここでは繰り返さない。

本実施例のいくつかの任意選択の実装形態では、決定ユニット５０２は、第１行列の第１プリセット重みを取得し、第２行列の第２プリセット重みを取得し、取得された第１プリセット重み及び第２プリセット重みに基づいて、第１行列と第３行列との一致度と、第２行列と第３行列との一致度の加重和に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定するようにさらに構成される。

本実施例のいくつかの任意選択の実装形態では、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度は、第１行列、第２行列、及び第３行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第１符号化行列、第２符号化行列、及び第３符号化行列を得、ここで、符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び第１符号化行列と第３符号化行列との一致度を、第１行列と第３行列との一致度として決定し、第２符号化行列と第３符号化行列との一致度を、第２行列と第３行列との一致度として決定するステップにより決定される。

本実施例のいくつかの任意選択の実装形態では、符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及び
Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

本実施例のいくつかの任意選択の実装形態では、Ｓに含まれる各要素をＣグループに分割し、それは、Ｓに含まれる要素の数とＣの商を決定することと、決定された商に従ってＣグループの各グループに含まれる要素の数を決定することとを含む。

本実施例のいくつかの任意選択の実装形態では、

ここで、ＤはＳに含まれる要素の数を表し、ＳｉはＳのｉ番目の要素の値を表す。

本実施例のいくつかの任意選択の実装形態では、符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルに対して、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定するという更新処理をそれぞれ実行し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があり、
更新されたターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及び
Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む。

本実施例のいくつかの任意選択の実装形態では、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む。

本実施例のいくつかの任意選択の実装形態では、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根を、この要素に対応する更新値として決定するということを含む。

本実施例のいくつかの任意選択の実装形態では、第１行列は、
スケッチを少なくとも２つのサブ画像に分割するステップ、
予め訓練された畳み込みニューラルネットワークを使用してそれぞれ少なくとも２つのサブ画像を特徴抽出して、少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び
少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第１行列として決定するステップにより得られる。

本実施例のいくつかの任意選択の実装形態では、畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップにより訓練して得られる。
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出して、スケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれとターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び／又は精度を決定し、決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び／又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む。

本開示の上記実施例が提供する装置は、取得ユニットによりターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得し、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得し、第３行列セット内の第３行列について、決定ユニットは、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、決定された一致度に基づいて、送信ユニットは、画像セットから事前設定数の画像を選択し、選択された画像を送信し、それによりユーザがアイテムの元の画像を提供できないことによる検索を実行できないか、又は検索結果の精度が低いという状況を回避することができる。同時に、スケッチが提供するアイテムのサイズや構造などの特徴と、キーワードが提供するアイテムの意味的特徴を組み合わせることにより、検索結果の正確さを確保する。

以下、図６を参照すると、図６は、本開示の実施例を実現するのに適した電子デバイス（例えば、図１のサーバ）６００の構造模式図を示している。本開示の実施例における端末装置には、携帯電話、ノートブックコンピュータ、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレットコンピュータ）、ＰＭＰ（携帯型マルチメディアプレーヤー）、及び車載端末（例えば、車載ナビゲーション端末）などのモバイル端末、及びデジタルテレビ、デスクトップコンピュータなどの固定端末が含まれ得るが、これらに限定されない。図６に示されているサーバは、単なる一例であり、本開示の実施例の機能及び使用範囲に制限をもたらすべきではない。

図６に示すように、電子デバイス６００は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されたプログラム又は記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに従って、さまざまな適切な動作及び処理を実行できる処理装置（例えば、中央処理装置、グラフィックスプロセッサなど）６０１を含み得る。ＲＡＭ６０３には、電子デバイス６００の操作に必要なさまざまなプログラム及びデータも記憶される。処理装置６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

一般に、以下の装置をＩ／Ｏインターフェース６０５に接続することができる。タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、及びジャイロスコープなどを含む入力装置６０６、液晶ディスプレイ（ＬＣＤ）、スピーカー、及びバイブレータなどを含む出力装置６０７、磁気気テープやハードディスクなどを含む記憶装置６０８、及び通信装置６０９。通信装置６０９は、電子デバイス６００が他の装置と無線通信又は有線通信を実行してデータを交換することを可能にし得る。図６は、さまざまな装置を有する電子デバイス６００を示しているが、示された装置のすべてを実装又は有する必要はないことを理解すべきである。かわりに装置を多かれ少なかれ実施又は備えることができる。図６に示されている各ブロックは、１つの装置を表すことができるか、必要に応じて複数の装置を表すこともできる。

特に、本開示の実施例によれば、フローチャートを参照して上記で説明したプロセスを、コンピュータソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、コンピュータ可読媒体に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施例では、このコンピュータプログラムは、通信装置６０９を介してネットワークからダウンロード及びインストールされ得るか、又は記憶装置６０８からインストールされ得るか、又はＲＯＭ６０２からインストールされ得る。このコンピュータプログラムは、処理装置６０１によって実行されるとき、本開示の実施例の方法で定義された上記機能が実行される。

なお、本開示の実施例で説明されるコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは上記２つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例には、１つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせが含まれ得るが、これらに限定されない。本開示の実施例では、コンピュータ可読記憶媒体は、プログラムを含む又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって使用され得るか、又はそれらと組み合わせて使用され得る。本開示の実施例では、コンピュータ可読信号媒体は、ベースバンド内にあるか、又は搬送波の一部として伝搬されるデータ信号を含み得、コンピュータ可読プログラムコードがその中に運ばれる。この伝搬されたデータ信号は、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない多くの形態をとることができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されるか、又はそれらと組み合わせて使用されるためのプログラムを送信、伝搬又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、ワイヤ、光ケーブル、ＲＦ（無線周波数）など、又は上記の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体によって伝送され得る。

上記コンピュータ可読媒体は、上記電子デバイスに含まれてもよく、この電子デバイスに組み立てられずに単独で存在していてもよい。上記コンピュータ可読媒体には、１つ又は複数のプログラムが搭載され、上記１つ又は複数のプログラムがこの電子デバイスによって実行されると、この電子デバイスは、ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得し、ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、キーワードセット内のキーワードは、ターゲットアイテムを説明するために使用され、画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得し、第３行列セット内の第３行列について、第１行列と第３行列との一致度、及び第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムとターゲットアイテムとの一致度を決定し、決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信する。

本開示の実施例の操作を実行するためのコンピュータプログラムコードは、１つ又は複数のプログラミング言語又はそれらの組み合わせで書くことができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語を含み、「Ｃ」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザコンピュータで完全に実行するか、その一部をユーザコンピュータで実行するか、独立したソフトウェアパッケージとして実行するか、その一部をユーザコンピュータで実行し、その一部をリモートコンピュータで実行するか、又はリモートコンピュータ又はサーバで完全に実行することができる。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含むあらゆる種類のネットワークを介してユーザコンピュータに接続され得るか、又は、外部コンピュータに接続され得る（例えば、ンターネットサービスプロバイダーを使用してインターネット経由で接続する）。

図面におけるフローチャート及びブロック図は、本開示のさまざまな実施例による、システム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を示している。この点に関して、フローチャート又はブロック図の各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができ、このモジュール、プログラムセグメント、又はコードの一部は、指定された論理機能を実現するための１つ又は複数の実行可能な命令を含む。いくつかの代替としての実装では、ブロックにマークされた機能も図面にマークされた順序とは異なる順序で発生する可能性があることにも注意する必要がある。例えば、連続して表された２つのブロックは、実際には実質的に並行して実行されてもよく、それらは、関係する機能によって、逆の順序で実行される場合がある。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定された機能又は操作を実行する専用のハードウェアベースのシステムで実装されてもよく、又は専用のハードウェアとコンピュータ命令の組み合わせで実装されてもよいことにも注意する必要がある。

本開示で説明される実施例に含まれるユニットは、ソフトウェアの方法により実装されてもよく、ハードウェアの方法により実装されてもよい。説明されたユニットは、プロセッサに設置されてもよい。例えば、それは次のように説明することができる。プロセッサであって、取得ユニット、決定ユニット及び送信ユニットを含む。ここで、これらのユニットの名称は、特定の状況下でこのユニット自体の制限を構成するものではない。例えば、送信ユニットはさらに、「決定された一致度に基づいて、画像セットから事前設定数の画像を選択し、選択された画像を送信するユニット」と説明されてもよい。

上記の説明は、本開示の好ましい実施例、及び適用される技術原理の説明にすぎない。当業者であれば、本開示の実施例に含まれる本発明の範囲は、上記技術的特徴の特定の組み合わせによって形成される技術的解決手段に限定されず、同時に、上記発明概念から逸脱することなく、上記技術的特徴又はそれらの同等の特徴の任意の組み合わせによって形成される他の技術的解決手段もカバーする必要があることは、当然理解される。例えば、上記特徴と、本開示の実施例で開示された（ただし、これらに限定されない）同様の機能を有する技術的特徴とを互いに置き換えることにより形成される技術的解決手段である。

Claims

ターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するステップと、
ターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、前記キーワードセット内のキーワードは、前記ターゲットアイテムを説明するために使用されるステップと、
画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するステップと、
前記第３行列セット内の第３行列について、前記第１行列と前記第３行列との一致度、及び前記第２行列と前記第３行列との一致度に従って、前記第３行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するステップと、
決定された一致度に基づいて、前記画像セットから事前設定数の画像を選択し、選択された画像を送信するステップと、を含む画像を検索するための方法。
前記第１行列と前記第３行列との一致度、及び前記第２行列と前記第３行列との一致度に従って、前記第３行列に対応する画像が提示するアイテムと前記ターゲットアイテムとの一致度をし、それは、
前記第１行列の第１プリセット重みを取得し、前記第２行列の第２プリセット重みを取得するステップと、
取得された第１プリセット重み及び第２プリセット重みに基づいて、前記第１行列と前記第３行列との一致度と、前記第２行列と前記第３行列との一致度の加重和に従って、前記第３行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するステップと、を含む請求項１に記載の方法。
前記第１行列と前記第３行列との一致度、及び前記第２行列と前記第３行列との一致度は、
前記第１行列、前記第２行列、及び前記第３行列をそれぞれターゲット行列として、ターゲット行列を符号化処理して、第１符号化行列、第２符号化行列、及び第３符号化行列を得、ここで、前記符号化処理は、ターゲット行列をバイナリ符号化行列にマッピングするために使用されるステップ、及び
前記第１符号化行列と前記第３符号化行列との一致度を前記第１行列と前記第３行列との一致度として決定し、前記第２符号化行列と前記第３符号化行列との一致度を前記第２行列と前記第３行列との一致度として決定するステップにより決定される請求項１に記載の方法。
前記符号化処理は、
ターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及び
Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということを含む請求項３に記載の方法。
Ｓに含まれる各要素をＣグループに分割し、それは、Ｓに含まれる要素の数とＣの商を決定し、決定された商に従ってＣグループの各グループに含まれる要素の数を決定するということを含む請求項４に記載の方法。
であり、ここで、ＤはＳに含まれる要素の数を表し、ＳｉはＳのｉ番目の要素の値を表す請求項４に記載の方法。
前記符号化処理は、
更新されたターゲット行列を取得するために、ターゲット行列の各行ベクトルについて、行ベクトルを正規化処理し、行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、各要素にそれぞれ対応する正規化結果と正の相関があるという更新処理をそれぞれ実行するということと、
更新されたターゲット行列の各行ベクトルの行ベクトルＳについて、
Ｓに含まれる各要素をＣグループに分割し、ここで、Ｃは符号化行列の列数を表すステップ、
Ｃグループのグループについて、このグループに含まれる要素の値の統計的特徴を決定するステップ、
得られた統計的特徴がターゲット閾値Ｔより大きいと決定したことに応答して、このグループのコード値が１であると決定するステップ、
得られた統計的特徴がＴより小さいと決定したことに応答して、このグループのコード値が０であると決定するステップ、及び
Ｃグループの各グループにそれぞれ対応するコード値で符号化行列の１行を構成して、符号化行列を取得するステップを実行するということと、を含む請求項３に記載の方法。
行ベクトルの正規化結果に従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、ここで、行ベクトルに含まれる各要素にそれぞれ対応する更新値は、λと正の相関があるということを含む請求項７に記載の方法。
行ベクトルの正規化結果及び事前設定された調整パラメータλに従って、行ベクトルに含まれる各要素にそれぞれ対応する更新値を決定し、それは、行ベクトルに含まれる各要素の要素について、この要素に対応する正規化結果とλの積の平方根をこの要素に対応する更新値として決定するということを含む請求項８に記載の方法。
前記第１行列は、
前記スケッチを少なくとも２つのサブ画像に分割するステップ、
予め訓練された畳み込みニューラルネットワークを使用して、前記少なくとも２つのサブ画像をそれぞれ特徴抽出して、前記少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルを得るステップ、及び
前記少なくとも２つのサブ画像にそれぞれ対応する特徴ベクトルで構成される行列を第１行列として決定するステップにより得られる請求項１に記載の方法。
前記畳み込みニューラルネットワークは、
スケッチセットを取得し、スケッチセット内の各スケッチにそれぞれ対応する一致する画像セットを取得し、ここで、スケッチ及び対応する一致する画像セット内の一致する画像は、同じアイテムを提示するために使用されるステップ、及び
スケッチセットからスケッチを選択し、以下の訓練ステップを実行するステップにより訓練して得られ、
それらの訓練ステップは、
初期モデルを使用して選択されたスケッチ及びターゲット画像セット内の各画像をそれぞれ特徴抽出してスケッチ及びターゲット画像セット内の各画像にそれぞれ対応する出力行列を取得する訓練ステップと、
得られたスケッチに対応する出力行列のそれぞれと、ターゲット画像セット内の各画像にそれぞれ対応する出力行列との一致度を決定し、対応する一致度が事前設定された閾値より大きい画像を選択する訓練ステップと、
選択された画像及び入力されたスケッチに対応する一致する画像セットに従って、選択された画像に対応するリコール率及び／又は精度を決定し、決定されたリコール率及び／又は精度に従って、初期モデルの訓練が完了しているかどうかを決定する訓練ステップと、
初期モデルの訓練が完了していると決定したことに応答して、訓練された初期モデルを前記畳み込みニューラルネットワークとして決定する訓練ステップと、
初期モデルの訓練が完了していないと決定したことに応答して、決定されたリコール率及び／又は精度に従って、初期モデルのパラメータを調整し、調整された初期モデルを初期モデルとして決定し、スケッチセットからスケッチを再選択し、上記訓練ステップを実行し続ける訓練ステップと、を含む請求項１０に記載の方法。
取得ユニットであって、前記取得ユニットはターゲットアイテムのスケッチを特徴抽出して得られた第１行列を取得するように構成される取得ユニットと、
前記取得ユニットであって、前記前記取得ユニットはターゲットアイテムに対応するキーワードセット内のキーワードの単語ベクトルで構成される第２行列を取得し、ここで、前記キーワードセット内のキーワードは前記ターゲットアイテムを説明するために使用されるようにさらに構成される前記取得ユニットと、
前記取得ユニットであって、前記前記取得ユニットは画像セット内の各画像をそれぞれ特徴抽出して得られた第３行列セットを取得するようにさらに構成される前記取得ユニットと、
決定ユニットであって、前記決定ユニットは前記第３行列セット内の第３行列について、前記第１行列と第３行列との一致度、及び前記第２行列と第３行列との一致度に従って、第３行列に対応する画像が提示するアイテムと前記ターゲットアイテムの一致度を決定するように構成される決定ユニットと、
送信ユニットであって、前記送信ユニットは決定された一致度に基づいて、前記画像セットから事前設定数の画像を選択し、選択された画像を送信するように構成される送信ユニットと、を含む画像を検索するための装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが記憶される記憶装置と、を含み、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサにより実行される場合、前記１つ又は複数のプロセッサは、請求項１～１１のいずれか一項に記載の方法を実現する電子デバイス。
コンピュータプログラムが記憶されるコンピュータ可読媒体であって、
このプログラムがプロセッサにより実行される場合、請求項１～１１のいずれか一項に記載の方法を実現するコンピュータ可読媒体。