JP6144839B2 - 画像を検索するための方法およびシステム - Google Patents

画像を検索するための方法およびシステム Download PDF

Info

Publication number
JP6144839B2
JP6144839B2 JP2016531830A JP2016531830A JP6144839B2 JP 6144839 B2 JP6144839 B2 JP 6144839B2 JP 2016531830 A JP2016531830 A JP 2016531830A JP 2016531830 A JP2016531830 A JP 2016531830A JP 6144839 B2 JP6144839 B2 JP 6144839B2
Authority
JP
Japan
Prior art keywords
image
query image
visual
information
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016531830A
Other languages
English (en)
Other versions
JP2016529611A (ja
Inventor
リウ・ルイタオ
ジャーン・ホンミン
ルー・シンフェン
Original Assignee
アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited
アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201310328673.5 priority Critical
Priority to CN201310328673.5A priority patent/CN104346370B/zh
Priority to US14/444,927 priority patent/US20150039583A1/en
Priority to US14/444,927 priority
Application filed by アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited, アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited filed Critical アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited
Priority to PCT/US2014/048670 priority patent/WO2015017439A1/en
Publication of JP2016529611A publication Critical patent/JP2016529611A/ja
Application granted granted Critical
Publication of JP6144839B2 publication Critical patent/JP6144839B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network-specific arrangements or communication protocols supporting networked applications
    • H04L67/42Protocols for client-server architectures

Description

本出願は、2013年7月31日に出願され発明の名称を「A METHOD AND DEVICE FOR IMAGE SEARCHES AND FOR ACQUIRING IMAGE TEXT INFORMATION(画像検索のためのおよび画像テキスト情報を取得するための、方法およびデバイス)」とする中国特許出願第201310328673.5号の優先権を主張する。該出願は、あらゆる目的のために、参照によって本明細書に組み込まれる。
本出願は、画像を検索するための方法およびシステムに関する。
インターネット上の画像データ情報の量が増すにつれて、ユーザがオンライン画像の検索を求める需要が増え続けている。画像検索を求めるこの需要の伸びは、ウェブベースの様々な画像検索エンジンを生み出してきた。画像検索は、画像テキストまたは視覚特徴を検索することによって適切なグラフィック/画像素材検索サービスをオンラインでユーザに提供する専用の検索エンジンシステムを通じて実施される。
画像検索エンジンは、画像検索の範囲に基づいて、2つの主なカテゴリ、即ち包括的画像検索と垂直画像検索とに分けられる。包括的画像検索は、インターネット全体の画像に対して行われる類似性検索である。垂直画像検索は、一部のカテゴリ(衣料、靴、および他の製品など)を主として対象とする検索である。現在、電子商取引プラットフォームなどの専門のウェブサイトにおけるオンサイト画像検索エンジンは、主として垂直画像検索のカテゴリに入る。このような専門のウェブサイトの場合は、ユーザによってアップロードされた照会画像を使用して検索が行われ、同じまたは類似の商用物の画像が返される。
当初、専門のウェブサイトにおけるオンサイト画像検索は、ウェブサイト自身のデータベースからの画像を検索のための照会画像として使用するのが一般的であった。たとえば、電子商取引プラットフォームの画像データベースは、売り手ユーザによってアップロードされた多くの商用物の画像を格納しており、また、各画像に対応する商用物に関係付けられたカテゴリ情報はもちろん、対応するスタイル情報(スタイル情報にはカラーや形状などが含まれる)や他の同様な画像情報も格納している。ユーザは、アップロードされた商用物の1つの画像を照会画像として選択する。このようにして、オンサイト検索エンジンは、照会画像のカテゴリ情報、対応するスタイル情報(カラーや形状など)、および他の同様な画像情報に基づいて検索を行って、照会画像と同じまたは照会画像に極めて類似している商用物の画像を返すことができる。
このアプローチによって、比較的優れた検索結果を得ることが可能である。しかしながら、オンサイト画像データベース外の画像(たとえばユーザが携帯電話を使用して日常で撮影した画像)の場合は、その照会画像に関する記述情報を事前に得ることが不可能であるゆえに、検索結果画像の類似性および再現率が比較的低くなる。もちろん、より良い検索結果を得るために、システムは、ユーザに対し、照会画像を入力する際にその照会画像内の主コンテンツに関係付けられたカテゴリ、スタイル情報、および他の記述情報を提供するように求めることもできるだろう。しかしながら、このような検索結果は、ユーザによって入力された記述情報に大きく依存するだろう。ユーザの視点から見ると、このような検索プロセスは、煩雑になる恐れがあり、また、ユーザはウェブサイト画像データベース内の様々なカテゴリの定義を知らないかもしれないので、入力された記述情報は、必ずしも正確とは限らない。したがって、不正確な検索結果が返される恐れがある。
本発明の様々な実施形態が、以下の詳細な説明および添付の図面で開示される。
先行技術または本出願の実施形態における技術的解決策を、より明瞭に説明するために、以下で、実施形態に必要とされる図面が簡単に紹介される。以下で説明される図面は、本出願の幾つかの実施形態に過ぎないことが自明である。当業者ならば、創造的な労力を費やすことなく、これらの図面をもとにして他の図面を得られるだろう。
画像を検索するためのプロセスの一実施形態を示したフローチャートである。
特徴を抽出するためのプロセスの一実施形態を示したフローチャートである。
照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定するためのプロセスの一実施形態を示したフローチャートである。
画像テキスト情報を取得するためのプロセスの一実施形態を示したフローチャートである。
画像を検索するためのデバイスの一実施形態を示した図である。
特徴抽出ユニットの一実施形態を示した図である。
画像テキスト情報を取得するためのデバイスの一実施形態を示した図である。
画像を検索するためのシステムの一実施形態を示した図である。
画像を検索するためのプログラムドコンピュータシステムの一実施形態を示した機能図である。
特徴を抽出されることになる画像の一例である。
本発明は、プロセス、装置、システム、合成物、コンピュータ読み取り可能ストレージ媒体に実装されたコンピュータプログラム製品、ならびに/または接続先のメモリに記憶された命令および/もしくは接続先のメモリによって提供される命令を実行するように構成されたプロセッサ等のプロセッサなどの、数々の形態で実現することができる。本明細書では、これらの実現形態、または本発明がとりえるその他のあらゆる形態を、技術と称することができる。総じて、開示されるプロセスの各ステップの順番は、本発明の範囲内で変更可能である。別途明記されない限り、タスクを実施するように構成されるものとして説明されるプロセッサまたはメモリなどのコンポーネントは、所定時にタスクを実施するように一時的に構成された汎用コンポーネントとして、またはタスクを実施するように製造された特殊コンポーネントとして実装可能である。本明細書で使用される「プロセッサ」という用語は、コンピュータプログラム命令などのデータを処理するように構成された1つ以上のデバイス、回路、ならびに/または処理コアを言う。
本発明の原理を例示した添付の図面とともに、以下で、本発明の1つ以上の実施形態の詳細な説明が提供される。本発明は、このような実施形態に関連付けて説明されるが、いずれの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定され、本発明は、数々の代替形態、変更形態、および均等物を包含している。以下の説明では、本発明の完全な理解を与えるために、数々の具体的詳細が明記されている。これらの詳細は、例示を目的として提供されるものであり、本発明は、これらの詳細の一部または全部を伴わずとも、特許請求の範囲にしたがって実施可能である。明瞭を期するために、本発明に関連した技術分野で知られる技工物は、本発明が不必要に不明瞭にされないように、詳細には説明されていない。
一部の実施形態では、画像検索を行うときに、ウェブサイト画像データベース内にはない画像を照会画像として使用することができる。照会画像の一例として、ユーザの携帯電話で撮影された写真や、別のウェブサイトまたはローカルファイルフォルダからの写真などが挙げられる。さらに、照会画像についてのカテゴリ情報または記述情報(たとえば製品属性、キーワード、メインカラー、および他の同様なスタイル情報)を手動で指定することが不要である。検索エンジンに関しては、ユーザによって入力された照会画像を受信した後、検索エンジンは、先ず、照会画像が属しているだろうカテゴリを決定することができる。また、検索エンジンは、照会画像についての記述情報を決定し、次いで、その記述情報に基づく検索結果をユーザに提供することもできる。
一部の実施形態では、照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定するために使用される方法は、照会画像をデータベース内の画像と比較することを含み、データベース内の画像は、これらの画像自体にカテゴリ情報および記述情報が関係付けられている。したがって、もし、データベース内で照会画像に類似する画像が見つかった場合は、データベース内で見つかったこれらの画像に関係付けられたカテゴリ情報に基づいて、現照会画像に関係付けられるカテゴリを決定することができる。続いて、現照会画像についての記述情報を決定することも可能である。
現照会画像に類似する画像のデータベース内での探索は、以下のように実施することができる。即ち、サーバは、先ず、画像データベース内の各画像からオフラインで視覚特徴を抽出し、各画像に対応する抽出された視覚特徴を画像データベースに格納することができる。一部の実施形態では、サーバは、各画像から視覚特徴を抽出し、各画像に対応する視覚特徴をデータベースに格納するので、ユーザが照会画像を入力したときに、サーバは、照会画像からも同様に視覚特徴を抽出し、抽出された照会画像の視覚特徴をデータベース内の各画像の視覚特徴と比較して、照会画像に類似する画像を見つける。もちろん、個々の画像は、主コンテンツに加えて背景および他のコンテンツを有することがあり、そのうちの主コンテンツのみが、その画像が主として表示するコンテンツを含むかもしれない。たとえば、或る画像の主な意図は、1枚の衣料を提示することである。この例では、その画像内の人物の胴体のみが、画像の主コンテンツゾーンに属する。したがって、一部の実施形態では、各画像から視覚特徴が抽出される前に、サーバは、先ず、各画像の主コンテンツゾーンを検出し、次いで、その主コンテンツゾーンから視覚特徴を抽出することができる。したがって、類似性決定の精度が、画像背景に影響されることはない。
どの主コンテンツゾーンが検出され、どの特定の視覚特徴が抽出されるかに関する実施形態が、以下で説明される。電子商取引プラットフォームにおいて、画像データベース内の画像は、通常、売り手ユーザによってアップロードされた商用物(たとえば商品)の画像であり、売り手ユーザは、同じ商用物について、そのうちの1枚が主要画像である複数の画像をアップロードするだろう。一部の実施形態では、視覚特徴の抽出を、商用物の主要画像に限定することができる。また、システム内には多くの売り手ユーザが存在し、常に新しい商用物画像をアップロードしているので、特徴抽出は、データベースに毎日(または異なる期間ごとに)追加される新しい商用物の主要画像に対して実施することができる。もちろん、これらの主要画像は、全て、ユーザによってアップロードされたものであるので、画像品質(画素や解像度など)が、各種の要件を満たさないことがある。要件の例として、格納された画像が小さすぎること(200×200画素未満の画像)、画像品質が悪いこと(たとえば携帯電話によって撮られた画像をコンピュータ画面上で見たときの画像)、および何らかの主製品が強調されていないこと(たとえば画像が製品自体に加えて非製品情報も含む)が挙げられる。したがって、システムは、画像品質を事前に決定し、次いで、主コンテンツゾーンの検出および視覚特徴の抽出を行うこともできる。この実施形態では、システムは、照会画像カテゴリの決定に使用するために、算出された画像特徴を定期的に(たとえば毎日)オンライン分散画像データベース内へプッシュすることができる。プッシュされた算出画像特徴は、その後の検索にも使用することができる。
したがって、ユーザが照会画像をアップロードした後、システムは、先ず、照会画像から視覚特徴を抽出し、抽出された視覚特徴をオンラインのリアルタイム解析器に入力することができる。このオンラインのリアルタイム解析器は、照会画像の対応する視覚特徴に基づいてカテゴリを決定することができ、また、この導出されたカテゴリに対応するスタイル情報および他の同様な記述情報を抽出することもできる。次いで、この情報は、オンライン分散指標を照会するために使用することができる。照会から得られた結果画像は、特定のルールにしたがって順番に並べられ、次いで、ユーザに送り返される。ルールの一例として、画像のカラー、形状、および/またはパターンにしたがって結果画像を照会画像と比較すること、ならびに照会画像との類似性の順に結果をランク付けすることが挙げられる。
図1Aは、画像を検索するためのプロセスの一実施形態を示したフローチャートである。一部の実施形態では、プロセス100は、サーバ520(図5に示されている)によって実行され、以下を含む。
110において、サーバは、入力された照会画像を受信した後、その照会画像から視覚特徴を抽出する。
一部の実施形態では、照会画像から抽出される視覚特徴は、データベース内の各画像から視覚特徴がオフラインで抽出されるのと同じやり方で抽出される。さらに、視覚特徴タイプも、視覚特徴(のタイプ)に対応している。視覚特徴タイプの例として、スケール不変特徴変換(SIFT)、カラーレイアウト記述子(CLD)、形状、画像コンテンツ、エッジヒストグラム記述子(EHD)、およびGIST記述子が挙げられる。したがって、視覚特徴タイプの抽出および視覚特徴の抽出は、まとめて説明される。
一部の実施形態では、抽出される画像視覚特徴は、画像のカラーヒストグラム、粒状感、形状、および他のグローバル特徴などの、グローバル特徴である。一部の実施形態では、これらのグローバル特徴に基づいて、続いて、画像類似性計算および画像検索が実施される。一態様として、このようなグローバル特徴は、画像のグローバル記述のために使用されるが、画像の詳細を非常に細かく区別するには使用できないのが一般的である。したがって、一部の実施形態では、画像は、グローバル特徴(カラーやエッジなど)とローカル特徴とを併せた複合的アプローチを通じて記述される。ローカル特徴の例として、SIFT、加速化ロバスト特徴(SURF)、主成分解析SIFT(PCA−SIFT)、アフィンSIFT(ASIFT)、および勾配場所・方向ヒストグラム(GLOH)が挙げられる。続いて、これらのグローバル特徴およびローカル特徴に基づいて、データベース内の画像のなかから照会画像に類似する画像を探索することができる。こうして、抽出されたグローバル特徴およびローカル特徴を通じて画像を記述すること、ならびに決定の精度を高めることが可能である。もちろん、精度要件が比較的高くないときは、グローバル特徴またはローカル特徴のいずれかのみを抽出することが可能である。
一部の実施形態では、グローバル特徴は、グローバル視覚エッジ特徴、グローバルカラー分布特徴、またはその任意の組み合わせを含む。一部の実施形態では、ローカル特徴は、ローカル回転不変特徴を含む。ローカル回転不変特徴の一例に、SIFTがある。グローバル視覚エッジ特徴の一例に、EHDがある。グローバルカラー分布特徴の一例に、CLDがある。一部の実施形態では、照会画像から任意の1つの視覚特徴情報が抽出される、照会画像から任意の2つまたは3つの視覚特徴情報が同時に抽出される、などである。要するに、照会画像からの視覚特徴の抽出量に対して特別な制約はない。たとえもし、照会画像から1つの視覚特徴のみが抽出される場合でも、ストレージスペースの利用を軽減しつつ、照会画像に関係付けられるカテゴリ情報および他の情報を決定することが実現される。もちろん、これら全ての特徴が抽出される場合は、1枚の照会画像から3つの異なるタイプの特徴を抽出することができる。同様に、指標の確立のために使用されるデータベース内の全ての画像の場合も、これら3つの異なるタイプの特徴を抽出してデータベースに格納することができる。なお、グローバルであれローカルであれ、全ての特徴が、当業者に理解される方法に基づいて抽出可能であり、方法に関する説明は、簡潔を期するために省略される。
図1Bは、特徴を抽出するためのプロセスの一実施形態を示したフローチャートである。一部の実施形態では、プロセス1100は、図1Aの動作110を実行に移したものであり、以下を含む。
1110において、サーバは、顔検出技術に基づいて、照会画像内の顔ゾーン、ならびに検出された顔ゾーンの位置および領域を検出する。顔検出は、与えられた任意の画像について、人の顔があるかどうかを決定し、その人の顔の場所およびサイズを提供することを言う。顔検出技術の例として、皮膚の色および/または動きを使用した検出がある。
1120において、サーバは、顔ゾーンの位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定する。
1130において、サーバは、胴体ゾーンの位置および領域に基づいて、照会画像の主コンテンツゾーンを抽出する。
その結果、決定および検索の精度が向上する。一部の実施形態では、サーバは、主コンテンツゾーンの抽出を実施するために、画像分割・顕著性検出、大津の方法、およびグラフカットなどの方法を使用することができる。このような方法は、画像カラー分布情報に依存し、比較的大きい計算負荷を伴う。主コンテンツゾーンを検出するための方法は、システムパフォーマンスに影響する恐れがある。さらに、画像の場面が複雑であるときに、主コンテンツゾーンを検出するための方法は、主コンテンツゾーンを正確に分けられず、後続の処理にマイナスの結果をもたらすかもしれない。たとえば、照会画像は、モデルが見せる衣料を主コンテンツとして有する。この例では、画像の主コンテンツゾーンを決定するために、人の顔検出を使用することができる。
1140において、サーバは、主コンテンツゾーンから視覚特徴を抽出する。
図7は、特徴を抽出されることになる画像の一例である。この例では、サーバは、先ず、入力画像(照会画像またはデータベース内の画像であってよい)に対して顔検出を実施する。人の顔を検出する場合は、サーバは、丸い顔ゾーンと、この丸い顔ゾーンの中心点座標であるCenter(x,y)を得る。人の顔の検出に失敗した場合は、サーバは、画像全体を衣料の主ゾーンとして出力する。
次に、人の胴体が矩形ゾーン(Rect)として示されること、ならびにこの矩形ゾーン(Rect)の長さおよび幅が丸い顔ゾーンの直径(R)に比例的に関係付けられることが、先験的に知られている。Rectの長さおよび幅は、この関係から得ることができる。たとえば、実際の条件に基づいて、以下のパラメータを決定することができる。
長さ=3.5×R
幅=2.5×R
したがって、顔ゾーンの中心座標(x,y)と、矩形ゾーン(Rect)の長さおよび幅とによって、サーバは、胴体矩形ゾーンの左上角の点P1(x,y)を得ることができる。さらに、サーバは、点P1(x,y)と、Rectの長さおよび幅とに基づいて、衣料主ゾーンの対応座標を得ることができる。
図1Aに戻り、120において、サーバは、照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定する。
照会画像の視覚特徴を得た後、サーバは、データベース内の画像から視覚特徴を予め抽出することができる。したがって、サーバは、照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することができる。1つのタイプの視覚特徴のみが抽出され、その特定の視覚特徴が特定の次元のベクトルで一般的に表される場合は、2枚の画像間の類似性は、算出されたベクトル間距離で表される。一例では、ベクトル間距離は、それぞれが画像を表している2つのベクトル間のユークリッド距離に基づいて算出することができる。一部の実施形態では、同じ画像から、異なるタイプの複数の視覚特徴が抽出可能だろう。たとえば、画像の視覚特徴は、グローバル特徴およびローカル特徴の両方を含み、多くの種類のグローバル特徴が存在するなどである。多くの異なるタイプの視覚特徴が存在するこのような状況において、2枚の画像間の類似性が算出される場合は、その計算は、通常は、分類子に基づくことができる。要するに、分類子モデルを訓練するために、訓練サンプル群が手動で選択される。分類子モデルの例には、線形分類子、ベイジアン分類子、ニューラルネットワーク、サポートベクトルマシン(SVM)などがある。続いて、照会画像の各種の視覚特徴が分類子に入力され、分類子は、照会画像に関係付けられるカテゴリを出力する。一態様として、このようなアプローチには、以下の制約があるのが一般的である。
1つ目は、訓練サンプルの手動選択に関係する労働コストが高い恐れがあることこと、および選択プロセスが主観的になり、分類子モデルの訓練にマイナスの結果を及ぼす恐れがあることである。
2つ目は、実際のシステムでは、サンプル分布がしばしば大きな非一様性を見せることであり、これは、比較的多くのサンプルを有するカテゴリがある一方で比較的少ないサンプルを有するカテゴリがあるという事実として現れる。サンプル分布におけるこのような不均衡は、分類子訓練プロセスに大きく影響する恐れがある。その結果、最終的に訓練された分類子モデルは、様々な種類のサンプルまたは画像をあまり上手く区別することができなくなる。
3つ目は、画像データベース内に、多量の画像データが存在することである。さらに、これらの画像の場面は、非常に複雑であることがある。したがって、一定量の訓練サンプルの選択には、困難が伴うことがある。即ち、比較的少数の訓練サンプルが選択される場合は、サーバは、様々なタイプのサンプルをあまり上手く記述することができない。比較的多数の訓練サンプルが選択される場合は、分類子を構築するために使用されるリソースが多くなるゆえに、分類子モデルは、さらに困難な状況に見舞われる。
4つ目は、分類子ベースの物体カテゴリ決定システムが正式にオンラインにされた後に、分類子モデルは定期的にアップデートされること、およびシステムは訓練サンプルの再選択を再度伴うことである。プロセス全体で大量のリソースが消耗され、これは、迅速でリアルタイムなシステムアップデートに不都合である。
カテゴリ決定における分類子の使用に伴う上記の制約を考慮し、一部の実施形態は、カスケードタイプの再検索画像類似性計算方法を提供する。要するに、サーバは、各層の計算を実施するにあたり、各種タイプの視覚特徴の既定の順序に基づいて、階層化されたカスケードタイプの計算を実施し、この類似性決定は、照会画像内の1つのタイプの特徴のみに基づいており、次のタイプの特徴に基づく類似性決定を実施するために、或る層内での前提条件に適合する画像セットを次の層に入力する。
たとえば、照会画像が3つの異なるタイプの視覚特徴、即ちグローバルエッジ特徴、グローバルカラー分布特徴、およびローカル回転不変特徴を含むと想定する。また、画像データベース内の各画像も、上記3タイプの視覚特徴を有する。さらに、これら各種の視覚特徴の既定の順序が、グローバルカラー分布特徴、グローバルエッジ特徴、およびローカル回転不変特徴であるとする。図1Cは、照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定するためのプロセスの一実施形態を示したフローチャートである。一部の実施形態では、プロセス1200は、図1Aの120を実行に移したものであり、以下を含む。
1210において、サーバは、第1の類似性測定技術に基づいて、照会画像のグローバルカラー分布特徴と、画像データベース内の各画像のグローバル色特徴との類似性を算出し、照会画像との類似性が第1の閾値を超える各画像からなる第1の画像セットを選択する。
1220において、サーバは、第2の類似性測定技術に基づいて、照会画像のグローバルエッジ特徴と、第1の画像セット内の各画像のグローバルエッジ特徴との類似性を算出し、第1の画像セットのなかから、照会画像との類似性が第2の閾値を超える各画像からなる第2の画像セットを選択する。
1230において、サーバは、第3の類似性測定技術を使用して、照会画像のローカル回転不変特徴と、第2の画像セット内の各画像のローカル回転不変特徴との類似性を算出し、第2の画像セットのなかから、照会画像との類似性が第3の閾値を超える各画像からなる第3の画像セットを選択する。
要するに、上記の各動作における決定は、それぞれ1つのタイプの視覚特徴に基づく。また、上記の各動作は、幾つかの画像をフィルタリングで排除するように構成される。動作1230で得られる画像セットは、全てのタイプの視覚特徴について照会画像に類似している各画像からなる画像セットである。上記のプロセス1200は、カスケードタイプの決定に相当する。そこの各動作における対応する類似性測定技術は、互いに同じであってよいまたは異なっていてよい。要するに、異なるタイプの視覚特徴は、異なる類似性測定技術を有することができる。一部の実施形態では、類似性測定技術として、ベクトル間距離が使用される。たとえば、2つのベクトル間の距離を算出するために、ユークリッド計算が使用され、距離が小さいほど類似性が高くなる。なお、グローバルカラー分布特徴、グローバルエッジ特徴、および回転不変特徴について比較する手順は、様々な実施形態において可変であってよい。
このカスケードタイプの決定方法は、以下の点で、分類子訓練方法と異なる。
1つ目は、カスケードタイプの決定方法が、訓練サンプルも従来の分類子訓練プロセスも必要としないことである。カスケードタイプの決定方法は、システムリソースおよび分類子再訓練中に使用される大量のリソースを節約することができる。
2つ目は、カスケードタイプの決定方法が、層ごとに類似性決定を行うことである。各層では、1つの視覚特徴に関して照会画像に最も類似する画像のセットを得るために、それぞれ異なるタイプの画像特徴が使用される。得られた画像セットは、次のレベルで使用され、さらなるふるい分けを経る。
3つ目は、カスケードタイプの決定方法が、オフライン動作で1つの画像特徴を計算するのみであることである。その後に続く特徴計算は、全て、リアルタイム計算である。このプロセスに関わるシステムのストレージ負担および計算リソースは、複数の画像特徴を一度の計算にかけて次いでその結果を統合する技術よりも少なくて済む。
4つ目は、カスケードタイプの決定方法が、従来の機械学習分類子訓練プロセスを必要としないゆえに拡張可能であり、検索のためにさらに多くのカテゴリに広げられることである。
130において、サーバは、照会画像との類似性が前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定する。前提条件の一例には、既定の閾値がある。カテゴリ決定技術の一例として、カテゴリ内に商用物が出現する回数に基づいてカテゴリをランク付けし、商用物の出現回数が最も高いカテゴリを出力することが挙げられる。
たとえば、照会画像に視覚的に類似している画像のセットを得た後、サーバは、画像データベース内に格納されている各画像に関係付けられたカテゴリに基づいて、現照会画像に関係付けられるカテゴリを決定する。一例として、サーバは、画像データベース内に格納されている全ての画像のカテゴリ情報に基づいて、前提条件に適合する類似性を有する各画像に対応するカテゴリを決定し、次いで、発生頻度が最も高いカテゴリを、照会画像に関係付けられるカテゴリであると決定する。たとえば、サーバは、照会画像に最も類似する画像が10枚あると決定する。これら10枚の画像のうち、5枚はカテゴリAに属し、2枚はカテゴリBに属し、2枚はカテゴリCに属し、1枚はカテゴリDに属する。したがって、サーバは、現照会画像をカテゴリAに属すると決定する。もちろん、一部の実施形態では、判定ツリー解析などの他の周知の判定方法を用いることができる。
次に、サーバは、照会画像に関係付けられるカテゴリを決定した後、照会画像についての記述情報も決定することができる。一例として、サーバは、前提条件に適合する類似性を有する画像のなかで、最も高い発生頻度を有するカテゴリに対応する画像に関する記述情報を抽出し、これらの画像の記述情報の解析に基づいて、現照会画像の記述情報を決定する。たとえば、上記の例では、サーバは、照会画像がカテゴリAに関係付けられると決定した後、カテゴリAに対応する5枚の画像を選択する。次いで、これら5枚の画像のタイトルおよび他のテキスト記述情報に基づいてワード分割を実施した後、サーバは、解析を行って、照会画像についての記述情報として幾つかのキーワードを最終的に選択する。
もちろん、一部の実施形態では、他のアプローチを通じて照会画像記述情報を決定することができる。記述情報は、照会画像のカテゴリ情報が決定された後に決定される必要はない。また、サーバは、照会画像についてカテゴリ情報または記述情報のいずれか一方を決定し、このいずれか一方の情報に基づいて、ユーザに検索結果を提供することもできる。もちろん、もし、サーバがカテゴリ情報および記述情報の両方に関する情報を決定する場合は、検索結果の質が向上するはずである。
140において、サーバは、照会画像、ならびに該照会画像に関係付けられる決定されたカテゴリ情報、記述情報、またはその組み合わせに基づいて検索を行って、検索結果を返す。
照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定した後、サーバは、決定された情報に基づいて、画像データベース内で関連の検索結果を得る。この検索プロセスは、ユーザが照会画像はもちろんカテゴリ情報および記述情報もサブミットする場合と同じであってよい。たとえば、サーバは、先ず、画像データベース内で、照会画像に関係付けられるカテゴリ情報の全ての商用物を検索する。次いで、サーバは、照会画像の記述情報と、各商用物のタイトルとの類似性の決定を実施する。サーバは、次いで、照会画像の画像特徴との類似性が前提条件に適合する商用物の画像を比較し、得られた検索結果をユーザに送り返す。
まとめると、一部の実施形態では、ユーザは、画像検索を行う場合に、照会画像に関係付けられるカテゴリおよび記述情報などの他の情報を併せてサブミットする必要なしに、単純に、照会画像のみをサブミットする。さらに、サブミットされる照会画像は、画像データベース外の任意の画像であってよい。照会画像を受信した後、サーバは、先ず、照会画像の特徴に基づいて、照会画像に関係付けられるカテゴリ、記述情報、およびその組み合わせを決定し、次いで、照会画像、およびカテゴリ、記述情報、またはその組み合わせに基づいて、照会画像に関係付けられるカテゴリと同じカテゴリを有しスタイルやカラーなどの視覚特徴の観点から類似している画像のセットを検索結果として得る。こうして、サーバは、カテゴリまたは記述情報を提供するようにユーザに要求することなくユーザに検索結果を提供することができる。さらに、照会画像特徴を比較することによってサーバが決定するカテゴリおよび記述情報は、より客観的で且つ正確であり、ユーザによって入力される情報への依存性を排除することができる。
上記の画像検索方法では、画像に関係付けられるカテゴリおよび記述情報の決定が説明されている。一例では、電子商取引プラットフォーム上に商用物をアップロードするときに、対応するカテゴリを売り手ユーザが選択する。一態様では、カテゴリ関係が複雑であり、売り手ユーザが不正確な選択を行う可能性がある。同時に、売り手ユーザのなかには、検索詐欺を働くためにまたは他の何らかの目的のために意図的に不正確なカテゴリを提供するものがいる。しかしながら、ユーザによってアップロードされた商用物の画像に関係付けられるカテゴリをサーバが決定する場合は、売り手は、カテゴリを手動で選択する必要がなく、それによって、売り手ユーザによるカテゴリ選択プロセスが単純化され、ユーザ満足度が向上する。ユーザがカテゴリを選択する場合は、システムもカテゴリ決定を実施することができる。決定されたカテゴリが、ユーザによって選択されたカテゴリと全く無関係である場合は、サーバは、システム管理者に警告を送る、またはユーザによるサブミットを拒絶するなどすることができる。このアプローチは、売り手ユーザがテキストを通じて詐欺を働くことを防ぐことができる。したがって、一部の実施形態では、画像に関係付けられるテキスト情報をサーバが自動的に決定する方法によって、個別に保護が提供される。図2は、画像テキスト情報を取得するためのプロセスの一実施形態を示したフローチャートである。一部の実施形態では、プロセス200は、図5のサーバ520によって実行され、以下を含む。
210において、サーバは、ファイナライズされていないカテゴリ情報を有する対象画像を取得し、該対象画像の視覚特徴を抽出する。ファイナライズされていないカテゴリ情報の一例には、ユーザのスマートフォンによって撮影された画像がある(この筋書きでは、画像のカテゴリ情報が未知である、即ちファイナライズされていない)。
一例として、ここ言う対象画像は、上述のように、画像検索を行うユーザによってサブミットされた照会画像を言う、または対象画像は、売り手ユーザによってサブミットされた商用物の画像である、などである。一部の実施形態では、特徴抽出は、上記の特徴抽出と同じであり、対象画像からグローバル特徴、ローカル特徴、またはその組み合わせが抽出される。
220において、サーバは、対象画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定する。
この例では、画像データベースは、上記の画像データベースに類似している。データベース内の、既知のカテゴリおよび記述情報を伴う画像から、オフラインで特徴を抽出し、データベースに格納することができる。また、データベース内の同じ画像から、複数の多くのタイプの特徴を抽出することができる。したがって、対象画像の特徴が得られた後、サーバは、それらの特徴の、画像データベース内の各画像の特徴との類似性を決定することができる。同様に、もし、1枚の画像が、多くの異なるタイプの特徴に対応している場合は、サーバは、上記のカスケードタイプの決定方法に基づいて進むことができる。
230において、サーバは、対象画像との類似性が前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、およびその組み合わせに基づいて、対象画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを決定する。
サーバは、データベース内で、現対象画像に最も類似している一定枚数の画像を特定した後、これらの最も類似している画像のカテゴリ情報に基づいて、対象画像に関係付けられるカテゴリ情報を決定する。また、サーバは、対象画像についての記述情報も決定することができる。たとえば、画像のカテゴリ情報が決定された後、システムは、システム全体の画像データベース全体ではなくカテゴリ情報に基づいて製品を検索することができ、これは、誤り率を低下させる。
まとめると、画像テキスト情報を取得するための上述のプロセス200によって、サーバは、ユーザによってサブミットされた対象画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを自動的に決定することができ、これは、対象画像の視覚特徴およびデータベース内の画像の視覚特徴に基づくものである。したがって、対象画像テキスト情報を使用している用途では、ユーザは、テキスト情報を手動で入力する必要がなくなる。たとえもし、ユーザがテキスト情報を入力する場合でも、詐欺を回避するために、決定された情報に基づいてユーザ入力情報を認証することができる。
図3Aは、画像を検索するためのデバイスの一実施形態を示した図である。一部の実施形態では、デバイス300は、図1Aのプロセス100を実行に移し、特徴抽出ユニット310と、類似性決定ユニット320と、決定ユニット330と、検索結果返信ユニット340とを含む。
一部の実施形態では、入力された照会画像を受信した後、特徴抽出ユニット310は、照会画像から視覚特徴を抽出する。
一部の実施形態では、類似性決定ユニット320は、照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定する。
一部の実施形態では、決定ユニット330は、照会画像との類似性が前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定する。
一部の実施形態では、検索結果返信ユニット340は、照会画像、および該照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせに基づいて検索を行って、検索結果を返す。
図3Bは、特徴抽出ユニットの一実施形態を示した図である。一部の実施形態では、特徴抽出ユニット3000は、図3Aの特徴抽出ユニット310に相当する。
一部の実施形態では、類似性決定の最中における画像の背景および他の要素からの干渉を回避するために、特徴抽出ユニット3000は、主コンテンツゾーン抽出ユニット3010と、特徴抽出ユニット3020とを含む。
一部の実施形態では、主コンテンツゾーン抽出ユニット3010は、照会画像から主コンテンツゾーンを抽出する。
一部の実施形態では、特徴抽出ユニット3020は、主コンテンツゾーンから特徴を抽出する。
一部の実施形態では、照会画像の主コンテンツが衣料タイプのコンテンツである場合に、特徴抽出ユニット3000は、さらに、顔ゾーン検出ユニット3030と、胴体ゾーン決定ユニット3040と、主コンテンツゾーン決定ユニット3050とを含む。
一部の実施形態では、顔ゾーン検出ユニット3030は、顔検出技術に基づいて、照会画像内の顔ゾーンを検出し、検出された顔ゾーンの位置および領域を検出する。
一部の実施形態では、胴体ゾーン決定ユニット3040は、顔ゾーンの位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定する。
一部の実施形態では、主コンテンツゾーン決定ユニット3050は、胴体ゾーンの位置および領域に基づいて、検出画像から主コンテンツゾーンを抽出する。
図3Aに戻り、一部の実施形態では、照会画像から視覚特徴を抽出するときに、特徴抽出ユニット310は、照会画像からグローバル特徴、ローカル特徴、またはその組み合わせを抽出する。
一部の実施形態では、グローバル特徴は、グローバル視覚エッジ特徴、グローバルカラー分布特徴、またはその任意の組み合わせを含み、ローカル特徴は、ローカル回転不変特徴を含む。
一部の実施形態では、抽出された特徴が少なくとも2種類ある場合は、類似性決定ユニット320は、各種の特徴の既定の順序に基づいて、階層化されたカスケードタイプの計算を実施する。一部の実施形態では、各層の計算を実施するにあたり、類似性決定は、そのうちの1つの特徴のみに基づく。さらに、類似性決定ユニット320は、次の特徴に基づく類似性決定を実施するために、或る層内での前提条件に適合する画像セットを次の層に入力する。
一部の実施形態では、決定ユニット330は、画像データベース内に格納されている全ての画像のカテゴリ情報に基づいて、前提条件に適合する類似性を有する各画像に対応するカテゴリを決定し、発生頻度が最も高いカテゴリを、照会画像に関係付けられるカテゴリ情報であると決定する。
一部の実施形態では、特徴抽出ユニット310は、前提条件に適合する類似性を有する画像のなかで、最も高い発生頻度を有するカテゴリに対応する画像に関する記述情報を抽出し、これらの記述情報の解析に基づいて、照会画像の記述情報を取得する。
まとめると、一部の実施形態では、ユーザは、画像検索を行う場合に、照会画像に関係付けられるカテゴリおよび記述情報などの他の情報を併せてサブミットする必要なしに、照会画像をサブミットする。さらに、サブミットされる照会画像は、画像データベース外の任意の画像であってよい。照会画像を受信した後、サーバは、先ず、照会画像の特徴に基づいて、照会画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを決定し、次いで、照会画像、およびカテゴリ情報、記述情報、またはその組み合わせを踏まえて、照会画像に関係付けられるカテゴリと同じカテゴリを有しスタイルやカラーなどの視覚特徴の観点から類似している画像のセットをまとめて検索結果として得る。こうして、サーバは、カテゴリまたは記述情報を提供するようにユーザに要求することなくユーザに検索結果を提供することができる。さらに、照会画像特徴を比較することによってサーバが決定するカテゴリおよび記述情報は、より客観的で且つ正確であり、ユーザによって入力される情報への依存性を排除することができる。
図4は、画像テキスト情報を取得するためのデバイスの一実施形態を示した図である。一部の実施形態では、デバイス400は、図2のプロセス200を実行に移し、特徴取得ユニット410と、類似性決定ユニット420と、決定ユニット430とを含む。
一部の実施形態では、特徴取得ユニット410は、ファイナライズされていないカテゴリ情報を伴う対象画像を取得し、該対象画像から視覚特徴を抽出する。
一部の実施形態では、一部の実施形態では、類似性決定ユニット420は、表的画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定する。
一部の実施形態では、決定ユニット430は、対象画像との類似性が前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、対象画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを取得する。
一部の実施形態では、決定ユニット430は、画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前提条件に適合する類似性を有する各画像に対応するカテゴリ情報を決定し、発生頻度が最も高いカテゴリを、照会画像に関係付けられるカテゴリ情報であると決定する。
画像テキスト情報を取得するための上述のデバイス400を用いれば、デバイス400は、ユーザによってサブミットされた対象画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを自動的に決定することができ、これは、対象画像の視覚特徴およびデータベース内の画像の視覚特徴に基づくものである。したがって、対象画像テキスト情報を使用している用途では、ユーザは、テキスト情報を手動で入力する必要がなくなる。たとえもし、ユーザがテキスト情報を入力する場合でも、詐欺などの出来事を回避するために、決定された情報に基づいてユーザ入力情報を認証することができる。
図5は、画像を検索するためシステムの一実施形態を示した図である。一部の実施形態では、システム500は、ネットワーク530を通じてクライアント510に接続された、画像を検索するためのサーバ520を含む。クライアント510は、サーバ520内で画像を検索するために使用さするために、照会画像をサーバ520に入力する。
図6は、画像を検索するためのプログラムドコンピュータシステムの一実施形態を示した機能図である。明らかになるように、画像の検索には、その他のコンピュータシステムアーキテクチャおよび構成を使用することもできる。後述のような様々なサブシステムを含むコンピュータシステム600は、少なくとも1つのマイクロプロセッササブシステム(プロセッサまたは中央演算処理装置(CPU)とも呼ばれる)602を含む。たとえば、プロセッサ602は、シングルチッププロセッサによってまたは複数のプロセッサによって実現することができる。一部の実施形態では、プロセッサ602は、コンピュータシステム600の動作を制御する汎用デジタルプロセッサである。メモリ610から取り出された命令を使用して、プロセッサ602は、入力データの受信および操作、ならびに出力デバイス(たとえばディスプレイ618)へのデータの出力および表示を制御する。
プロセッサ602は、メモリ610に双方向に接続され、該メモリ610は、通常はランダムアクセスメモリ(RAM)である第1の一次ストレージと、通常は読み出し専用メモリ(ROM)である第2の一次ストレージとを含むことができる。当該分野で周知のように、一次ストレージは、汎用ストレージエリアとしておよびスクラッチパッドメモリとして使用することができ、入力データおよび処理済みデータを格納するために使用することもできる。一次ストレージは、プログラミング命令およびデータを、プロセッサ602上で起きるプロセスのための他のデータおよび命令に加えて、データオブジェクトおよびテキストオブジェクトの形態で格納することもできる。やはり当該分野で周知のように、一次ストレージは、通常は、プロセッサ602がその機能(たとえばプログラム命令)を実施するために使用する基本的な動作命令、プログラムコード、データ、およびオブジェクトを含む。たとえば、メモリ610は、たとえば、データアクセスが双方向または単方向のいずれである必要があるかに応じ、後述の任意の適切なコンピュータ読み取り可能ストレージ媒体を含むことができる。たとえば、プロセッサ602は、頻繁に必要とされるデータを直接に且つ非常に迅速に取り出して、直接に且つ非常に迅速にキャッシュメモリ(不図示)に格納することもできる。
着脱式の大容量ストレージデバイス612は、コンピュータシステム600のための追加のデータストレージ容量を提供し、双方向(読み出し/書き込み)にまたは単方向(読み出しのみ)にプロセッサ602に接続される。たとえば、ストレージ612は、磁気テープ、フラッシュメモリ、PCカード、ポータブル大容量ストレージデバイス、ホログラフィックストレージデバイス、および他のストレージデバイスなどの、コンピュータ読み取り可能媒体を含むこともできる。たとえば、固定式の大容量ストレージ620が、追加のデータストレージ容量を提供することもできる。大容量ストレージ620として最も一般的な例は、ハードディスクドライブである。大容量ストレージ612、620は、一般に、プロセッサ602が通常は能動的に使用していない追加のプログラミング命令やデータなどを格納する。大容量ストレージ612、620内に保持される情報は、もし必要であれば、仮想メモリとしてメモリ610(たとえばRAM)の一部に標準的に組み込み可能であることがわかる。
バス614は、ストレージサブシステムへのアクセスをプロセッサ602に提供することに加えて、他のサブシステムおよびデバイスへのアクセスを提供するためにも使用することができる。図に示されるように、これらには、ディスプレイモニタ618、ネットワークインターフェース616、キーボード604、およびポインティングデバイス606はもちろん、必要に応じて、補助入出力デバイスインターフェース、サウンドカード、スピーカ、および他のサブシステムがある。たとえば、ポインティングデバイス606は、マウス、スタイラス、トラックボール、またはタブレットであってよく、グラフィカルユーザインターフェースとやり取りするのに有用である。
ネットワークインターフェース616は、図に示されるようなネットワーク接続を使用してプロセッサ602が別のコンピュータ、コンピュータネットワーク、または電気通信ネットワークに接続されることを可能にする。たとえば、ネットワークインターフェース616を通じて、プロセッサ602は、方法/プロセスのステップを実施する過程において別のネットワークから情報(たとえばデータオブジェクトもしくはプログラム命令)を受信するまたは別のネットワークに情報を出力することができる。情報は、多くの場合、プロセッサ上で実行される一連の命令として表され、別のネットワークから受信可能であるまたは別のネットワークに出力可能である。コンピュータシステム600を外部ネットワークに接続するために、およびデータを標準プロトコルにしたがって転送するために、インターフェースカードまたは類似のデバイスと、プロセッサ602によって実装される(たとえばプロセッサ602上で実行される/実施される)適切なソフトウェアとを使用することができる。たとえば、本明細書で開示される様々なプロセスの実施形態は、プロセッサ602上で実行することができる、または処理の一部を供給するリモートプロセッサと協働してインターネット、イントラネットネットワーク、もしくはローカルエリアネットワークなどのネットワークで実施することができる。プロセッサ602には、ネットワークインターフェース616を通じて追加の大容量ストレージデバイス(不図示)も接続することができる。
コンピュータシステム600と協働して、補助入出力デバイスインターフェース(不図示)を使用することができる。補助入出力デバイスインターフェースは、プロセッサ602が、マイク、タッチセンサ式ディスプレイ、トランスデューサカードリーダ、テープリーダ、音声または手書き文字認識装置、生体認証リーダ、カメラ、ポータブル大容量ストレージデバイス、および他のコンピュータなどの他のデバイスにデータを送信することを、およびさらに一般的にはこれらの他のデバイスからデータを受信することを可能にする、汎用および専用のインターフェースを含むことができる。
図6に示されたコンピュータシステムは、本明細書で開示される様々な実施形態への使用に適したコンピュータシステムの一例に過ぎない。このような使用に適した他のコンピュータシステムは、さらに多くのまたは少ないサブシステムを含むことができる。また、バス614は、サブシステムを接続する働きをする任意の相互接続方式を例示している。異なる構成のサブシステムを有する他のコンピュータアーキテクチャを利用することもできる。
上述されたユニットは、1つ以上の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、またはプログラマブルロジックデバイスおよび/もしくは特定の機能を実施するように設計された特殊用途向け集積回路などのハードウェアとして、またはその組み合わせとして実装することができる。一部の実施形態では、ユニットは、本発明の実施形態で説明される方法を(パソコン、サーバ、ネットワーク機器などの)計算装置に実行させるための幾つかの命令を含み尚且つ(光ディスク、フラッシュストレージデバイス、モバイルハードディスクなどの)不揮発性のストレージ媒体に記憶させることができるソフトウェア製品の形態によって具現化することができる。ユニットは、1つのデバイス上に実装されてよい、または複数のデバイスに分散されてよい。ユニットの機能は、互いに統合されてよい、または複数のサブユニットにさらに分けられてよい。
本明細書で開示された実施形態に照らして説明される方法またはアルゴリズム的ステップは、ハードウェア、プロセッサによって実行されるソフトウェアモジュール、またはこれら両者の組み合わせを使用して実現することができる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、読み出し専用メモリ(ROM)、電気的にプログラム可能なROM、電気的に消去可能でプログラム可能なROM、レジスタ、ハードドライブ、着脱式ディスク、CD−ROM、または当該技術分野で知られる他の任意の形態のストレージ媒体にインストールすることができる。
以上の実施形態は、理解を明瞭にする目的で幾らか詳細に説明されてきたが、本発明は、提供された詳細に限定されない。本発明を実現するには、多くの代替的手法がある。開示された実施形態は、例示的なものであり、限定するものではない。
本発明は、たとえば、以下のような態様で実現することもできる。
[適用例1]
画像を検索するための方法であって、
入力された照会画像を受信することと、
前記入力された照会画像から視覚特徴を抽出することと、
前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定することと、
前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定することと、
前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うことと、
検索結果を返すことと、
を備える方法。
[適用例2]
適用例1の方法であって、
前記入力された照会画像から視覚特徴を抽出することは、
前記照会画像から主コンテンツゾーンを抽出することと、
前記主コンテンツゾーンから視覚特徴を抽出することと、
を含む、方法。
[適用例3]
適用例2の方法であって、さらに、
前記照会画像の主コンテンツのコンテンツタイプを決定することであって、前記照会画像の前記主コンテンツが衣料タイプのコンテンツである場合に、前記照会画像から主コンテンツゾーンを抽出することは、
顔検出技術に基づいて、前記照会画像の顔ゾーンを検出し、前記顔ゾーンの位置および領域を検出することと、
前記顔ゾーンの前記位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定することと、
前記胴体ゾーンの前記位置および領域に基づいて、前記照会画像から主コンテンツゾーンを抽出することと、
を含む、ことを備える方法。
[適用例4]
適用例1の方法であって、
前記入力された照会画像から視覚特徴を抽出することは、前記照会画像からグローバル特徴、ローカル特徴、またはその組み合わせを抽出することを含み、
前記グローバル特徴は、グローバルエッジ特徴、グローバルカラー分布特徴、またはその組み合わせを含み、
前記ローカル特徴は、ローカル回転不変特徴を含む、方法。
[適用例5]
適用例1の方法であって、
前記照会画像から抽出された視覚特徴が少なくとも2つある場合は、前記照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することは、
各種の視覚特徴の既定の順序にしたがって、階層化されたカスケードタイプの計算を実施することを含み、前記階層化されたカスケードタイプの計算を実施することは、
各層について計算を実施することを含み、前記各層について計算を実施することは、
前記各層内で1つの特徴のみに基づいて類似性を決定することと、
次の層内で次の特徴に基づいて類似性を決定するために、前記各層内での第2の前提条件に適合する各画像からなる画像のセットを前記次の層に入力することと、
を含む、方法。
[適用例6]
適用例1の方法であって、
前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記照会画像に関係付けられるカテゴリ情報を決定することは、
前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
を含む、方法。
[適用例7]
適用例6の方法であって、
前記照会画像に関係付けられる記述情報を決定することは、
前記第1の前提条件に適合する類似性を有する画像のなかで、前記最も高い発生頻度を有するカテゴリに対応する画像から記述情報を抽出することと、
前記最も高い発生頻度を有するカテゴリに対応する前記画像の前記記述情報に基づいて、前記照会画像の記述情報を決定することと、
を含む、方法。
[適用例8]
画像を検索するためのシステムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続され、前記少なくとも1つのプロセッサに命令を提供するように構成されたメモリと、
を備え、
前記少なくとも1つのプロセッサは、
入力された照会画像を受信することと、
前記入力された照会画像から視覚特徴を抽出することと、
前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定することと、
前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定することと、
前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うことと、
検索結果を返すことと、
を行うように構成される、システム。
[適用例9]
適用例8のシステムであって、
前記入力された照会画像から視覚特徴を抽出することは、
前記照会画像から主コンテンツゾーンを抽出することと、
前記主コンテンツゾーンから視覚特徴を抽出することと、
を含む、方法。
[適用例10]
適用例9のシステムであって、
前記少なくとも1つのプロセッサは、さらに、
前記照会画像の主コンテンツのコンテンツタイプを決定することであって、前記照会画像の前記主コンテンツが衣料タイプのコンテンツである場合に、前記照会画像から主コンテンツゾーンを抽出することは、
顔検出技術に基づいて、前記照会画像の顔ゾーンを検出し、前記顔ゾーンの位置および領域を検出することと、
前記顔ゾーンの前記位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定することと、
前記胴体ゾーンの前記位置および領域に基づいて、前記照会画像から主コンテンツゾーンを抽出することと、
を含む、ことを行うように構成される、システム。
[適用例11]
適用例8のシステムであって、
前記入力された照会画像から視覚特徴を抽出することは、前記照会画像からグローバル特徴、ローカル特徴、またはその組み合わせを抽出することを含み、
前記グローバル特徴は、グローバルエッジ特徴、グローバルカラー分布特徴、またはその組み合わせを含み、
前記ローカル特徴は、ローカル回転不変特徴を含む、システム。
[適用例12]
適用例8のシステムであって、
前記照会画像から抽出された視覚特徴が少なくとも2つある場合は、前記照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することは、
各種の視覚特徴の既定の順序にしたがって、階層化されたカスケードタイプの計算を実施することを含み、前記階層化されたカスケードタイプの計算を実施することは、
各層について計算を実施することを含み、前記各層について計算を実施することは、
前記各層内で1つの特徴のみに基づいて類似性を決定することと、
次の層内で次の特徴に基づいて類似性を決定するために、前記各層内での第2の前提条件に適合する各画像からなる画像のセットを前記次の層に入力することと、
を含む、システム。
[適用例13]
適用例8のシステムであって、
前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記照会画像に関係付けられるカテゴリ情報を決定することは、
前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
を含む、システム。
[適用例14]
適用例13のシステムであって、
前記照会画像に関係付けられる記述情報を決定することは、
前記第1の前提条件に適合する類似性を有する画像のなかで、前記最も高い発生頻度を有するカテゴリに対応する画像から記述情報を抽出することと、
前記最も高い発生頻度を有するカテゴリに対応する前記画像の前記記述情報に基づいて、前記照会画像の記述情報を決定することと、
を含む、システム。
[適用例15]
画像テキスト情報を取得するための方法であって、
ファイナライズされていないカテゴリ情報を有する対象画像を取得することと、
前記対象画像の視覚特徴を抽出することと、
前記対象画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することと、
前記対象画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、およびその組み合わせに基づいて、前記対象画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを決定することと、
を備える方法。
[適用例16]
適用例15の方法であって、
前記対象画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記対象画像に関係付けられるカテゴリ情報を決定することは、
前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
を含む、方法。
[適用例17]
画像テキスト情報を取得するためのシステムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続され、前記少なくとも1つのプロセッサに命令を提供するように構成されたメモリと、
を備え、
前記少なくとも1つのプロセッサは、
ファイナライズされていないカテゴリ情報を有する対象画像を取得することと、
前記対象画像の視覚特徴を抽出することと、
前記対象画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することと、
前記対象画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、およびその組み合わせに基づいて、前記対象画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを決定することと、
を行うように構成される、システム。
[適用例18]
適用例17のシステムであって、
前記対象画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記対象画像に関係付けられるカテゴリ情報を決定することは、
前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
を含む、システム。
[適用例19]
有体の非一時的なコンピュータ読み取り可能ストレージ媒体に盛り込まれた、画像を検索するためのコンピュータプログラム製品であって、
入力された照会画像を受信するためのコンピュータ命令と、
前記入力された照会画像から視覚特徴を抽出するためのコンピュータ命令と、
前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定するためのコンピュータ命令と、
前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定するためのコンピュータ命令と、
前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うためのコンピュータ命令と、
検索結果を返すためのコンピュータ命令と、
を備えるコンピュータプログラム製品。
[適用例20]
有体の非一時的なコンピュータ読み取り可能ストレージ媒体に盛り込まれた、画像テキスト情報を取得するためのコンピュータプログラム製品であって、
ファイナライズされていないカテゴリ情報を有する対象画像を取得するためのコンピュータ命令と、
前記対象画像の視覚特徴を抽出するためのコンピュータ命令と、
前記対象画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定するためのコンピュータ命令と、
前記対象画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、およびその組み合わせに基づいて、前記対象画像に関係付けられるカテゴリ情報、記述情報、およびその組み合わせを決定するためのコンピュータ命令と、
を備えるコンピュータプログラム製品。

Claims (15)

  1. 画像を検索するための方法であって、
    入力された照会画像を受信することと、
    前記入力された照会画像から視覚特徴を抽出することと、
    前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定することと、
    前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定することと、
    前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うことと、
    検索結果を返すことと、
    を備える方法。
  2. 請求項1に記載の方法であって、
    前記入力された照会画像から視覚特徴を抽出することは、
    前記照会画像から主コンテンツゾーンを抽出することと、
    前記主コンテンツゾーンから視覚特徴を抽出することと、
    を含む、方法。
  3. 請求項2に記載の方法であって、さらに、
    前記照会画像の主コンテンツのコンテンツタイプを決定することであって、前記照会画像の前記主コンテンツが衣料タイプのコンテンツである場合に、前記照会画像から主コンテンツゾーンを抽出することは、
    顔検出技術に基づいて、前記照会画像の顔ゾーンを検出し、前記顔ゾーンの位置および領域を検出することと、
    前記顔ゾーンの前記位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定することと、
    前記胴体ゾーンの前記位置および領域に基づいて、前記照会画像から主コンテンツゾーンを抽出することと、
    を含む、ことを備える方法。
  4. 請求項1に記載の方法であって、
    前記入力された照会画像から視覚特徴を抽出することは、前記照会画像からグローバル特徴、ローカル特徴、またはその組み合わせを抽出することを含み、
    前記グローバル特徴は、グローバルエッジ特徴、グローバルカラー分布特徴、またはその組み合わせを含み、
    前記ローカル特徴は、ローカル回転不変特徴を含む、方法。
  5. 請求項1に記載の方法であって、
    前記照会画像から抽出された視覚特徴が少なくとも2つある場合は、前記照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することは、
    各種の視覚特徴の既定の順序にしたがって、階層化されたカスケードタイプの計算を実施することを含み、前記階層化されたカスケードタイプの計算を実施することは、
    各層について計算を実施することを含み、前記各層について計算を実施することは、
    前記各層内で1つの特徴のみに基づいて類似性を決定することと、
    次の層内で次の特徴に基づいて類似性を決定するために、前記各層内での第2の前提条件に適合する各画像からなる画像のセットを前記次の層に入力することと、
    を含む、方法。
  6. 請求項1に記載の方法であって、
    前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記照会画像に関係付けられるカテゴリ情報を決定することは、
    前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
    発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
    を含む、方法。
  7. 請求項6に記載の方法であって、
    前記照会画像に関係付けられる記述情報を決定することは、
    前記第1の前提条件に適合する類似性を有する画像のなかで、前記最も高い発生頻度を有するカテゴリに対応する画像から記述情報を抽出することと、
    前記最も高い発生頻度を有するカテゴリに対応する前記画像の前記記述情報に基づいて、前記照会画像の記述情報を決定することと、
    を含む、方法。
  8. 画像を検索するためのシステムであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに接続され、前記少なくとも1つのプロセッサに命令を提供するように構成されたメモリと、
    を備え、
    前記少なくとも1つのプロセッサは、
    入力された照会画像を受信することと、
    前記入力された照会画像から視覚特徴を抽出することと、
    前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定することと、
    前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定することと、
    前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うことと、
    検索結果を返すことと、
    を行うように構成される、システム。
  9. 請求項8に記載のシステムであって、
    前記入力された照会画像から視覚特徴を抽出することは、
    前記照会画像から主コンテンツゾーンを抽出することと、
    前記主コンテンツゾーンから視覚特徴を抽出することと、
    を含む、システム
  10. 請求項9に記載のシステムであって、
    前記少なくとも1つのプロセッサは、さらに、
    前記照会画像の主コンテンツのコンテンツタイプを決定することであって、前記照会画像の前記主コンテンツが衣料タイプのコンテンツである場合に、前記照会画像から主コンテンツゾーンを抽出することは、
    顔検出技術に基づいて、前記照会画像の顔ゾーンを検出し、前記顔ゾーンの位置および領域を検出することと、
    前記顔ゾーンの前記位置および領域、ならびに既定の顔ゾーン対胴体ゾーン比率に基づいて、胴体ゾーンの位置および領域を決定することと、
    前記胴体ゾーンの前記位置および領域に基づいて、前記照会画像から主コンテンツゾーンを抽出することと、
    を含む、ことを行うように構成される、システム。
  11. 請求項8に記載のシステムであって、
    前記入力された照会画像から視覚特徴を抽出することは、前記照会画像からグローバル特徴、ローカル特徴、またはその組み合わせを抽出することを含み、
    前記グローバル特徴は、グローバルエッジ特徴、グローバルカラー分布特徴、またはその組み合わせを含み、
    前記ローカル特徴は、ローカル回転不変特徴を含む、システム。
  12. 請求項8に記載のシステムであって、
    前記照会画像から抽出された視覚特徴が少なくとも2つある場合は、前記照会画像の視覚特徴と、画像データベース内の各画像の視覚特徴との類似性を決定することは、
    各種の視覚特徴の既定の順序にしたがって、階層化されたカスケードタイプの計算を実施することを含み、前記階層化されたカスケードタイプの計算を実施することは、
    各層について計算を実施することを含み、前記各層について計算を実施することは、
    前記各層内で1つの特徴のみに基づいて類似性を決定することと、
    次の層内で次の特徴に基づいて類似性を決定するために、前記各層内での第2の前提条件に適合する各画像からなる画像のセットを前記次の層に入力することと、
    を含む、システム。
  13. 請求項8に記載のシステムであって、
    前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報に基づいて、前記照会画像に関係付けられるカテゴリ情報を決定することは、
    前記画像データベース内に格納されている各画像のカテゴリ情報に基づいて、前記第1の前提条件に適合する類似性を有する前記画像データベース内の各画像に対応するカテゴリを決定することと、
    発生頻度が最も高いカテゴリを、前記照会画像に関係付けられるカテゴリ情報であると決定することと、
    を含む、システム。
  14. 請求項13に記載のシステムであって、
    前記照会画像に関係付けられる記述情報を決定することは、
    前記第1の前提条件に適合する類似性を有する画像のなかで、前記最も高い発生頻度を有するカテゴリに対応する画像から記述情報を抽出することと、
    前記最も高い発生頻度を有するカテゴリに対応する前記画像の前記記述情報に基づいて、前記照会画像の記述情報を決定することと、
    を含む、システム。
  15. 有体の非一時的なコンピュータ読み取り可能ストレージ媒体に盛り込まれた、画像を検索するためのコンピュータプログラム製品であって、
    入力された照会画像を受信するためのコンピュータ命令と、
    前記入力された照会画像から視覚特徴を抽出するためのコンピュータ命令と、
    前記照会画像の視覚特徴と、画像データベース内の画像の視覚特徴との類似性を決定するためのコンピュータ命令と、
    前記照会画像との類似性が第1の前提条件に適合する画像に対応する商用物のカテゴリ情報、記述情報、またはその組み合わせに基づいて、前記照会画像に関係付けられるカテゴリ情報、記述情報、またはその組み合わせを決定するためのコンピュータ命令と、
    前記照会画像に関係付けられる前記カテゴリ情報、記述情報、またはその組み合わせと、前記照会画像と、に基づいて、前記商用物の検索を行うためのコンピュータ命令と、
    検索結果を返すためのコンピュータ命令と、
    を備えるコンピュータプログラム製品。
JP2016531830A 2013-07-31 2014-07-29 画像を検索するための方法およびシステム Active JP6144839B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201310328673.5 2013-07-31
CN201310328673.5A CN104346370B (zh) 2013-07-31 2013-07-31 图像搜索、获取图像文本信息的方法及装置
US14/444,927 US20150039583A1 (en) 2013-07-31 2014-07-28 Method and system for searching images
US14/444,927 2014-07-28
PCT/US2014/048670 WO2015017439A1 (en) 2013-07-31 2014-07-29 Method and system for searching images

Publications (2)

Publication Number Publication Date
JP2016529611A JP2016529611A (ja) 2016-09-23
JP6144839B2 true JP6144839B2 (ja) 2017-06-07

Family

ID=52428620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016531830A Active JP6144839B2 (ja) 2013-07-31 2014-07-29 画像を検索するための方法およびシステム

Country Status (7)

Country Link
US (1) US20150039583A1 (ja)
EP (1) EP3028184B1 (ja)
JP (1) JP6144839B2 (ja)
CN (1) CN104346370B (ja)
HK (1) HK1204699A1 (ja)
TW (1) TWI623842B (ja)
WO (1) WO2015017439A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6430914B2 (ja) * 2014-12-22 2018-11-28 キヤノンイメージングシステムズ株式会社 画像処理装置および画像処理方法
CN104850600B (zh) * 2015-04-29 2019-05-28 百度在线网络技术(北京)有限公司 一种用于搜索包含人脸的图片的方法和装置
CN106649296B (zh) * 2015-07-20 2020-07-14 阿里巴巴集团控股有限公司 提供拍照提示信息、业务对象搜索方法及装置
EP3333769A4 (en) * 2015-08-03 2019-05-01 Orand S.A. SYSTEM AND METHOD FOR SEARCHING PRODUCTS IN CATALOGS
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN106547808A (zh) * 2015-09-23 2017-03-29 阿里巴巴集团控股有限公司 图片更新方法、类目排序方法及装置
TW201719572A (zh) * 2015-11-19 2017-06-01 國立交通大學 三維模型分析及搜尋方法
CN105589929B (zh) * 2015-12-09 2019-05-10 东方网力科技股份有限公司 图像检索方法和装置
JP6771897B2 (ja) * 2016-02-02 2020-10-21 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US10489410B2 (en) * 2016-04-18 2019-11-26 Google Llc Mapping images to search queries
CN107515872A (zh) * 2016-06-15 2017-12-26 北京陌上花科技有限公司 搜索方法及装置
CN107766373A (zh) * 2016-08-19 2018-03-06 阿里巴巴集团控股有限公司 图片所属类目的确定方法及其系统
US10860898B2 (en) 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
JP6310529B1 (ja) * 2016-11-01 2018-04-11 ヤフー株式会社 検索装置、検索方法および検索プログラム
US10970768B2 (en) 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
CN107016368A (zh) * 2017-04-07 2017-08-04 郑州悉知信息科技股份有限公司 一种目标物的信息获取方法及服务器
JP6310599B1 (ja) * 2017-05-10 2018-04-11 ヤフー株式会社 検索装置、検索方法および検索プログラム
US20190042574A1 (en) * 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
CN107368614B (zh) * 2017-09-12 2020-07-07 猪八戒股份有限公司 基于深度学习的图像检索方法及装置
CN110019910A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 图像检索方法及装置
US10642886B2 (en) * 2018-02-14 2020-05-05 Commvault Systems, Inc. Targeted search of backup data using facial recognition
CN108829784A (zh) * 2018-05-31 2018-11-16 百度在线网络技术(北京)有限公司 全景推荐方法、装置、设备及计算机可读介质
CN109063732B (zh) * 2018-06-26 2019-07-09 山东大学 基于特征交互和多任务学习的图像排序方法及系统
CN110059207A (zh) * 2019-04-04 2019-07-26 Oppo广东移动通信有限公司 图像信息的处理方法、装置、存储介质及电子设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362314A (ja) * 2003-06-05 2004-12-24 Japan Systems Co Ltd 検索情報登録装置、情報検索装置、検索情報登録方法
US7872669B2 (en) * 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
CN101369315A (zh) * 2007-08-17 2009-02-18 上海银晨智能识别科技有限公司 人脸检测方法
US8068676B2 (en) * 2007-11-07 2011-11-29 Palo Alto Research Center Incorporated Intelligent fashion exploration based on clothes recognition
JP2010086392A (ja) * 2008-10-01 2010-04-15 Fujifilm Corp 広告表示方法及び装置、並びに広告表示プログラム
US8194985B2 (en) * 2008-10-02 2012-06-05 International Business Machines Corporation Product identification using image analysis and user interaction
US8429173B1 (en) * 2009-04-20 2013-04-23 Google Inc. Method, system, and computer readable medium for identifying result images based on an image query
US8670597B2 (en) * 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
WO2011044497A2 (en) * 2009-10-09 2011-04-14 Edgenet, Inc. Automatic method to generate product attributes based solely on product images
TWI415032B (zh) * 2009-10-30 2013-11-11 Univ Nat Chiao Tung Object tracking method
US8433140B2 (en) * 2009-11-02 2013-04-30 Microsoft Corporation Image metadata propagation
TWI453684B (zh) * 2009-11-24 2014-09-21 Univ Nat Chiao Tung An Evaluation System and Method of Intelligent Mobile Service Commodity Application Information Retrieval Technology
US8861844B2 (en) * 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US8509526B2 (en) * 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images
CN102385578A (zh) * 2010-08-27 2012-03-21 腾讯科技(深圳)有限公司 图片搜索的方法和装置
US8898169B2 (en) * 2010-11-10 2014-11-25 Google Inc. Automated product attribute selection
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
US20130085893A1 (en) * 2011-09-30 2013-04-04 Ebay Inc. Acquisition and use of query images with image feature data
CN103207879B (zh) * 2012-01-17 2016-03-30 阿里巴巴集团控股有限公司 图像索引的生成方法及设备
US20130236065A1 (en) * 2012-03-12 2013-09-12 Xianwang Wang Image semantic clothing attribute
US8917943B2 (en) * 2012-05-11 2014-12-23 Intellectual Ventures Fund 83 Llc Determining image-based product from digital image collection
WO2013184073A1 (en) * 2012-06-08 2013-12-12 National University Of Singapore Interactive clothes searching in online stores
WO2014051581A1 (en) * 2012-09-27 2014-04-03 Hewlett-Packard Development Company, L.P. Clothing stripe detection based on line segment orientation
US9830630B2 (en) * 2013-03-15 2017-11-28 Nike, Inc. Product presentation assisted by visual search
CN103164539B (zh) * 2013-04-15 2016-12-28 中国传媒大学 一种结合用户评价与标注的交互式图像检索方法
US9460518B2 (en) * 2013-04-17 2016-10-04 Yahoo! Inc. Visual clothing retrieval

Also Published As

Publication number Publication date
CN104346370B (zh) 2018-10-23
EP3028184A1 (en) 2016-06-08
TWI623842B (zh) 2018-05-11
JP2016529611A (ja) 2016-09-23
US20150039583A1 (en) 2015-02-05
HK1204699A1 (zh) 2015-11-27
TW201504829A (zh) 2015-02-01
EP3028184B1 (en) 2018-12-05
CN104346370A (zh) 2015-02-11
WO2015017439A1 (en) 2015-02-05

Similar Documents

Publication Publication Date Title
Zheng et al. Pyramidal person re-identification via multi-loss dynamic training
US10002415B2 (en) Utilizing deep learning for rating aesthetics of digital images
US9424493B2 (en) Generic object detection in images
Zhong et al. Re-ranking person re-identification with k-reciprocal encoding
JP6487944B2 (ja) 自然言語画像検索
US9633045B2 (en) Image ranking based on attribute correlation
AU2014321165B2 (en) Image searching method and apparatus
US9367756B2 (en) Selection of representative images
US20180096069A1 (en) Interactive clothes searching in online stores
Leng et al. Person re-identification with content and context re-ranking
CN105938552B (zh) 底图自动更新的人脸识别方法及装置
CN106446816B (zh) 人脸识别方法及装置
Wang et al. Salient object detection for searched web images via global saliency
US9483548B2 (en) Single user interface for selecting, modifying, and querying images
JP5916886B2 (ja) 画像特徴の類似性に基づく画像索引作成
Yang et al. Robust face alignment under occlusion via regional predictive power estimation
CN102356393B (zh) 数据处理装置
Lin et al. Discriminatively trained and-or graph models for object shape detection
US9600499B2 (en) System for collecting interest graph by relevance search incorporating image recognition system
US9449026B2 (en) Sketch-based image search
US20190279044A1 (en) Machine learning artifical intelligence system for identifying vehicles
US8566746B2 (en) Parameterization of a categorizer for adjusting image categorization and retrieval
US8560517B2 (en) Object retrieval using visual query context
Schönberger et al. A vote-and-verify strategy for fast spatial verification in image retrieval
JP5503046B2 (ja) 形状に基づく画像検索

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170511

R150 Certificate of patent or registration of utility model

Ref document number: 6144839

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250