JP2023503247A - 回転ジェスチャ入力を用いて画像を検索する方法、システム - Google Patents

回転ジェスチャ入力を用いて画像を検索する方法、システム Download PDF

Info

Publication number
JP2023503247A
JP2023503247A JP2022527719A JP2022527719A JP2023503247A JP 2023503247 A JP2023503247 A JP 2023503247A JP 2022527719 A JP2022527719 A JP 2022527719A JP 2022527719 A JP2022527719 A JP 2022527719A JP 2023503247 A JP2023503247 A JP 2023503247A
Authority
JP
Japan
Prior art keywords
image
orientation axis
attribute
dimensional
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022527719A
Other languages
English (en)
Inventor
ボーギャル、クルヴィール、シン
ポロゾフ、アレクサンドル
ラクシット、サルバジット
フォックス、ジェレミー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023503247A publication Critical patent/JP2023503247A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/048023D-info-object: information is displayed on the internal or external surface of a three dimensional manipulable object, e.g. on the faces of a cube that can be rotated by the user

Abstract

回転ジェスチャ入力を用いて画像を検索する方法であって、2次元の基準画像内の物体を識別し、物体の少なくとも1つの属性に基づいて物体の3次元の基準配向軸を決定し、物体の3次元観点の変化を要求する入力を受信し、入力および基準配向軸に基づいて新しい配向軸を決定する。そして新しい配向軸および物体の少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行し、新しい配向軸との相関および物体の属性に基づいてランク付けされた画像検索結果を表示する。

Description

本開示は、画像検索に関し、より詳細には、回転ジェスチャ入力を用いて画像を検索することに関する。
ディスプレイ装置は、2次元(「2D」)または3次元(「3D」)で物体を表示することができる。物体が2Dで(例えば、車の平面写真のように)表示される場合、コンピューティング・システムは、物体のビューを異なる角度の観点(perspective:視点)に変えるのに必要な情報が欠如している。しかしながら、3Dで表示される物体は、さまざまな異なる角度配向(orientation:方向)または観点で2次元のディスプレイ装置上で見ることができる。例えば、コンピュータ支援設計(「CAD」)プログラムによって、ユーザは、物体のソリッド(またはワイヤ・フレーム)表現を回転させ、異なる角度の観点から物体を見ることができる。物体の3次元モデルは、ユーザが観点の変化を要求するたびに、プログラムが物体の新しい画像を再生することができる追加情報(例えば、X、YおよびZ軸情報)を含む。しかしながら、2Dで見られる物体の場合、回転ジェスチャ(またはユーザ入力の他の形)は、結果として物体の異なる視野角を生じない。それゆえ、ユーザは、2D画像の回転の見える観点を変えるための入力を提供することができない。それゆえ、従来技術において上述した問題に対処する必要がある。
第1の態様から見て、本発明は、画像を検索する方法を提供し、方法は、2次元の基準画像内の基準物体を識別することと、基準物体の少なくとも1つの属性に基づいて、基準物体の3次元の基準配向軸を決定することと、基準物体の3次元観点の変化を要求する入力を受信することと、入力および基準配向軸に基づいて、新しい配向軸を決定することと、新しい配向軸および基準物体の少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行することと、新しい配向軸との相関および基準物体の少なくとも1つの属性に基づいてランク付けされた画像検索結果を表示することと、を含む。
さらなる態様から見て、本発明は、プログラム命令が格納されたコンピュータ可読記憶媒体と、プログラム命令を実行して方法を実行するように構成される1つまたは複数のプロセッサと、を備えるコンピュータ・システムを提供し、方法は、2次元の基準画像内の基準物体を識別することと、基準物体の少なくとも1つの属性に基づいて、基準物体の3次元の基準配向軸を決定することと、基準物体の3次元観点の変化を要求する入力を受信することと、入力および基準配向軸に基づいて、新しい配向軸を決定することと、新しい配向軸および基準物体の少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行することと、新しい配向軸との相関および基準物体の少なくとも1つの属性に基づいてランク付けされた画像検索結果を表示することと、を含む。
さらなる態様から見て、本発明は、画像を検索するためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、コンピュータ可読記憶媒体を備え、コンピュータ可読記憶媒体は、処理回路によって可読であり、本発明のステップを実行するための方法を実行するように処理回路により実行される命令を格納する。
さらなる態様から見て、本発明は、コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリ内にロード可能なコンピュータ・プログラムを提供し、コンピュータ・プログラムは、前記プログラムがコンピュータ上で動作するときに本発明のステップを実行するためのソフトウェア・コード部分を備える。
さらなる態様から見て、本発明は、画像を検索する方法を実施するためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、実施されるプログラム命令を有するコンピュータ可読記憶媒体を備え、プログラム命令は、少なくとも1つのコンピュータ・プロセッサによって実行可能であり、コンピュータ・プロセッサに、2次元の基準画像内の基準物体を識別することと、基準物体の少なくとも1つの属性に基づいて、基準物体の3次元の基準配向軸を決定することと、基準物体の3次元観点の変化を要求する入力を受信することと、入力および基準配向軸に基づいて、新しい配向軸を決定することと、新しい配向軸および基準物体の少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行することと、新しい配向軸との相関および基準物体の少なくとも1つの属性に基づいてランク付けされた画像検索結果を表示することと、を行わせる。
本開示の実施形態は、画像を検索する方法に関する。方法は、2次元の基準画像内の物体を識別することを含む。方法は、物体の少なくとも1つの属性に基づいて、物体の3次元の基準配向軸を決定することを含む。方法は、物体の3次元観点の変化を要求する入力を受信することを含む。方法は、入力および基準配向軸に基づいて、新しい配向軸を決定することをさらに含む。方法は、新しい配向軸および物体の少なくとも1つの属性に基づく検索クエリを2次元画像上のセット上で実行することを含む。方法はまた、新しい配向軸との相関および物体の属性に基づいてランク付けされた画像検索結果を表示することを含む。
本開示の他の実施形態は、方法の実施のためのコンピュータ・システムおよびコンピュータ・プログラム製品に関する。
上記の概要は、本開示の各図示の実施形態またはすべての実施態様を記載することを意図していない。
本出願に含まれる図面は、明細書内に組み込まれ、明細書の一部を形成する。図面は、本開示の実施形態を示し、説明とともに開示の原則を説明する。図面は、特定の実施形態を図示するだけであり、開示を限定するものではない。
実施形態に従う処理システムのブロック図である。 実施形態に従う、クラウド顧客により用いられるローカル・コンピューティング装置が通信する1つまたは複数のコンピューティング・ノードを有する図示するクラウド・コンピューティング環境のブロック図である。 実施形態に従う、クラウド・コンピューティング環境により提供される機能的な抽象化レイヤのセットのブロック図である。 実施形態に従う画像検索方法のフローチャートである。 一実施形態に従って、2つの異なる視覚配向のうちの1つで示される物体の一例を示す図である。 一実施形態に従って、2つの異なる視覚配向のうちの1つで示される物体の一例を示す図である。 一実施形態に従って、物体およびユーザの回転ジェスチャの一例を示す図である。 一実施形態に従って、物体および画像検索結果において利用できる視点を示す球面モデルの一例を示す図である。 一実施形態に従って、画像検索結果における利用できる視点を示すとともに、利用できる画像と基準画像との間の相関の程度を示す球面モデルの一例を示す図である。
画像検索エンジンは、画像内の物体の特定の視野角に基づく2D画像結果を提供せず、ユーザに、見るための特定の角度を特定させない。しかしながら、3D画像モデルによって表現されることに必ずしもつながらない特定の物体を、異なる角度から2D画像として見ることができることは望ましい。
本願明細書において記載されている実施形態は、ユーザが、2D画像内の物体の視点の所望の変化を入力し、所望の視点を表す2D画像検索結果を受信することができるシステム、方法およびコンピュータ・プログラム製品を提供する。さらに、本願明細書において記載されている実施形態は、特定の観点から特定の物体を見るためのユーザ要求に基づいて、欠けている視点のための新しい画像のクラウドソーシングを可能にする。
以下、類似の数字が同一または類似の要素を表現する図面を参照し、最初に図1を参照すると、本実施形態が適用されてもよい例示的な処理システム100は、一実施形態に従って示される。処理システム100は、システム・バス102を介して他の構成要素に動作可能に結合された少なくとも1つのプロセッサ(CPU)104を含む。キャッシュ106、読み取り専用メモリ(ROM)108、ランダム・アクセス・メモリ(RAM)110、入出力(I/O)アダプタ120、音声アダプタ130、ネットワーク・アダプタ140、ユーザ・インタフェース・アダプタ150およびディスプレイ・アダプタ160は、システム・バス102に動作可能に結合される。
第1の記憶装置122および第2の記憶装置124は、I/Oアダプタ120によってシステム・バス102に動作可能に結合される。記憶装置122および124は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、固体磁気装置などのいずれかでもよい。記憶装置122および124は、同じタイプの記憶装置または異なるタイプの記憶装置でもよい。
スピーカ132は、音声アダプタ130によってシステム・バス102に動作可能に結合される。トランシーバ142は、ネットワーク・アダプタ140によってシステム・バス102に動作可能に結合される。ディスプレイ装置162は、ディスプレイ・アダプタ160によってシステム・バス102に動作可能に結合される。
第1のユーザ入力装置152、第2のユーザ入力装置154および第3のユーザ入力装置156は、ユーザ・インタフェース・アダプタ150によってシステム・バス102に動作可能に結合される。ユーザ入力装置152、154および156は、キーボード、マウス、キーパッド、画像取込装置、動き検出装置、マイクロホン、前の装置の少なくとも2つの機能を組み込んだ装置、または、任意の他の適切なタイプの入力装置でもよい。ユーザ入力装置152、154および156は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置でもよい。ユーザ入力装置152、154および156を用いて、システム100との間で情報を入出力する。
画像分析コンポーネント172は、システム・バス102に動作可能に結合される。画像分析コンポーネント172(またはエンジン)は、画像に対して実行される画像分析、画像処理、計測学、エッジ検出、物体検出、分類などに基づいて、画像の物体を識別する。画像分析コンポーネント172は、物体の多くの異なる属性に基づいて、種々の異なる物体を識別するように構成される。物体の属性は、色、モデル、物体のタイプ、物体の形状、物体のサイズなどに基づいて識別されてもよい。さらに、関連する画像分類技術を用いて、画像物体は、識別された属性に基づいて分類される。
画像検索エンジン・コンポーネント174は、システム・バス102に動作可能に結合される。画像検索エンジン・コンポーネント174は、キーワード、ピクチャ、ピクチャに対するウェブ・リンク、画像メタデータ、色の分布、形状、回転視点などに基づいて、画像を検索する。
処理システム100は、直ちに当業者によって考察されるように、他の要素(図示せず)を含んでもよいし、特定の要素を省略してもよい。例えば、さまざまな他の入力装置または出力装置あるいはその両方は、直ちに当業者によって理解されるように、同一の特定の実施態様に応じて、処理システム100内に含まれてもよい。例えば、種々のタイプの無線または有線あるいはその両方の入力装置または出力装置あるいはその両方を用いることができる。さらに、さまざまな構成における追加のプロセッサ、コントローラ、メモリなどもまた、直ちに当業者によって認められるように利用可能である。処理システム100のこれらおよび他のバリエーションは、本願明細書に提供されている本開示の教示を与えられる当業者によって直ちに考察される。
本開示はクラウド・コンピューティングの詳細な説明を含むが、本願明細書において詳述される教示の実施態様がクラウド・コンピューティング環境に限定されるものではないことを理解されたい。むしろ、本開示の実施形態は、現在公知であるかまたは後に開発されるコンピューティング環境の他の任意のタイプに関連して実施可能である。
クラウド・コンピューティングは、最小の管理作業またはサービスのプロバイダとの相互作用によって迅速に提供およびリリースが可能な構成可能な計算リソース(例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、記憶、アプリケーション、仮想機械およびサービス)の共有プールに対する便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス提供モデルである。
クラウド・コンピューティング環境は、無国籍、疎結合、モジュラリティおよび意味論的相互運用性にフォーカスして方向付けられるサービスである。クラウド・コンピューティングの中心には、相互接続したノードのネットワークを含むインフラストラクチャがある。
次に図2を参照すると、図示するクラウド・コンピューティング環境250が描写される。示すように、クラウド・コンピューティング環境250は、クラウド消費者、例えば、携帯情報端末(PDA)または携帯電話254A、デスクトップ・コンピュータ254B、ラップトップ・コンピュータ254Cまたは自動車コンピュータ・システム254Nあるいはその組合せにより用いられるローカル・コンピューティング装置が通信してもよい1つまたは複数のクラウド・コンピューティング・ノード210を含む。ノード210は、互いと通信してもよい。それらは、例えば、前述のようにプライベート、コミュニティ、パブリックまたはハイブリッド・クラウドあるいはその組合せで1つまたは複数のネットワーク内で物理的にまたは仮想的にグループ化されてもよい(図示せず)。これによって、クラウド・コンピューティング環境250は、インフラストラクチャ、プラットフォームまたはソフトウェアあるいはその組合せを、クラウド消費者がローカル・コンピューティング装置上のリソースを維持する必要がないサービスとして提供することができる。図2に示されるコンピューティング装置254A-Nのタイプが、図示することのみを意図しており、コンピューティング・ノード210およびクラウド・コンピューティング環境250が、任意のタイプのネットワークまたは(例えば、ウェブ・ブラウザを用いて)ネットワーク・アドレス指定可能な接続あるいはその両方を介して、任意のタイプのコンピュータ化された装置と通信することができることを理解されたい。
次に図3を参照すると、クラウド・コンピューティング環境250(図2)により提供される機能的な抽象化レイヤのセットが示される。図3に示されるコンポーネント、レイヤおよび機能は、図示することのみを意図しており、本発明の実施形態がそれらに限定されるものではないことを予め理解されたい。描写されるように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ360は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム361、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ362、サーバ363、ブレード・サーバ364、記憶装置365ならびにネットワークおよびネットワーキング・コンポーネント366を含む。いくつかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア367およびデータベース・ソフトウェア368を含む。
仮想レイヤ370は、仮想エンティティの以下の例、すなわち、仮想サーバ371、仮想記憶372、仮想プライベート・ネットワークを含む仮想ネットワーク373、仮想アプリケーションおよびオペレーティング・システム374ならびに仮想クライアント375が提供されてもよい抽象化レイヤを提供する。
一例において、管理レイヤ380は、後述する機能を提供してもよい。リソース提供381は、計算リソースの動的な調達およびクラウド・コンピューティング環境内でタスクを実行するために利用される他のリソースを提供する。計測および価格設定382は、リソースがクラウド・コンピューティング環境内で利用されるとき、コストの追跡を提供し、これらのリソースの消費のための請求書の作成または送付を提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクのための本人確認と同様に、データおよび他のリソースの保護を提供する。ユーザ・ポータル383は、クラウド・コンピューティング環境に対するアクセスを消費者およびシステム管理者に提供する。サービス・レベル管理384は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの配分および管理を提供する。サービス・レベル合意書(SLA)の計画および遂行385は、将来の要求がSLAに従って予想されるクラウド・コンピューティング・リソースのための事前取り決めおよび調達を提供する。
作業負荷レイヤ390は、クラウド・コンピューティング環境が利用されてもよい機能の例を提供する。このレイヤから提供される作業負荷および機能の例は、マッピングおよびナビゲーション391、ソフトウェア開発およびライフサイクル管理392、仮想教室教育配信393、データ分析処理394、トランザクション処理395ならびに画像検索エンジン処理396を含む。
特定の実施形態では、画像検索エンジンは、画像内の2D物体の角度の観点の変化に関するユーザからの入力を受信し、この新しい観点に整合する記憶装置に格納された既存の画像を検索する。したがって、複数の異なる角度の観点で格納された物体の異なる2D画像の集合が存在する。これは、視野角またはズーム・レベルあるいはその両方に変化があるたびにシステムが完全に新しい画像をプログラム的に生成する、3次元の物体(例えば、CADプログラム内で生成される物体)に対する角度の見える観点を変化させるメカニズムと異なる。
次に図4を参照すると、特定の実施形態では、ステップ400において、画像検索エンジンは、画像内の物体を識別する。ステップ402において、検索エンジンは、識別された物体の配向ベクトルを決定する。ステップ404において、検索エンジンは、画像内の物体の回転のためのユーザからの入力を受信する。一例において、さらに詳細に本願明細書において述べられるように、ユーザからの入力は、ユーザの手の回転ジェスチャとすることができる。ユーザからの入力および配向ベクトルの変化の大きさに基づいて、画像検索エンジンは、物体の他の2D画像が新しい配向ベクトルで利用できるかを決定するために、画像のセットを検索する。ステップ406において、検索エンジンは、新しい配向ベクトルに基づいて、かつ、画像の1つまたは複数の属性(例えば、物体の色)に基づいて、検索クエリを実行する。ステップ408において、検索エンジンが、他の2D画像が利用できると決定する場合、ステップ410において、この新しい画像は、ディスプレイ装置上でユーザに表示される。ステップ408において、検索エンジンが、2D画像が新しい配向ベクトルに利用できないと決定する場合、ユーザに表示される画像は存在しないであろう。検索エンジンは、欠けている情報があると認識し、ステップ412において、検索エンジンは、欠けている情報を1つまたは複数のソースから要求する。さらに詳細に本願明細書において述べられるように、特定の実施形態では、追加情報の要求は、クラウドソーシング要求とすることができる。クラウドソーシングを用いて、多数の人々は、自分自身の画像を画像検索エンジンに提供するように求められ、ユーザが任意の360度回転の観点から物体を見ることができるように、これらの提供された画像は、画像のセットを完成させるのを支援する。ステップ410またはステップ412が完了した後、ユーザが他の回転ジェスチャを入力してもよいように、システムはステップ404に戻る。さらに、特定の実施形態では、ステップ412において、欠けている画像の要求がこの種の画像を提供する外部ソースによって満たされる場合、画像の保存場所は、(例えば、自動的に、または、システム管理者による画像の承認の後に)新しい画像によって更新されてもよく、将来の検索クエリは、画像の更新された保存場所に基づいて実行される。
特定の実施形態では、ユーザには、1つまたは複数の物体を含む2D画像が提示される。ステップ400において、画像検索エンジンは、2D画像を分析し、画像内に存在する物体を識別する。物体の識別は、画像に対して実行される画像分析、画像処理、計測学、エッジ検出、物体検出、分類などに基づく。画像分析エンジンは、物体の多くの異なる属性に基づいて、さまざまな異なる物体を識別することができる。物体の属性は、色、モデル、物体のタイプ、物体の形状、物体のサイズなどに基づいて識別されてもよい。さらに、関連する画像分類技術を用いて、画像物体は、識別された属性に基づいて分類される。
物体の存在を識別した後、検索エンジンは、ステップ402において、物体がどの方向に向いているかを決定する。特に、検索エンジンは、画像内の各物体のためのベースライン方向(または配向ベクトル)を識別する。一実施形態において、配向ベクトルは、物体の計算された質量中心を通過する軸であり、このベクトルは、物体の前から物体の後ろまでの方向に延在する。物体のこの最初の配向ベクトルは、ユーザの回転ジェスチャとともに、新しい配向ベクトルを計算するために用いられる基準である。一実施形態において、2D画像内に現れている物体の最初の配向ベクトルは、画像のメタデータの一部を形成し、新しい画像を検索するとき、検索エンジンによって用いられる。特定の実施形態では、配向ベクトルは、物体の質量中心を通過せず、前側から後側まで延在せず、物体に対して異なる方向に延在してもよいことを理解されたい。
特定の実施形態では、物体の異なる分類タイプのための異なる配向方向のライブラリが存在する。これらの実施形態では、ライブラリ内のデータは、動物(例えば、顔の前)、または車(例えば、車の前側)、または家(例えば、正面玄関を有する建物の側)、または他の任意の分類タイプのための基準配向を示す。これらの実施形態では、一旦画像物体の基準側が決定されると、画像分析モジュールは、基準配向軸を画像物体に割り当てる。割り当てられた軸は、認識された物体のための基準軸である。一旦任意の画像物体の基準軸が識別されると、同一か異なる画像内に存在する他の画像物体は、比較され、相対的な基準配向または側が計算される。異なる画像物体の相対的な物体配向は、基準画像物体と比較され、配向軸は、相違に基づいて計算される。一実施形態において、異なる画像物体の配向は、基準画像物体に対して計算され、物体の現在の角度配向として割り当てられる。物体の角度配向は、3D軸に対して計算され、したがって、3D軸の角度配向は、計算され、画像物体のメタデータの一部である。
次に図5Aおよび5Bを参照すると、特定の実施形態では、少なくとも1つの物体(例えば、車)を含む2D画像(例えば、写真のデジタル画像)がディスプレイ装置上に表示される。画像は2D画像であり、物体は、最初の3次元の角度視点(すなわち観点)からユーザに表示される。図5Aを参照すると、物体500のための基準画像視点が存在する。図5Aに示される例において、基準画像は、ZおよびX軸上にあり得る物体500の正面図である。しかしながら、正面図以外の他の任意の適切な視点を基準視点のために用いることができることを理解されたい。基準視点はまた、他の2軸に垂直な対応する基準配向ベクトルを有する。図5Aを参照すると、X軸504およびZ軸502は、水平および垂直方向に延在して示され、基準配向は、他の軸に垂直なY軸506方向に沿う(図5Bにおいて、Y軸506参照)。一実施形態において、Y軸506は、物体の配向軸(または配向ベクトル506)であり、配向ベクトル506は、物体の質量中心を通り物体の前側から後側まで進む。図5Bを参照すると、物体500は、前方左にかつわずかに下方に向いている角度の配向ベクトル506を有する。図5Bの配向ベクトル506の方向は、図5Aの基準配向ベクトルから、X軸504、Y軸506およびZ軸502方向の各々において、特定の角度オフセットを有する。
次に図6を参照すると、一実施形態では、ユーザが異なる配向または観点から物体600を見ることを望む場合、入力を画像検索エンジンに提供することによって異なる角度視点を要求することができる。ユーザの回転ジェスチャまたは他の入力(例えば、ユーザの手602の回転ジェスチャ604)に応答して、画像検索エンジンは、2D画像内の物体600の回転視点の所望の量の変化を決定し、ユーザによって要求された新しい視点に対応する異なる2D画像を検索する。例えば、図6に示すように、ユーザは、回転ジェスチャ604を実行し、物体600の観点における角度変化606を要求した。図5Bを再度参照すると、物体500は、図5Aまたは図6に示される基準視点に対して異なる角度の観点でユーザに提示される。ユーザは、ジェスチャ入力を任意の回数だけ提供することによって、角度視点に対する変化を要求することができる。特定の実施形態では、新しい回転視点のための異なる2D画像が存在しない場合、検索エンジンは、1つまたは複数のリソースに対する要求を開始し、欠けている画像情報を提供する。
ユーザが回転の観点の変化のための検索エンジンに提供する回転ジェスチャ入力は、ユーザが利用できる入力装置のタイプに応じて異なるよう構成することができる。
一実施形態において、入力装置がマウスである場合、ユーザはマウス上でクリック・アンド・ドラッグ動作を実行し、物体の新しい観点を要求することができる。例えば、クリック・アンド・ドラッグ動作は、原点(例えば、マウスがクリックされた位置またはマウス・ダウン・イベント)に対する距離および角度を特定することができる。原点からの最終的なマウス位置(例えば、マウスが放された位置またはマウス・アップ・イベント)までの距離および角度は、物体の所望の回転を決定するのに用いることができるベクトルである。他の例では、物体は、中心位置を有し、この中心位置と、マウス・ダウン・イベントおよびマウス・アップ・イベントの位置と、の間の距離は、すべて物体の所望の回転を決定するために用いられる。
一実施形態において、入力装置がタッチスクリーン対応ディスプレイ装置である場合、ユーザは、1つまたは複数の指を用いて、タッチ、ドラッグおよび回転動作を実行し、配向の変化を要求することができる。1つの指を用いて、この回転要求は、上記のマウスのクリック・アンド・ドラッグ入力と同じように実行可能である。複数の指を用いて、ユーザは、ズームインまたはズームアウト動作をさらに可能にするために、タッチスクリーンをピンチまたはストレッチすることができる。
一実施形態において、入力装置が拡張現実(または仮想現実)ディスプレイ装置である場合、ユーザは、(例えば、自分の手を回転させることによって)回転ジェスチャを実行し、配向の変化を要求することができる。これらの特定の実施形態において、ユーザは、2D物体に対して、インターネット・オブ・シングス(「IoT」)データまたは他のカメラ出力に基づいて、3D回転ジェスチャを実行することができ、この情報を用いて、システムは、ジェスチャの回転方向および角運動を識別することができる。例えば、カメラは、人の手の写真を撮ることができ、画像処理を通して、手の位置、サイズおよび配向の変化を決定することができる。これらの変化に基づいて、回転ジェスチャが決定される。入力が物体の角度の観点の所望の変化を反映するという条件で、他の任意の適切なタイプの入力がユーザによって供給されてもよいことを理解されたい。
一実施形態において、ユーザによる回転ジェスチャ(または他の適切な入力)に応答して、検索エンジンは、回転ジェスチャの方向、回転ジェスチャの角運動、回転ジェスチャの大きさ、および2D画像内に現在表示されている物体の角度配向(すなわち、配向ベクトル)の少なくとも1つを用いる。したがって、入力は、現在の配向ベクトルに対する配向ベクトルの変化を示す。この入力データに基づいて、検索エンジンは、物体の新しい配向ベクトルを計算し、検索エンジンは、このデータに基づいて、新しい検索クエリを構築する。検索エンジンは、検索クエリを実行し、計算された新しい配向ベクトルに整合している(かまたは少なくとも近似の)配向ベクトルを有する物体の1つまたは複数の画像を返す。この新しい画像は、ディスプレイ装置上でユーザに表示される。このように、ユーザは、単に異なる2D画像の集合を利用することによって、複雑な3D物体操作プログラム(例えば、CADプログラム)を頼りにすることなく、どのように物体が異なる観点から見えるかを理解することができる。さらに、物体は、CADプログラム内の3次元の物体として見るのに適していなくてもよい(例えば、山脈、旅行者のランドマーク、家、建物など)。新しい観点を選択するこのプロセスは、ユーザによって任意の回数だけ繰り返され、異なる方法で物体を見ることができる。
特定の実施形態では、検索エンジンは、2D画像内で識別された物体の1つまたは複数の属性を用いて、検索クエリを実行する。上記のように、検索エンジンは、2D画像内の物体の画像分析を実行し、物体のベースラインの配向ベクトルを決定する。しかしながら、画像分析を用いて、物体の1つまたは複数の追加の属性を識別し、検索クエリを支援することができる。さらに、画像ファイルのメタデータを用いて、検索クエリを支援することができる。他の属性の例は、物体のサイズ、物体の色、物体のタイプまたはカテゴリ、画像が取り込まれた地理的な位置、画像が取り込まれたときのタイムスタンプ、物体の製品部分番号、画像ファイルの他のメタデータ、例えば画像解像度、物体の図形特徴などを含む。
一実施形態において、ユーザからの回転ジェスチャ入力に応答して、検索エンジンは、検索クエリを実行し、元の2D画像の属性に相関する特定の属性を有する物体の新しい2D画像を検索する。例えば、ユーザが第1の視野角から赤いセダン車のピクチャを見ていて、回転ジェスチャを入力し、新しい視点を見る場合、検索エンジンが、青い軽トラックの新しい2D画像をユーザに提示すると、これは、ユーザにとって有効ではないであろう。これらは、両方とも自動車であるが、それらはまったく異なるように見える。新しい画像が元の画像に少なくとも実質的に視覚的に対応しない場合、ユーザは、元の画像との切断の感覚を感じ得る。これらの識別された属性に基づいて、検索エンジンは、元の2D画像と類似(または同一)の視覚の属性を有する新しい配向で新しい2D画像を発見することを試みる。したがって、視聴者は、正確に同じ3D物体の異なる視点を実際には見ていないが、非常に類似の視覚特性を有する異なる2D画像を見ることが、ユーザにとってより自然に感じられなければならない。
特定の実施形態では、検索エンジンは、すべての2D画像が正確に同じ物体であることを要求する。例えば、会社がオンライン製品カタログを用いたウェブサイトを有する場合、その会社は、製品を購入するときの潜在的な顧客の混乱を回避するために、物体の異なるビューがわずかに異なる製品からではないことを確実にすることを望み得る。一例において、製品部品番号(またはシリアル番号)は、異なる2D画像の画像メタデータ属性であり、これは、画像検索結果が異なる製品のビューを返さないことを確実にするのを支援する。
特定の実施形態では、検索エンジンが2D画像検索結果を表示するとき、検索エンジンはまた、どんな他の視点が利用できるかに関する指示をユーザに表示する。検索エンジンが、前を向く視点からの物体の多くの格納された画像を配置したが、後ろを向くビューからの製品の画像の集合はほとんどない(またはまったくない)ことがある状況が存在し得る。システムは、ユーザが次にどの回転ビューを選択するべきかについての情報に基づいた決定をできるように、2D画像の入手可能性の視覚的指示をユーザに提示する。例えば、ユーザが集合内の2D物体の後ろを向くビューがないということを知っている場合、後ろを向く方向の回転ジェスチャを実行して、時間を無駄にすることはない。
次に図7を参照すると、実施形態では、画像検索結果における物体702の利用できる視点のユーザに対する視覚的指示は、3次元球体706として示される。この例では、球体706は、異なる角度視点で物体702の2D画像の存在を示す陰影部分を有する。図7に示すように、球体706の3Dワイヤ・フレーム表現は、配向ベクトル704を有する。ユーザによる回転ジェスチャの入力の前に、ディスプレイ装置は、球体706の配向ベクトル704と同一である配向ベクトル704を有する物体702の現在の視点を表示する。特定の実施形態では、ユーザは、回転ジェスチャによって入力装置と相互作用してもよく、画像検索エンジンは、ディスプレイ装置上の球体706の回転を生ずる。球体706の新しい配向ベクトル704は、物体702の新しい視点が何であるかに関するプレビューをユーザに提供する。特定の実施形態では、ユーザが回転ジェスチャを完了するまで、画像検索エンジンは、物体702の2D画像を更新しない。他の実施形態では、ユーザが球体706の回転を継続するとき、画像検索エンジンは、(利用できる場合)物体702の画像を連続的に検索し、更新する。
図7に示される例において、ワイヤ・フレーム球体706の部分は、バイナリの方法で陰影をつけられ(例えば、黒い部分708および白い部分710)、それらの角度視点が利用できる2D画像を有するかを示す。この例では、ユーザが回転ジェスチャを球体706に提供する場合、それは、球体の新しい最前面の部分的な部分を示すように回転するであろう。この最前面を向く球状部分が陰影のついた黒である場合、これは、この角度の画像検索が結果を生成しないことを意味するであろう。それゆえ、ユーザは、画像結果を有するであろう異なる角度に回転ジェスチャを継続することを知るであろう。一実施形態において、ユーザが、画像結果を有さない角度に球体706を回転させる場合、検索画像は、ユーザによって要求されたものに最も厳密に近似した異なる角度視点での結果を発見する。球体の最前面の部分が新しい視点の部分であることは必須ではなく、任意の適切な部分が使用可能であることを認識されたい。特定の実施形態では、選択される新しい視点に対応する球体706の部分は、強調されるか、色をつけられるか、または、なんらかの方法でユーザに示される。
特定の実施形態では、ワイヤ・フレーム球体の部分は、バイナリの方法でユーザに提示されることに限定されるものではなく、部分は、ユーザに表示される追加の視覚的指示または兆候を有する。例えば、物体の元の2D画像が青いセダン車である場合、異なる視点のいくつかは、青いセダン車の異なる2D画像を有してもよい。この状況では、これらの視点に対応するワイヤ・フレーム球体の部分は、青に着色されてもよい。しかしながら、他の角度視点のために、赤いセダン車の画像のみが存在してもよい。これらの角度視点のために、これらの視点に対応するワイヤ・フレーム球体の部分は、赤に着色されてもよい。これは、これらの視点に関して、ユーザは依然としてセダン車を見るが、物体の元の2D画像の色と同じ色でないということをユーザに警告する。球体上の指示または兆候のタイプが異なる色に限定されるものではないことを理解されたい。兆候のタイプは、物体のなんらかの他の視覚の属性(例えば、サイズ、タイプ、高さなど)を表現してもよい。
図8を参照すると、特定の実施形態では、兆候のタイプはまた、異なるビューの物体がどれくらい厳密に物体の元の2D画像に整合するかの任意の適切な視覚表示でもよい。一実施形態において、図8に示すように、すべての異なる3次元視点が物体の既存の2D画像を有する場合でも、異なる視点の物体が物体の元の画像に整合する(かまたは異なる)程度を表現する球体800のヒート・マップが提示される。図8を参照すると、球体800は、配向ベクトル802とともに示される。この例では、球体800は、複数の表面部分を有する。部分のいくつかは、白い部分804(またはクリア)であり、その見える観点のための既存の画像が存在しないことを示す。他の部分は、灰色の異なる陰影である。薄い灰色の部分806は、その見える観点のための既存の画像が存在するが、その画像内の物体の視覚特性があまり厳密には元の画像に整合しないことを示す。部分内の陰線の暗さは、既存の画像がどれくらい厳密に元の画像に整合するかを示す。この点に関しては、黒い部分808は、薄い灰色の部分(例えば、灰色の部分806)より非常に厳密に元の画像に整合する。したがって、球体800のこのヒート・マップは、どこに厳密に整合する画像が存在するか否かを容易に把握できるマップをユーザに提供する。
特定の実施形態では、元の画像(例えば、同じ色およびサイズ)に非常に厳密に整合する角度ビューは、360度のヒート・マップ上に1色で示すことができ、一方、あまり厳密に整合しない(例えば、要求された角度の基準を満たすが、元の画像の色またはサイズあるいはその両方において異なる)他の角度ビューは、360度のヒート・マップ上に異なる色で示す(例えば、緑に対してヒート・マップ上の赤として示す)ことができる。球体800(または他のインジケータ)が必ずしも個々の表面部分に分割される必要があるというわけではなく、他の任意の適切な視覚的指示を用いて、ヒート・マップおよび異なる既存の2D画像が元の画像に整合する程度を表現することができることを理解されたい。
他の実施形態では、新しい角度配向は、ユーザのジェスチャおよび元の画像物体の角度配向に基づいて決定され、画像検索結果は、新しい角度配向からの偏差に基づいてランク付けされる。検索結果が表示されるとき、画像検索エンジンは、画像物体の属性を分析し、異なるソースからの他の画像の入手可能性を識別する。
視点インジケータが3Dワイヤ・フレーム球体である必要がないことを理解されたい。それは、ユーザが回転ジェスチャ(または他の入力タイプ)によって異なる3次元視点を選択することができる他の任意の適切な物体または視覚的指示とすることができる。したがって、物体が牛である場合、視覚的指示は、牛または他の任意の適切に形成された物体の3Dワイヤ・フレーム表現とすることができる。さらに、視覚的指示は、3Dワイヤ・フレーム・モデルである必要はない。視覚的指示は、画像検索結果の量(または不在)を示す異なる表面兆候を有する他の任意の適切な3次元形状でもよい。例えば、視覚的兆候は、異なる角度での検索結果の入手可能性を示すヒート・マップ(または色勾配)を有する滑らかな球体でもよい。他の実施形態では、視覚的指示は、3次元モデルよりもむしろ2D表現である。
特定の実施形態では、検索エンジンは、欠けている画像情報を識別し、要求し、補充する(または、より良好な画像情報を要求する)方法を実施する。2D画像の完全なセットが、所定の物体のためのあらゆる可能な角度視点のために存在しない状況が存在し得る。回転ジェスチャおよび結果を返さない画像検索クエリに応答して、検索エンジンは、1人または複数の受取人に対して、追加の画像データを求める要求を開始する。一実施形態において、1人または複数の受取人に対する要求は、クラウドソーシング画像獲得の努力を含む。一般に、クラウドソーシングは、提供者(例えば、インターネット・ユーザ)の大規模かつ動的グループから、個人または組織がアイディアおよび財源を含む商品および役務を取得するソーシング・モデルを意味する。したがって、クラウドソーシングは、努力を多くの参加者で分担し、累積的な結果を達成する。本実施形態の文脈において、ゴールは、多種多様な異なる物体のため、かつ、物体のための多数の異なる配向において、極めて多数の関連画像を取得することである。したがって、2D画像のこの種の多数の集合を作成するために必要な非常に大規模な努力が存在し得るし、クラウドソーシングは、この努力の大きさを軽減または少なくするために利用可能である。例えば、ターゲット物体がアイフェル・タワーのような観光名所である場合、観光客は、多くの異なる角度から塔の自分たちの休暇写真を進んで提出し得る。これは、さまざまな観点からの塔の2D画像の非常に関連したセットを作成するのを支援する。特定の実施形態では、クラウドソーシングの提供者は、一般市民(例えば、すべてのインターネット・ユーザ)である。他の実施形態では、クラウドソーシングの提供者は、限定されたグループのユーザ、例えば会社の従業員である。一実施形態において、元のコンテンツ・プロバイダは、親画像の他の見える角度の提供者に、それらの画像の提供に対する報酬(例えば、金銭的報酬、製品/サービス上の割引など)を提供する。
一実施形態において、画像のためのクラウドソーシング要求を作成するためのトリガは、ユーザが、特定の視点から物体を見るために回転ジェスチャを実行するときである(その視点のための既存の画像が存在しないというさらなる要件とともに)。図4に関して上述したように、ステップ406において、新しい回転ベクトルのための画像が存在しないと決定される場合、次に、画像検索エンジンは、ステップ410において、欠けている画像情報の要求を送信する。換言すれば、ユーザが特定の観点から物体を見るための要求を実行した場合、それは、その角度から物体を見るという実際の要求が存在することを示す。しかしながら、例えば後ろから製品を見るための要求がこれまでされなかった場合、クラウドソーシング努力を通して、後ろからのその物体の写真を蓄積することは、努力に価しないことがある。物体が車である一例において、車の下側を見るという要求はほとんどまたはまったく存在しないことがある。この例では、人々は、その角度から物体を見ることに興味がない。
一実施形態において、提供者が追加の画像を提供することによって要求に反応するとき、親画像(すなわち基準画像)の所有者は、画像を検討する選択肢を有する。基準画像の所有者は、提供された画像を検討し、それらが受け入れられる品質であるかまたは親画像の視覚の属性に十分な程度整合しているかを決定してもよい。親画像の所有者が、提供された画像が受け入れられると決断する場合、彼らは、画像を記憶装置に格納し、画像の追加の視野角を見るために公表することができる。他の実施形態では、親画像の所有者が存在しないことがあり、提供された画像を手動で検討する人が存在しない。本実施形態において、画像処理は、提供された画像に対して実行され、それが親画像に適切に整合するものであるかを決定する。
一実施形態において、画像検索クエリがいくつかの結果を生ずる場合であっても、その回転ビューア用の画像の整合品質が低い場合、画像検索エンジンは、依然として追加の画像データの要求を開始してもよい。例えば、元の基準画像内の物体に対する非常に低い相関を有する特定の角度の観点のための物体の既存の2D画像が存在し得る。一例において、元の基準画像は、灰色の短い荷台の軽トラックでもよく、他の観点のための保存された画像は、元のものとは異なる製造およびモデルを有する茶色の長い荷台の軽トラックである。この例では、おそらく、茶色の長い荷台の軽トラックは、受け入れられる整合と考えられるなんらかの閾値を満たしたいくつかの視覚の属性を有した。しかしながら、この茶色のトラックは、元の画像との整合は非常に低い。本実施形態において、回転ジェスチャおよび新しい配向ベクトルのための格納された画像が基準画像と低い相関を有する(すなわち、特定の相関閾値未満である)という決定に応答して、検索エンジンは、画像を更新し、整合の品質を改善するための要求を1人または複数の受取人に送信する。要求に応答して、提供者から新しい画像を受信するとすぐに、システムは、新しく受信した画像を以前の画像と比較する。新しい画像がより良好な整合するものである(すなわち、現在の画像より、元の基準画像の属性によって良好に相関する)と決定される場合、検索画像は、現在の画像を新しい画像に置換する。一例において、受信した画像の基準配向軸および受信した画像物体の少なくとも1つの属性が、基準配向軸および基準画像の少なくとも1つの属性に所定の程度対応するとき(例えば、これは、コンテンツ・プロバイダによって設定可能である)、システムは、受信した画像を2次元画像のセットに追加する。このようにして、新しい画像を受け入れ、古い画像を潜在的に置換することによって、所定の物体のための2D画像の360度の回転集合は、時間とともに連続的に改善可能である。
一実施形態において、システムは、物体セッションの使用タイプ、タスク、目的、以下に関係している物体の論理的進行、すなわち、ローカル・ユーザの歴史的な機械学習、(コンテキストを共有する)さまざまなユニークなユーザのためのクラウド・ベースの使用、物体配向に基づくクラウドソースによるユーザの機械学習、および、ユーザ回転物体パタパタ音の予測、に基づいて、動的な文脈上の関連するコンテキスト再レンダリングを利用する。
一実施形態において、モデルまたは目的を完成するために提供されるコンテンツを最も支援可能である地理的にピンポイントの人々に対するクラウドソーシングによって、システムは、物理的な位置改善を利用する。例えば、地理上のフェンスの境界にある領域が存在する場合、システムは、各人の現在の動的な位置を選択的に見て、彼らのユニークな観点が視点および時間(すなわち、時間的決定)のために有益かに関する判断をする。この方法は、特定のマークされた位置内の特定の人々のみを選択的に含み、時間的イベントまたはスケジュールを目標とするため、したがってユニークかつより完全なモデルを引き出すための方法を有する。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法またはコンピュータ・プログラム製品あるいはその組合せでもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行装置が使用するための命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、例えば、限定されることなく、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または前述の任意の適切な組合せでもよい。コンピュータ可読記憶媒体のより具体的な例の包括的ではないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチ・カードまたは命令が記録された溝内の隆起構造などの機械的に符号化された装置および前述の任意の適切な組合せを含む。本願明細書で使用されるようなコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)またはワイヤを通して送信される電気信号などの、それ自体一過性の信号であると解釈されるべきではない。
本願明細書に記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置にあるいはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークまたは無線ネットワークあるいはその組合せを介して外部コンピュータもしくは外部記憶装置にダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング/処理装置のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令をそれぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データまたはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードまたはオブジェクト・コードのいずれかでもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でおよび部分的に遠隔コンピュータ上であるいは完全に遠隔コンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、あるいは(例えばインターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続されてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個人専用にすることによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して本願明細書に記載されている。フローチャートまたはブロック図あるいはその両方の各ブロックならびにフローチャートまたはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施可能であることを理解されたい。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックにおいて指定された機能/動作を実施するための手段を作成するように、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、内部に命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方のブロックで指定された機能/動作の態様を実施する命令を含む製品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置または他の装置あるいはその組合せに特定の態様で機能するように指示することができるものであってもよい。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置または他の装置上で実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックで指定された機能/動作を実施するように、コンピュータ実施プロセスを生成すべく、コンピュータ、他のプログラマブル・データ処理装置または他の装置にロードされて、コンピュータ、他のプログラマブル装置または他の装置上で一連の動作ステップを実行させるものであってもよい。
図のフローチャートおよびブロック図は、本発明の種々の実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメントまたは命令の一部を表すことができる。いくつかの代替実施態様では、ブロックに記載された機能は、図に記載された順序とは異なって行われてもよい。例えば、連続して示されている2つのブロックは、実際には、1つのステップとして達成されてもよいし、部分的または全体的に時間的に重なって同時にまたは実質的に同時に実行されてもよいし、または、ブロックは、関与する機能に依って、時には逆の順序で実行されてもよい。ブロック図またはフローチャートあるいはその両方の各ブロックおよびブロック図またはフローチャートあるいはその両方のブロックの組合せは、指定された機能または行為を実行するあるいは専用ハードウェアおよびコンピュータ命令の組合せを実行する専用のハードウェア・ベースのシステムによって実施可能であることにも留意されたい。
各種実施形態の説明は、説明のために提示され、包括的であることを意図せず、開示される実施形態に限定されることも意図しない。多くの変更およびバリエーションは、記載されている実施形態の範囲を逸脱することなく、当業者にとって明らかである。本願明細書において用いられる用語は、実施形態の原則、実用的な適用または市場で見つかる技術の上の技術的な改善を最も良く説明するために、または、当業者が本願明細書において開示される実施形態を理解することを可能にするために選択された。

Claims (17)

  1. 画像を検索する方法であって、
    2次元の基準画像内の基準物体を識別することと、
    前記基準物体の少なくとも1つの属性に基づいて、前記基準物体の3次元の基準配向軸を決定することと、
    前記基準物体の3次元観点の変化を要求する入力を受信することと、
    前記入力および前記基準配向軸に基づいて、新しい配向軸を決定することと、
    前記新しい配向軸および前記基準物体の前記少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行することと、
    前記新しい配向軸との相関および前記基準物体の前記少なくとも1つの属性に基づいてランク付けされた画像検索結果を表示することと、
    を含む、方法。
  2. 前記入力は、ユーザによって実行される回転ジェスチャに関する情報を含む、
    請求項1に記載の方法。
  3. 前記情報は、前記回転ジェスチャの方向および前記回転ジェスチャの角運動を含む、
    請求項2に記載の方法。
  4. 前記画像検索結果がいかなる結果も生成しないとき、前記方法は、前記新しい配向軸および前記基準物体の前記少なくとも1つの属性に対応する画像を供給するように、要求を外部の画像プロバイダ・リソースに送信することをさらに含む、
    請求項1ないし3のいずれかに記載の方法。
  5. 前記方法は、
    前記外部の画像プロバイダ・リソースから画像を受信することと、
    前記受信した画像内の受信した画像物体を識別することと、
    前記受信した画像物体の受信した画像基準配向軸を決定することと、
    前記受信した画像基準配向軸および前記受信した画像物体の少なくとも1つの属性が前記基準配向軸および前記基準画像の前記少なくとも1つの属性に所定の程度対応するとき、前記受信した画像を2次元画像の前記セットに追加することと、
    をさらに含む、
    請求項4に記載の方法。
  6. 前記外部の画像プロバイダ・リソースは、クラウドソーシング・ソースである、
    請求項4または5に記載の方法。
  7. 前記基準配向軸は、前記基準物体の計算された質量中心を通過し、前記基準物体の前を向く側から前記基準物体の後ろを向く側まで延在する軸である、
    請求項1ないし6のいずれかに記載の方法。
  8. 前記方法は、
    球体の3次元観点をユーザに表示することと、
    前記球体の回転の見える観点を更新して、前記ユーザの入力ジェスチャを追跡することと、
    をさらに含む、
    請求項1ないし7のいずれかに記載の方法。
  9. 前記球体は、前記基準物体の複数の異なる視野角に対応する複数の表面部分を含み、前記表面部分は、前記基準物体の関連画像が前記対応する視野角のための2次元画像の前記セット内に存在するか否かを示す視覚の属性を有する、
    請求項8に記載の方法。
  10. 前記表面部分の前記視覚の属性は、画像の前記セットの前記関連画像と前記基準画像との間の対応の程度をさらに示す、
    請求項9に記載の方法。
  11. 画像を検索するためのコンピュータ・システムであって、
    プログラム命令が格納されたコンピュータ可読記憶媒体と、
    前記プログラム命令を実行して方法を実行するように構成される1つまたは複数のプロセッサと、
    を備え、前記方法は、
    2次元の基準画像内の基準物体を識別することと、
    前記基準物体の少なくとも1つの属性に基づいて、前記基準物体の3次元の基準配向軸を決定することと、
    前記基準物体の3次元観点の変化を要求する入力を受信することと、
    前記入力および前記基準配向軸に基づいて、新しい配向軸を決定することと、
    前記新しい配向軸および前記基準物体の前記少なくとも1つの属性に基づく検索クエリを2次元画像のセット上で実行することと、
    前記新しい配向軸との相関および前記基準物体の前記少なくとも1つの属性に基づいてランク付けされた画像検索結果を表示することと、
    を含む、コンピュータ・システム。
  12. 前記入力は、ユーザによって実行される回転ジェスチャに関する情報を含む、
    請求項11に記載のコンピュータ・システム。
  13. 前記情報は、前記回転ジェスチャの方向および前記回転ジェスチャの角運動を含む、
    請求項12に記載のコンピュータ・システム。
  14. 前記画像検索結果がいかなる結果も生成しないとき、前記方法は、前記新しい配向軸および前記基準物体の前記少なくとも1つの属性に対応する画像を供給するように、要求を外部の画像プロバイダ・リソースに送信することをさらに含む、
    請求項11ないし13のいずれかに記載の方法。
  15. 前記方法は、
    前記外部の画像プロバイダ・リソースから画像を受信することと、
    前記受信した画像内の受信した画像物体を識別することと、
    前記受信した画像物体の受信した画像基準配向軸を決定することと、
    前記受信した画像基準配向軸および前記受信した画像物体の少なくとも1つの属性が前記基準配向軸および前記基準画像の少なくとも1つの属性に所定の程度対応するとき、前記受信した画像を2次元画像の前記セットに追加することと、
    をさらに含む、
    請求項14に記載のコンピュータ・システム。
  16. 画像を検索するためのコンピュータ・プログラム製品であって、
    コンピュータ可読記憶媒体を備え、前記コンピュータ可読記憶媒体は、処理回路によって可読であり、請求項1ないし10のいずれかに記載の方法を実行するように前記処理回路により実行される命令を格納する、
    コンピュータ・プログラム製品。
  17. コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリ内にロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作するときに請求項1ないし10のいずれかに記載の方法を実行するためのソフトウェア・コード部分を備える、
    コンピュータ・プログラム。
JP2022527719A 2019-11-20 2020-11-16 回転ジェスチャ入力を用いて画像を検索する方法、システム Pending JP2023503247A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/689,338 US10970330B1 (en) 2019-11-20 2019-11-20 Method of searching images using rotational gesture input
US16/689,338 2019-11-20
PCT/IB2020/060765 WO2021099917A1 (en) 2019-11-20 2020-11-16 Method of searching images using rotational gesture input

Publications (1)

Publication Number Publication Date
JP2023503247A true JP2023503247A (ja) 2023-01-27

Family

ID=75275387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527719A Pending JP2023503247A (ja) 2019-11-20 2020-11-16 回転ジェスチャ入力を用いて画像を検索する方法、システム

Country Status (6)

Country Link
US (1) US10970330B1 (ja)
JP (1) JP2023503247A (ja)
CN (1) CN114651246B (ja)
DE (1) DE112020005693T5 (ja)
GB (1) GB2605534A (ja)
WO (1) WO2021099917A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532856B (zh) * 2019-09-17 2023-10-17 中兴通讯股份有限公司 一种拍摄方法、装置和系统
CN115661342B (zh) * 2022-10-17 2023-07-28 上海信宝博通电子商务有限公司 针对车辆损伤点位的显示方法、装置及计算机可读介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090112A (ja) * 1998-09-16 2000-03-31 Canon Inc 画像処理装置及びその方法
US6587574B1 (en) * 1999-01-28 2003-07-01 Koninklijke Philips Electronics N.V. System and method for representing trajectories of moving objects for content-based indexing and retrieval of visual animated data
JP2004164503A (ja) * 2002-11-15 2004-06-10 Olympus Corp 三次元モデル検索方法、三次元モデル検索装置、三次元モデル検索プログラム、及び三次元モデル検索システム
JP2004235739A (ja) * 2003-01-28 2004-08-19 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4521008B2 (ja) * 2007-03-19 2010-08-11 株式会社日立製作所 画像検索システム
JP2010186307A (ja) * 2009-02-12 2010-08-26 Kddi Corp 動画コンテンツ識別装置および動画コンテンツ識別方法
US20100238126A1 (en) 2009-03-23 2010-09-23 Microsoft Corporation Pressure-sensitive context menus
US8842135B2 (en) * 2011-03-17 2014-09-23 Joshua Morgan Jancourtz Image editing system and method for transforming the rotational appearance of a subject
US20130006953A1 (en) 2011-06-29 2013-01-03 Microsoft Corporation Spatially organized image collections on mobile devices
US20140002581A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
CN102902826B (zh) * 2012-11-08 2016-07-06 公安部第三研究所 一种基于基准图像索引的图像快速检索方法
EP2951756A4 (en) 2013-02-01 2016-09-07 Intel Corp IMAGE-BASED RESEARCH TECHNIQUES USING TOUCH CONTROLS
DE112013006627T5 (de) * 2013-02-08 2015-10-22 Chuck Fung Verfahren, System und Prozessor zur sofortigen Erkennung und Positionierung eines Objekts
JP5887310B2 (ja) 2013-07-29 2016-03-16 京セラドキュメントソリューションズ株式会社 表示操作装置
US20150130800A1 (en) * 2013-11-12 2015-05-14 Fyusion, Inc. Segmentation of surround view data
KR20150124262A (ko) * 2014-04-28 2015-11-05 주식회사 코어라인소프트 의료용 영상 장치의 씨암의 회전 각도를 제어하는 방법 및 장치
US10356395B2 (en) * 2017-03-03 2019-07-16 Fyusion, Inc. Tilts as a measure of user engagement for multiview digital media representations
US10755428B2 (en) * 2017-04-17 2020-08-25 The United States Of America, As Represented By The Secretary Of The Navy Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model
US10496239B2 (en) * 2017-05-01 2019-12-03 Microsoft Technology Licensing, Llc Three-dimensional model look-at-point rotation and viewport modes
KR102421856B1 (ko) * 2017-12-20 2022-07-18 삼성전자주식회사 영상의 상호작용 처리 방법 및 장치

Also Published As

Publication number Publication date
GB202208935D0 (en) 2022-08-10
DE112020005693T5 (de) 2022-10-20
GB2605534A (en) 2022-10-05
US10970330B1 (en) 2021-04-06
CN114651246B (zh) 2023-08-01
CN114651246A (zh) 2022-06-21
GB2605534A8 (en) 2022-12-07
WO2021099917A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
CN112102500B (zh) 通过融合现实的虚拟存在系统和方法
US10789747B2 (en) Customized visualizations
US8737721B2 (en) Procedural authoring
RU2654133C2 (ru) Просмотр трехмерных объектов в документах
JP6466347B2 (ja) 個人情報コミュニケータ
US10289855B2 (en) Ad hoc target based photograph sharing
CN112102024A (zh) 提供房地产项目的数字现实体验和分散交易的系统和方法
US10965864B2 (en) Panoramic photograph with dynamic variable zoom
CN104969264A (zh) 用于将注解添加到全光光场的方法和设备
JP2023503247A (ja) 回転ジェスチャ入力を用いて画像を検索する方法、システム
US10949554B2 (en) Content security for midair projection display
Canessa et al. A dataset of stereoscopic images and ground-truth disparity mimicking human fixations in peripersonal space
US11412194B2 (en) Method and system for employing depth perception to alter projected images on various surfaces
Han et al. Crowdsourcing BIM-guided collection of construction material library from site photologs
Cui et al. Fusing surveillance videos and three‐dimensional scene: A mixed reality system
Pintore et al. Mobile mapping and visualization of indoor structures to simplify scene understanding and location awareness
Baker et al. Localization and tracking of stationary users for augmented reality
CN112381946A (zh) 数字场景查看方法、装置、存储介质和计算机设备
CN116910701A (zh) 加密数字资产管理系统
Pintore et al. Mobile reconstruction and exploration of indoor structures exploiting omnidirectional images
Ünal et al. Location based data representation through augmented reality in architectural design
Devaux et al. Increasing interactivity in street view web navigation systems
AU2018203909A1 (en) A User Interface
Zhang et al. Enabling an augmented reality ecosystem: a content-oriented survey
Rubio-Tamayo et al. Development of Standards for Production of Immersive 360 Motion Graphics, Based on 360 Monoscopic Videos: Layers of Information and Development of Content

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220612

RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220613

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424