JP6810247B2 - メディアドキュメントのメタデータを自動的に生成するシステム及び方法 - Google Patents

メディアドキュメントのメタデータを自動的に生成するシステム及び方法 Download PDF

Info

Publication number
JP6810247B2
JP6810247B2 JP2019507781A JP2019507781A JP6810247B2 JP 6810247 B2 JP6810247 B2 JP 6810247B2 JP 2019507781 A JP2019507781 A JP 2019507781A JP 2019507781 A JP2019507781 A JP 2019507781A JP 6810247 B2 JP6810247 B2 JP 6810247B2
Authority
JP
Japan
Prior art keywords
media
metadata
model
feature vector
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019507781A
Other languages
English (en)
Other versions
JP2019530062A (ja
Inventor
ダル ムットー カルロ
ダル ムットー カルロ
メーモ アルビーゼ
メーモ アルビーゼ
グエン ダック
グエン ダック
ラフィー アッバス
ラフィー アッバス
トラチュウスキー ジェイソン
トラチュウスキー ジェイソン
Original Assignee
アキフィ,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アキフィ,インコーポレイティド filed Critical アキフィ,インコーポレイティド
Publication of JP2019530062A publication Critical patent/JP2019530062A/ja
Application granted granted Critical
Publication of JP6810247B2 publication Critical patent/JP6810247B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Description

この出願は、2016年8月12日に米国特許庁に出願された米国仮出願第62/374,598号の利益を主張し、その全開示を参照によりここに組み込む。
本発明の実施の形態の態様は、画像及び3Dモデルタグ付けを含むデジタルメディアタグ付け及び分類の分野並びに関連のユーザインタフェースシステムに関する。
画像、録音及びビデオのような種々のタイプのデジタルメディアドキュメント(digital media document)は、デジタルメディアドキュメントのテキスト記述を含むメタデータを含む。このメディアデータは、タイムスタンプ並びに関連のデジタルメディアドキュメントのコンテンツの文書による記述(narrative description)のような情報を含んでもよい。これらのメタデータを、検索クエリーに関連するメディアドキュメントを識別するためにテキストベース検索を行うときに用いることができる。メタデータを、デジタルメディアドキュメントをカテゴリー化又は分類するのに用いることもできる。
一例として、デジタル写真に関連するメタデータは、画像の(画素の)寸法及び画像の色深度(color depth)のような技術情報並びに写真のコンテンツを記述するメタデータを含むことができる。森のハイカーの写真に関連するメタデータは、「林」、「森」、「木」、「植物」、「葉(green)」、「影」、「花」、「遠足(hike)」、「ハイカー」、「ハイキング」等のような写真のコンテンツのテキスト記述を含むことができる。
3次元(3D)モデルは、デジタルメディアドキュメントの他の形態であり、広告アプリケーション、品質管理アプリケーション、ビデオゲームアプリケーション、仮想現実アプリケーション及び拡張現実アプリケーションのようなコンテンツで一般的に用いられている。従来、3Dモデルを、例えば、コンピュータ支援設計(CAD)ツールを用いることによって手動で生成していた。これらのモデルを作成することは、一般的には、詳細なモデルを作成するときに特にたくさんの人手を要する仕事である。近年、深度カメラ及び3Dスキャナが代替的なアプローチとして設けられ、この場合、詳細な3Dモデルを、実在する対象物の形状のデジタルキャプチャを通じて作成することができる。
CADツール、深度カメラ及び3Dスキャナを用いて生成した三次元モデルは、メタデータタグ付けから利益を得ることもできる。例えば、3Dモデルを、電子商取引ウェブサイトの商品リスティングに用いることができ、3Dモデルに関連するメタデータを、関連の商品リスティングの情報を生成又は追加するのに用いることができる。例えば、車両の3Dモデルは、車の型及び様式、内部及び外観の色、状態(例えば、へこみ又は損傷の存在)等のようなメタデータ情報を含むことができる。これらのメタデータを、買い物客が特定の色の特定のタイプの車を検索できるようにするために商品リスティングの情報に追加することができる。
しかしながら、各3Dモデルのこれらのメタデータを手動で生成することは、時間がかかり、一貫性がなくまとまりの悪い結果を生じさせるおそれがある。例えば、車が「赤色」のものとしてタグ付けされるのに対して、赤の色合いの実際の名称が「ルビー」となることがある。特定の型の名称の綴りのように車両についての他の情報が不正確となることがある。
本発明の実施の形態の態様は、メタデータによる3次元(3D)モデルの自動的な増強及びこれらの3Dモデルを収集及び生成するシステムを対象とする。
本発明の一実施の形態によれば、メディアドキュメントのメタデータを自動的に生成する方法であって、方法は、畳み込みニューラルネットワークを用いてメディアドキュメントの特徴ベクトルを算出することと、メディアドキュメントの特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチング(matching)メディアドキュメントの一群のメディアドキュメントを検索することであって、一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいてメディアドキュメントのメタデータを生成することと、生成したメタデータに関連してメディアドキュメントを表示することと、を備える。
メディアドキュメントは、3次元(3D)モデルであってもよい。特徴ベクトルを算出することは、有界3Dモデルを生成するために3Dモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界3Dモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、を有してもよい。一群のメディアドキュメントは、一群の3次元(3D)モデルを有してもよく、一群のメディアドキュメントを検索することは、反復的な最近点技術に従って3Dモデルと一群の3Dモデルの一つの間の距離を算出することを有してもよい。特徴ベクトルを算出することは、3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から3Dモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、を有してもよい。一群のメディアドキュメントは、一群の2次元(2D)画像を有してもよく、特徴ベクトルを算出することは、3Dモデルの一つ以上の特徴ベクトルを算出することを有してもよく、一つ以上のマッチングメディアドキュメントは、一群の2D画像の一つ以上のマッチング2D画像を有してもよく、マッチング2D画像の対応する特徴ベクトルの各々は、3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。方法は、3次元スキャナを用いて3Dモデルをキャプチャすることを更に有してもよく、3次元スキャナは、二つ以上の赤外(IR)カメラと、一つ以上のIRコリメート照明と、を有してもよい。
メディアドキュメントは、一つ以上の2次元(2D)画像を有してもよく、一群のメディアドキュメントは、一群の3次元(3D)モデルを有してもよく、特徴ベクトルを算出することは、一つ以上の2D画像の一つ以上の特徴ベクトルを算出することを有してもよく、一つ以上のマッチングメディアドキュメントは、一群の3Dモデルの一つ以上のマッチング3Dモデルを有してもよく、マッチング3Dモデルの対応する特徴ベクトルの各々は、3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。特徴ベクトルを算出することは、一つ以上の2D画像から物の3Dモデルを算出することと、3Dモデルから特徴ベクトルを抽出することと、を有してもよい。3Dモデルから特徴ベクトルを抽出することは、有界3Dモデルを生成するために3Dモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界3Dモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、を有してもよい。
3Dモデルから特徴ベクトルを抽出することは、3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から3Dモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、を有してもよい。
方法は、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを更に有してもよい。
生成したメタデータ及びメディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を有してもよく、メタデータを生成することは、複数の欄の各欄に対して、一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、識別したデータを生成したメタデータに追加することと、を有してもよい。
生成したメタデータは、メディアドキュメントの種類を有してもよく、方法は、メディアドキュメントの種類を算出するためにメディアドキュメントの特徴ベクトルを分類器に供給することと、分類に基づいて種類を算出することと、を有してもよい。
方法は、メディアドキュメント及び生成したメタデータメタデータを一群のメディアドキュメントに追加することを更に有してもよい。
一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間におけるメディアドキュメントの特徴ベクトルからの対応する距離を有してもよく、対応する距離の各々は、しきい値距離未満であってもよい。
方法は、メディアドキュメントに関連するメタデータを受け取ることを更に有してもよく、一群のメディアドキュメントを検索することは、メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを有してもよく、マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを有してもよい。
一群のメディアドキュメントは、第1のセットのメディアドキュメント及び第2のセットのメディアドキュメントを有してもよく、ユーザに関連するアクセスポリシーによって、第1のセットのメディアドキュメントへのアクセスを許可するとともに第2のセットのメディアドキュメントへのアクセスを拒否し、一群のメディアドキュメントを検索することは、第1のセットのメディアドキュメントに限定される。
本発明の一実施の形態によれば、メディアドキュメントのメタデータを自動的に生成するシステムであって、プロセッサと、プロセッサによって実行されるときに、畳み込みニューラルネットワークを用いてメディアドキュメントの特徴ベクトルを算出することと、メディアドキュメントの特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいてメディアドキュメントのメタデータを生成することと、生成したメタデータに関連してメディアドキュメントを表示することと、をプロセッサによって実行させる格納された命令を有するメモリと、を有する。
メディアドキュメントは、3次元(3D)モデルであってもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、有界3Dモデルを生成するために3Dモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界3Dモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、をプロセッサによって実行させる命令を有してもよい。一群のメディアドキュメントは、一群の3次元(3D)モデルを有してもよく、一群のメディアドキュメントを検索することの命令は、プロセッサによって実行されるときに、反復的な最近点技術に従って3Dモデルと一群の3Dモデルの一つの間の距離を算出することをプロセッサによって実行させる命令を有してもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から3Dモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、をプロセッサによって実行させる命令を有してもよい。一群のメディアドキュメントは、一群の2次元(2D)画像を有してもよく、特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、3Dモデルの一つ以上の特徴ベクトルを算出することをプロセッサによって実行させる命令を有してもよく、一つ以上のマッチングメディアドキュメントは、一群の2D画像の一つ以上のマッチング2D画像を有してもよく、マッチング2D画像の対応する特徴ベクトルの各々は、3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。システムは、二つ以上の赤外(IR)カメラと、一つ以上のIRコリメート照明と、を備える3次元スキャナを更に有してもよく、メモリは、プロセッサによって実行されるときに、3次元スキャナを用いて3Dモデルをキャプチャすることをプロセッサによって実行させる命令を更に格納してもよい。
メディアドキュメントは、一つ以上の2次元(2D)画像を有してもよく、一群のメディアドキュメントは、一群の3次元(3D)モデルを有してもよく、特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、一つ以上の2D画像の一つ以上の特徴ベクトルを算出することをプロセッサによって実行させる命令を有してもよく、一つ以上のマッチングメディアドキュメントは、一群の3Dモデルの一つ以上のマッチング3Dモデルを有してもよく、マッチング3Dモデルの対応する特徴ベクトルの各々は、3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、一つ以上の2D画像から物の3Dモデルを算出することと、3Dモデルから特徴ベクトルを抽出することと、をプロセッサによって実行させる命令を有してもよい。3Dモデルから特徴ベクトルを抽出することの命令は、プロセッサによって実行されるときに、有界3Dモデルを生成するために3Dモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界3Dモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、をプロセッサによって実行させる命令を有してもよい。3Dモデルから特徴ベクトルを抽出することの命令は、プロセッサによって実行されるときに、3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から3Dモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、をプロセッサによって実行させる命令を有してもよい。
メモリは、プロセッサによって実行されるときに、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることをプロセッサによって実行させる命令を更に格納してもよい。
生成したメタデータ及びメディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を有してもよく、メタデータを生成することの命令は、プロセッサによって実行されるときに、複数の欄の各欄に対して、一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、識別したデータを生成したメタデータに追加することと、をプロセッサによって実行させる命令を有してもよい。
生成したメタデータは、メディアドキュメントの種類を有してもよく、メモリは、プロセッサによって実行されるときに、メディアドキュメントの種類を算出するためにメディアドキュメントの特徴ベクトルを分類器に供給することと、分類に基づいて種類を算出することと、をプロセッサによって実行させる命令を更に格納してもよい。
メモリは、プロセッサによって実行されるときに、メディアドキュメント及び生成したメタデータメタデータを一群のメディアドキュメントに追加することをプロセッサによって実行させる命令を更に格納してもよい。
一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間におけるメディアドキュメントの特徴ベクトルからの対応する距離を有してもよく、対応する距離の各々は、しきい値距離未満であってもよい。
メモリは、プロセッサによって実行されるときに、メディアドキュメントに関連するメタデータを受け取ることをプロセッサによって実行させる命令を更に格納してもよく、一群のメディアドキュメントを検索することの命令は、プロセッサによって実行されるときに、メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することをプロセッサによって実行させる命令を有してもよく、マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを有してもよい。
一群のメディアドキュメントは、第1のセットのメディアドキュメント及び第2のセットのメディアドキュメントを有してもよく、ユーザに関連するアクセスポリシーによって、第1のセットのメディアドキュメントへのアクセスを許可するとともに第2のセットのメディアドキュメントへのアクセスを拒否し、一群のメディアドキュメントを検索することは、第1のセットのメディアドキュメントに限定される。
特許又は出願ファイルは、少なくとも一つのカラー図面を含む。(一つ以上の)カラー図面を有するこの特許又は出願刊行物は、請求及び必要な費用の支払いを行うことによって特許庁から提供される。
添付図面は、明細書と共に本発明の例示的な実施の形態を説明し、明細書共に本発明の原理を説明する役割を果たす。
本発明の一実施の形態によるメタデータのタグ及び種類の自動的な追加の例である。 本発明の一実施の形態によるスキャナシステムのブロック図である。 本発明の一実施の形態によるスクリーンから切り離されているカメラを有する3Dスキャニングシステムを用いて物をスキャンするシステム及び方法をユーザの観点から示す。 スキャニングシステムによってキャプチャした3次元モデルの例である。 スキャニングシステムによってキャプチャした3次元モデルの例である。 本発明の一実施の形態によるメディアドキュメントのメタデータを生成する方法のフローチャートである。 本発明の一実施の形態による3Dモデルをボクセル化することによりメディアドキュメントが3Dモデルである場合に特徴ベクトルを算出する方法を示すフローチャートである。 ボクセル化を用いた3DモデルへのCNNの適用を視覚的に示す。 本発明に一実施の形態による種々の視点又は方向からの3Dモデルの複数のビューをレンダリングすることによりメディアドキュメントが3Dモデルである場合に特徴ベクトルを算出する方法を示すフローチャートである。 複数のビューからレンダリングした3DモデルへのCNNの適用を視覚的に示す。 本発明の一実施の形態によるモデルをキャプチャするとともにモデルのメタデータを自動的に生成する工程を示すフローチャートである。
以下の詳細な説明において、本発明の所定の例示的な実施の形態のみを例示として示すとともに説明する。当業者が認識するように、本発明を、複数の種々の形態で実施してもよく、ここで説明する実施の形態に限定されるものと解釈すべきでない。明細書を通じて、同様な参照番号は同様な要素を表す。
本発明の実施の形態の態様は、2次元(2D)画像又は3次元(3D)モデルのようなメディアドキュメントのメタデータを自動的に生成するシステム及び方法を対象とする。3Dモデルを、後に詳しく説明するように深度カメラを有するスキャナシステムによって生成してもよい。本発明の実施の形態の一部の態様は、特徴ベクトルを生成するとともに分類のセットに従ってメディアドキュメントを分類するようにトレーニングされた又は構成された分類器に特徴ベクトルを供給するためにメディアドキュメントを特徴抽出装置に供給することに関する。本発明の実施の形態の更に別の態様は、類似する分類(例えば、類似する特徴ベクトル)を有する存在するメディアドキュメントを識別するために(例えば、データベースに格納された)一群のメディアドキュメントを検索することに関する。類似する分類を有するこれらのメディアドキュメントに関連するメタデータを、供給されたメディアドキュメントのメタデータを生成するのに用いることができる。
図1は、本発明の一実施の形態によるメタデータのタグ及び種類の自動的な追加の例である。図1に示すように、3Dモデル10は、クエリーとして供給されるメディアモデルとして用いられる。示す例において、3Dモデル10は、関連のメタデータを有しない。3Dモデル10を含むクエリーに基づいて、本発明の実施の形態は、クエリーに供給された3Dモデル10に類似する一連のメディアドキュメント(一連の3Dモデル)のエントリー12を識別する。識別されるエントリー12の各々は、種類14a及びタグ14bを含むメタデータ14に関連する。例えば、第1のエントリーは、class“car”及びtag“Jeep(登録商標),blue,sport”を有する青のスポーツユーティリティビークルのモデルを示す。第2のエントリーは、class“car”及びtag“Jeep(登録商標),convertible,red”を有する赤のオープントップタイプのオフロード車のモデルを示す。第3のエントリーは、class“cap”及びtag“black&white”を有する野球帽のモデルを示す。第4のエントリーは、class“car”及びtag“convertible”及び“sport”を有する緑のオープントップタイプの車のモデルを示す。識別されるエントリー12の少なくとも半分に出現するメタデータをマージすることによって、クエリーの供給された3Dモデル10に対してメタデータ16を生成することができる。
このやり方は、スキャナシステムによって生成される3Dモデルの場合に特に有用となることができ、この場合、そのように生成された3Dモデルは、車を販売するための広告(例えば、オンラインのオークションウェブサイトの商品リスティング)の車の3Dモデルを含むようにするために3Dスキャナシステムを用いて車の3Dモデルをキャプチャするユーザの場合のようにほとんどメタデータを有さなくてもよい。
このやり方によって、システムは、物の画像又は3Dモデルをキャプチャするユーザがどんな物であるか又は物が何と呼ばれているかを知らないときでも物を自動的に分類するとともにタグ付けすることもできる。
スキャナシステム
一般的には、スキャナシステムは、シーンからデータを収集するカメラのようなセンサを有するハードウェア装置を有する。スキャナシステムは、センサによって収集したデータからシーンの深度画像及び/又は3次元(3D)モデルを生成するコンピュータプロセッサ又は他の処理ハードウェアを有してもよい。
スキャナシステムのセンサを、例えば、通常のカラーカメラ、深度(又は距離)カメラ又は深度及びカラーカメラの組合せを含む多様な種々のタイプのカメラとしてもよい。後者は、典型的にはRGB−Dと称され、RGBは、カラー画像を表し、Dは、深度画像を表す(この場合、各画素は、シーンの深度(又は距離)情報を作成(encode)する。)。深度画像を、幾何学的方法又は電子的方法を含む種々の方法によって取得することができる。深度画像を、ポイントクラウドとして表してもよい又はポイントクラウドに変換してもよい。幾何学的方法の例は、受動型又は能動型ステレオカメラシステム及び構造化光カメラシステム(structured light camera system)を含む。電子的方法の例は、飛行時間型(TOF)カメラ、一般的なスキャニングカメラ又は固定LIDARカメラを含む。
カメラのタイプに応じて、カメラによってキャプチャしたデータから深度画像を生成するために種々のアルゴリズムを用いてもよい。Dence Tracking and Mapping in Real Time(DTAM)と称される種類(class)のアルゴリズムは、キャプチャした画像のカラーキュー(color cue)を用いるものであり、Simultaneous Localization and Mapping(SLAM)と称される他の種類のアルゴリズムは、深度(又は深度と色の組合せ)データを用いるものであり、更に別の種類のアルゴリズムは、Iterative Closest Point(ICP)及びその派生(derivative)に基づく。
図2に関連して更に詳しく説明するように、少なくとも一部の深度カメラシステムによって、ユーザは、物の全ての側面をキャプチャするために物の周辺でカメラを自由に動かすことができる。結合した深度画像を生成する基本アルゴリズムは、キャプチャしたデータを物又は物の部分的に構成した3Dモデルに合わせるために物に対するカメラの姿勢を追跡することができる及び/又は推測することができる。3次元の物をスキャンするシステム及び方法の一例は、2017年6月22日に米国特許庁に出願された米国特許出願公開第15/630,715号明細書に記載されており、その開示の全体を参照によりここに組み込む。
本発明の一部の実施の形態において、深度画像又は3Dモデルの構造化を、スキャナそれ自体によって局所的に行う。他の実施の形態において、有線又は無線接続(例えば、イーサネット(登録商標)接続、USB接続、セルラー式のデータ接続、ローカル無線ネットワーク接続及びブルートゥース(登録商標)接続)を介してスキャナからデータを受信することができる一つ以上のローカルサーバ又はリモートサーバによって処理を行う。
更に具体的な例として、スキャナをハンドヘルド3Dスキャナとしてもよい。そのようなハンドヘルド3Dスキャナは、あり得る大きい表面又は完全な物の3D表現を作成するために同一表面の複数の深度画像を記録することができるソフトウェアと共に深度カメラ(各画素によって撮像された表面要素の距離を算出するカメラ)を有してもよい。ハンドヘルド3Dスキャナのユーザは、ハンドヘルド3Dスキャナを物の周辺の種々の位置に動かすとともに物の表面の全ての位置をカバーするように(例えば、スキャナによって取得した少なくとも一つの深度画像において表面が見えるように)ハンドヘルド3Dスキャナを適応させる必要がある。さらに、各表面パッチが十分高い密度の深度測定を受け取ることが重要である(この場合、深度カメラの各画素はそのような深度測定を提供する。)。深度測定の密度は、カメラによって表面パッチが見られる距離及び深度カメラの視野方向又は光軸に対する表面の角度又は傾斜に依存する。
図2は、本発明の一実施の形態によるステレオ深度カメラとしてのスキャニングシステムのブロック図である。
図2に示すスキャニングシステム100は、第1のカメラ102と、第2のカメラ104と、投影源106(又は照明源若しくは能動型投影システム)と、ホストプロセッサ108と、メモリ110と、を有し、ホストプロセッサを、例えば、グラフィックスプロセッシングユニット(GPU)、更に一般的な汎用プロセッサ(CPU)、適切に構成されたフィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)とすることができる。第1のカメラ102及び第2のカメラ104の相対位置及び向きを十分に固定するように第1のカメラ102及び第2のカメラ104を、例えば、フレームに堅く結合してもよい。第1のカメラ102及び第2のカメラ104を共に「深度カメラ」と称してもよい。第1のカメラ102及び第2のカメラ104は、対応するイメージセンサ102a及び104aを有し、対応するイメージ信号プロセッサも有してもよい。種々の構成要素は、システムバス112を介して互いに通信を行ってもよい。スキャニングシステム100は、画像を表示することができるようにするためのディスプレイ114、他の装置と通信を行うためのネットワークアダプタ116、スキャニングシステム100の加速度を検出する(例えば、向きを決定するために重力の方向を検出するとともに位置変化を検出するために動きを検出する)ジャイロスコープのような慣性計測装置(IMU)118並びにスキャニングシステム100によって収集及び処理されるデータを格納するNANDフラッシュメモリのような永続メモリ120のような追加の構成要素を有してもよい。IMU118を、多数のモデムスマートフォンでよく見つかるタイプのものとしてもよい。イメージキャプチャシステムは、ユニバーサルシリアルバス(USB)インタフェースコントローラのような他の通信部品も有してもよい。
一部の実施の形態において、カメラ102のイメージセンサ102a及びカメラ104のイメージセンサ104aは、RGB−IRイメージセンサである。可視光(例えば、赤−緑−青、すなわち、RGB)及び不可視光(例えば、赤外、すなわち、IR)を検出することができるイメージセンサを、例えば、電荷結合素子(CCD)センサ又は相補型金属酸化膜半導体(CMOS)センサとしてもよい。一般的には、通常のRGBカメラセンサは、50%が緑、25%が赤及び25%が青である「ベイヤー配列」、すなわち、「RGBG配列」で配置された画素を有する。バンドパスフィルタ(又は「マイクロフィルタ」)を、ベイヤー配列に従って緑、赤及び青のそれぞれに対して個別のフォトダイオードの前に(例えば、フォトダイオードとカメラに関連する光学系の間に)配置する。一般的には、通常のRGBカメラセンサは、電磁スペクトルのIR部分の信号を遮断する(レンズの一部としての又はイメージセンサチップの全体のコーティングとしての)赤外(IR)フィルタ又はIRカットフィルタも有する。
RGB−IRセンサは、通常のRGBセンサに略類似するが、種々のカラーフィルタを有してもよい。例えば、RGB−IRセンサにおいて、四つのフォトダイオードの各グループの緑フィルタの一つを、25%の緑、25%の赤、25%の青及び25%の赤外である配列を形成するためにIRバンドパスフィルタ(又は「マイクロフィルタ」)と共に配置し、この場合、赤外画素を可視光画素の間に混ぜる。さらに、IRカットフィルタをRGB−IRセンサから省略してもよい、IRカットフィルタを、赤色光、緑色光及び青色光を検出する画素の上にのみ配置してもよい、又は、IRフィルタを、可視光及び特定の波長間隔(例えば、840〜860nm)の光を通過させるように設計することができる。電磁スペクトルの複数の部分、帯域又はスペクトル帯の光(例えば、赤色光、青色光、緑色光及び赤外光)をキャプチャすることができるイメージセンサを、ここでは、「マルチチャネル」イメージセンサと称する。
本発明の一部の実施の形態において、イメージセンサ102a及び104aは、通常の可視光センサである。本発明の一部の実施の形態において、システムは、一つ以上の可視光カメラ(例えば、RGBカメラ)と、それとは別の一つ以上の不可視光カメラ(例えば、赤外カメラ、この場合、IRバンドパスフィルタが全て画素の上に配置される)と、を有する。本発明の他の実施の形態において、イメージセンサ102a及び104aは、赤外(IR)光センサである。
一般的に言えば、立体深度カメラシステムは、互いに離間するとともに堅いフレームのような共有構造に堅く取り付けられた少なくとも二つのカメラを有する。カメラは、略同一の方向に向けられ(例えば、カメラの光軸を略平行にしてもよい)、重複する視野を有する。これらの個別のカメラを、例えば、(例えば、一つ以上のレンズを有する)光学系を有する相補型金属酸化膜半導体(CMOS)イメージセンサ又は電荷結合素子(CCD)イメージセンサを用いて実現することができ、光学系は、光をイメージセンサに向ける又はイメージセンサ上に光の焦点を合わせるように構成される。光学系は、例えば、光学系が「広角」レンズ、望遠レンズ又は中間のもの(something in between)を実現するか否かに基づいてカメラの視野を決定することができる。
以下の考察において、深度カメラシステムの画像取得システムを、「マスター」カメラ及び一つ以上の「スレーブ」カメラと称することができる少なくとも二つのカメラを有するものとして説明する。一般的に言えば、推定される深度又は視差マップは、マスターカメラの視点から算出されるが、カメラのいずれかをマスターカメラとして用いればよい。ここで用いられるように、マスター/スレーブ、左/右、上/下、第1/第2及びCAM1/CAM2は、特に断りのない限り互いに用いられる。換言すれば、カメラのいずれか一つをマスターカメラ又はスレーブカメラとすることができ、右のカメラに対する考察を、他の方向において対称的に左のカメラに適用することができる。さらに、後に説明する考察は、便宜上種々の数のカメラに対して有効であるが、考察を、一般的には、二つのカメラを有するシステムの状況で説明する。例えば、深度カメラシステムは、三つのカメラを有してもよい。そのようなシステムにおいて、カメラの二つは、不可視光(赤外)カメラであってもよく、第3のカメラは、可視光カメラ(例えば、赤/青/緑のカラーカメラ)であってもよい。三つ全てのカメラを互いに光学的に調整(例えば、較正)してもよい。三つのカメラを有する深度カメラシステムの一例は、2016年5月5日に米国特許庁に出願された米国特許出願公開第15/147,879号明細書の「深度投影3眼カメラシステム(Depth Perspective Trinocular Camera System)」に記載されており、その開示の全体を参照によりここに組み込む。
カメラによって撮影されたシーンの特徴の深度を検出するために、深度カメラシステムは、カメラによってキャプチャされた画像の各々の特徴の画素位置を決定する。二つの画像の特徴の間の距離は、視差と称され、それは、物の距離又は深度に反比例する。(これは、比較の際に物を1回に一つの目で見たときに物が「変化する」程度の影響であり、変化の大きさは、物が観察者の目からどの程度離れているかに依存し、物が近づくに従って変化が大きくなり、物が遠くなるに従って変化が小さくなり、遠方の物は、検出できる変化がほとんどない。)視差を用いて深度を算出する技術は、例えば、R.Szeliskiによる“Computer Vision:Algorithms and Applications”,Springer,2010 pp.467 et seqに記載されている。
マスターカメラとスレーブカメラの間の視差の大きさは、カメラのピクセル解像度(pixel resolution)、カメラの間の距離及びカメラの視野のような深度カメラシステムの物理的な特性に依存する。したがって、正確な深度測定を生成するために、深度カメラシステム(又は深度投影カメラシステム)は、これらの物理的特性に基づいて較正される。
一部の深度カメラシステムにおいて、カメラのイメージセンサの画素の水平行が略平行になるようにカメラを配置してもよい。画像修正技術を、カメラのレンズの形状及びカメラの向きの変化による画像の歪みを調整するのに用いることができる。
更に詳しくは、カメラ較正情報は、入力画像を修正するために情報を提供することができ、その結果、等価カメラシステムのエピポーラ線は、修正された画像のスキャンラインに一致する。そのような場合、シーンの3Dポイントは、マスター画像及びスレーブ画像の同一のスキャンラインインデックスに投影される。U及びUをマスターカメラ及びスレーブ等価カメラ(slave equivalent camera)の同一の3Dポイントpの画像のスキャンラインの座標とし、この場合、各カメラにおいて、これらの座標は、主点(焦点面の光軸の交差点)を中心とするとともに修正された画像のスキャンラインに平行は水平軸を有する軸システム(axis system)を参照する。差U−Uは、視差と称され、dによって表される。視差は、修正されたカメラに対する3Dポイントの直行距離(すなわち、いずれかのカメラの光軸に対するポイントの直角投影の距離)に反比例する。
立体アルゴリズム(stereoscopic algorithms)は、視差のこの特性を利用する。これらのアルゴリズムは、視差を推定することと等価である左右のビューで検出されるポイント(又は特徴)のマッチングを行うことによって3D再構成を実現する。ブロックマッチング(BM)は、一般的に用いられる立体アルゴリズムである。マスターカメラ画像の画素が与えられると、アルゴリズムは、この画素をスレーブカメラ画像の他の任意の画素にマッチングするためのコストを算出する。このコスト関数は、マスター画像の画素を包囲する小窓内の画像コンテンツとスレーブ画像の画素の間の相違として規定される。あるポイントの最適視差は、最小マッチングコストの引数(argument)として最終的に推定される。この手順は、一般的には勝者独り勝ち(WTA)と称される。これらの技術は、例えば、R.Szeliskiの“Computer Vision:Algorithms and Applications”,Springer,2010で更に詳しく記載されている。BMのような立体アルゴリズムは外観類似に依存するので、視差の算出は、スレーブ画像の二つ以上の画素が同一の局部外観を有する場合に困難になり、これらの画素の全てがマスター画像の同一の画素と類似するので、不明確な視差推定になる。これが生じうる典型的な状況は、平坦な壁のような一定の輝度を有するシーンを視覚化するときである。
2016年7月12日に発行された米国特許第9,392,262号明細書の「複数のマルチチャネルカメラを用いて3D再構成のシステム及び方法(System and Method for 3D Reconstruction Using Multiple Multi−Channel Cameras)」に記載されているような小さい3Dの詳細をキャプチャすることができるブロックマッチングアルゴリズムの実行を向上させる又は最適化させるように設計されたパターンを投影することによって追加の照明を提供する方法が存在し、その開示の全体を参照によりここに組み込む。他の手法は、シーンにテクスチャを提供するとともに同時に出現するシーンの部分を除去する(disambiguating)ことによってテクスチャの少ない領域(texture−less regions)の深度推定を特に向上させるために単に用いられるパターンを投影する。
本発明の実施の形態による投影源106を、カメラ102及び104によって撮影されたシーンに可視光(例えば、人間及び/又は他の動物の目に見えるスペクトル内の光)又は不可視光(例えば、赤外光)を投影するように構成してもよい。換言すれば、投影源は、カメラ102及び104の光軸に略平行な光軸を有してもよく、投影源を、カメラ102及び104の視野の方向に光を出射するように構成してもよい。一部の実施の形態において、投影源106は、複数の個別の照明器を有してもよく、各照明器は、他の(一つ以上の)照明器の(一つ以上の)光軸から離間するとともにカメラ102及び104の光軸から離間した光軸を有する。
不可視光投影源は、対象が(テレビ会議システムにおけるような)人々である状況により適している。その理由は、不可視光が対象の見る能力を妨害しないからである。それに対し、可視光投影源は、対象の目に対して不快になるように照射するおそれがある又はシーンにパターンを加えることにより認識に不所望な悪影響を及ぼすおそれがある。不可視投影源を有するシステムの例は、例えば、2015年6月30日に米国特許庁に出願された米国特許出願公開第14/788,078号明細書の「複数の露出設定に基づくマルチチャネル撮影のシステム及び方法(System and Methods for Multi−Channel Imaging Based on Multiple Exposure Settings)」に記載されており、その開示の全体を参照によりここに組み込む。
能動型投影源を、投影静止パターン、例えば、経時的に変化しないパターンと、動的パターン、例えば、経時的に変化するパターンと、に分類することができる。両方の場合において、パターンの一態様は、照明レベルの投影パターンである。これは関連性がある。その理由は、深度カメラシステムの深度ダイナミックレンジ(depth dynamic range)に影響を及ぼし得るからである。例えば、光照明がハイレベルである場合、深度測定を(例えば、距離の逆2乗に比例する因子によって物までの距離に亘る光照明の減衰を克服するために)明るい周囲光の状況の下で遠くの物から行うことができる。しかしながら、高い光照明レベルによって、クローズアップされたシーンの部分に飽和が生じることがある。それに対し、低い照明レベルによって、近くの物の測定を可能にするが、遠くの物の測定ができない。
状況次第で、深度カメラシステムは、二つの構成要素:取り外し可能なスキャニング部及び表示部を有する。一部の実施の形態において、表示部は、スマートフォン、タブレット、携帯端末又は他の同様なシステムのようなコンピュータシステムである。分離可能なスキャニング部及び表示部を用いるスキャニングシステムは、例えば、2016年12月16日に米国特許庁に出願された米国特許出願公開第15/382,210号明細書の「スクリーンから分離可能なスキャニングセンサを有するスキャニング装置(Scanning Apparatus including Scanning Sensor Detachable from Screen)」に更に詳しく記載されており、その開示の全体を参照によりここに組み込む。
本発明の実施の形態をここでは立体深度カメラシステムに関連して説明するが、本発明の実施の形態は、それに限定されず、構造化された光飛行時間型カメラ及びLIDARカメラのような他の深度カメラシステムと共に用いられてもよい。
カメラの選択に応じて、3Dモデルを生成するために種々の技術を用いてもよい。例えば、Dence Tracking and Mapping in Real Time(DTAM)は、スキャニングのためにカラーキューを用いるものであり、Simultaneous Localization and Mappingは、3Dモデルを生成するために深度データ(又は深度とカラーの組合せのデータ)を用いるものである。
図3は、本発明の一実施の形態によるスクリーンから切り離されているスキャニングセンサ(又はカメラ)を有する3Dスキャニングシステム50を用いて固定位置の物20をスキャンするシステム及び方法をユーザの観点から示す。特に、図3は、八つの異なる時点で物20の周辺の八つの異なる物理的位置の単一のスキャニングセンサモジュール100を示す。スキャニングセンサモジュール100とスキャニング装置200の間の破線は、二つのハードウェアの間のデータ接続を表し、この場合、スキャニング装置200は、データ接続を介してコマンドをスキャニングセンサモジュール100に送信することができ、スキャニングセンサモジュール100は、画像を含むデータをスキャニング装置200に送信することができる。
図3でわかるように、ユーザ22は、(右手として図3に示すように)一方の手にスキャニングセンサモジュール100(例えば、カメラ)を保持してもよく、(左手として図3に示すように)他方の手にスキャニング装置200(例えば、スマートフォン、タブレットコンピュータ、携帯端末又はディスプレイを有する他の携帯装置)を保持してもよい。図3に示すように、ユーザは、スキャニング装置200の位置を変えることなくスキャニングセンサを物の前から物の後ろに動かしてもよい。ユーザがスキャニングセンサを用いて物20(図3に示すようなティッシュボックス)をスキャンする間、スキャニング装置200は、ビュー202(例えば、リアルタイムビュー)、すなわち、スキャニングセンサモジュールによってキャプチャした画像の表現を表示する。図3に示すように、ユーザは、物20のトップダウンビューを更に有してもよいが、ユーザ22は、物20のサイドビューを有するようにするためにスキャニングセンサモジュール100を配置してもよい。図3に示すスキャニング装置200のビュー202は、位置100vのスキャニングセンサモジュール100によってキャプチャしたサイドビュー画像に対応する。これにより、ユーザ22は、スキャニング装置200のディスプレイのビュー202の眺めを維持するためにユーザの身体をねじる必要なく物20を更に容易かつ楽にスキャンすることができる。したがって、ユーザは、スキャニングセンサによってキャプチャしたデータに関するリアルタイムフィードバックを受け取り、これによって、トップを含む物の全てのサイドがスキャニングセンサによって撮影されることを保証するのを助ける。
このフィードバックがない場合、ユーザは、物の有用な画像をキャプチャし損なう方向にスキャニングセンサをうっかり向けることがある。例えば、ユーザは、天井又は床の画像をうっかりキャプチャすることがある又は背景の画像をキャプチャすることがある。さらに、カメラ及びディスプレイが互いに堅く固定された比較撮像システム(comparative imaging system)において、カメラの視野と撮像システムのディスプレイの観察方向の間の一定の関係によって、ユーザは、物の全てのサイドをスキャニングしながらスクリーンの観察を維持するのが困難になることがある。
一旦、スキャンされたものの3次元形状がスキャニングシステムによって取得及び処理されると、クリーンな3次元モデルを取得するために一部の修正を行うことができる。3次元モデルは、テクスチャ情報(例えば、カラー情報)に関連してもよい。そのようなモデルをメッシュとして表現してもよい。テクスチャモデルを作成することは、非テクスチャモデルを作成することより複雑である。その理由の一部は、テクスチャモデルの観察者がフォトリアリズム及びテクスチャをメッシュの表面に合わせることの追加の課題のために更に高い予測を有することがあるからである。測光誤差最小化及びグラフカット最適化に基づく種々の技術を、テクスチャモデルに適用してもよく、一部の実施の形態において、そのような技術を、スキャナそれ自体ではなくサーバによって実行してもよい。
図4A及び図4Bは、スキャニングシステムによってキャプチャした3次元モデルの例である。図4Aは、茶色の靴のテクスチャモデルであり、RGG−IR深度カメラシステムによってキャプチャされたものである。図4Bは、ダッフルバックの非テクスチャモデルであり、テクスチャ化を行うことなく(例えば、可視光又はRGBセンサなしでIRセンサのみを有する深度カメラシステムによって)キャプチャされたものである。生成したモデルを、“ply”フォーマット又は“obj”フォーマットのような標準的なフォーマットで格納してもよく、ビュアーソフトウェアを用いて表示装置に表示することができる。一部の実施の形態において、ビューイングソフトウェアを、TheeJSビュアーを用いる場合のように(例えば、ウェブブラウザによって実行される)ウェブベースのものとしてもよい。
3次元モデルの格納
本発明の実施の形態の一態様によれば、3次元(3D)モデルのような一連の既存のメディアドキュメントがデータベースに格納されている。(3Dモデルのような)供給されたメディアドキュメントのメタデータを生成するとき、供給されたメディアドキュメントに類似するメディアドキュメントについてデータベースに対するクエリーが行われ、類似するエントリーが結果として戻される。
データベース構成
本発明の実施の形態の一態様によれば、データベースは、K個の異なる種類に分けられたN個のエントリー(N個のメディアドキュメント)を格納する。エントリーの数(N)は数百万程度であってもよく、種類の数(K)は、数千又は数万程度であってもよい。K個の種類を階層的なツリー状構造に分けてもよく、その一部を表1に示す。
一実施の形態によれば、データベースの各エントリーは、名前、一つ以上の種類、一つ以上のタグ、テキスト記述及び視覚情報を含むメタデータに関連する。
名前欄は、エントリーのメディアドキュメントの特定の名前である。例えば、メディアドキュメントが特定のタイプの車の3Dモデルであるとき、車のフルネーム(例えば、年式、製造、型及びストリングに連結したトリム(trim concatenated into a string))を特定することができる。
種類欄は、特定のエントリーに関連するK個の種類の一つ以上の種類を識別する。特に、K個の種類がツリー状構造に階層的に分けられる場合、エントリーがある種類に属するときには、当該エントリーは、ツリーの特定の種類より上からツリーのルートまでの種類の全てに属する。表1に示す“Washcloths”は、そのすぐ前の親の種類“Towels”並びに更に上の種類の“Bathing”及び“Baby”に属する。
一つ以上のタグは、特定のエントリーに関連するキーワード(例えば、非階層的な単語又は語句)に対応する。これらは、例えば、製品の色の記述(例えば、赤、白及び黄)、パターン(例えば、格子柄、縞模様及びギンガム)、材料(例えば、綿、ポリエステル、混合物)、サイズ、又は、種類のような階層に適合しない他の記述を含んでもよい。
テキスト記述欄は、物語形式で型を記述してもよく、人間が読めるように書き込まれていてもよいが、エントリーのテキスト検索に用いてもよい。
メディア情報欄は、メディアドキュメントそれ自体(又は、更に広く見れば、特定の画像、特定の3Dモデル、特定の録音又は特定のビデオのようなエントリーに関連する特定のデジタルメディアドキュメント)に対応してもよい。
一部の実施の形態によれば、名前、種類及び視覚情報のようなこれらのメタデータ欄の一部は必須であるのに対して、タグ及びテキスト記述のような他のメタデータ欄は任意である。所定のエントリーに対するメタデータ欄の一部又は全てを、ユーザによって手動で入力してもよい又は後に詳しく説明するように自動的に生成してもよい。
自動的なメタデータ追加のためのデータベース検索
本発明の実施の形態の一態様は、所定の入力メディアドキュメントのメタデータを生成するために所定の入力メディアドキュメントに類似するエントリーの上述したデータベースの検索の実行を対象とする。
本開示の文脈において、クエリー及びエントリーの用語を以下で考察する。エントリーは、データベースに既に存在するとともにメタデータが利用できるメディアドキュメント(例えば、3Dモデル、画像、録音又はビデオ)である(又はそれに関連する)。それに対し、クエリーは、データベースに存在しないとともにデータベースに既に存在するエントリー又はモデルのメタデータからの情報を組み合わせることによってメタデータ欄の一部又は全てが満たされることが所望されるメディアドキュメント(例えば、3次元モデル)である。追加されるメタデータ欄がクエリーの種類である場合を、クエリーのメディアドキュメントの分類と称する。
画像のデータベースにクエリーを行う技術は、一般的には、二つの異なる形式:(一つ以上の種類を画像に割り当てる)画像分類及び(クエリー画像に関するデータベースの最も類似する画像入力を識別する)画像検索に含まれる。一つの共通画像データベースは、数百万の画像及び数千の異なる種類を有するImageNet(例えば、J.Deng,W.Dong,R.Socher,L.−J.Li, and L.Fei−Fei,ImageNet:A Large−Scale Hierachical Image Database.IEEE Computer Vision and Pattern Recognition(CVPR),2009参照)である。画像分類及び検索を行う技法は、畳み込みニューラルネットワーク(例えば、A.Krizhevsky,I.Sutskever,G.E.Hinton,“Imagenet Classification with deep convolutional neural networks”,Advances in Neural Information Processing Systems,2012,Y.LeCun,B.Boser,J.S.Denker,D.Henderson,R.E.Howard,W.Hubbard,L.D.Jackel,“Backpropagation applied to handwritten zip code recognition”,Neural Computation,1989及びC.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,A.Rabinovich,“Going deeper with convolutions”,CVPR,2015参照)及び階層ベイズモデル(例えば、L.Fei−Fei,P.Perona,“A Bayesian hierarchical model for learning natural scene categories”,CVPR,2005)を用いる技術を有する。
さらに、録音と、ビデオの音声成分とを、録音を画像に変換するとともに音声の一つ以上のスペクトログラム(例えば、音声の各チャネルに対する一つのスペクトログラム)を作成することによる特徴抽出のために畳み込みニューラルネットワークに供給することができる。
便宜上、限定を行うことなく、CNNを、入力画像が与えられたときに2次元(2D)畳み込み、非線形マッピング、Max−pooling集約(Max−pooling aggregations)及び(一般的に特徴ベクトルと称される)値又は特徴のベクトルを算出するための接続のような動作のセットを実行するシステムとみなすことができる。特に、クエリー画像に対する予測される特徴ベクトルは、大次元(例えば、4096の値)の(一般的には浮動小数点又は固定小数点の数値としてコード化される)値のベクトルである。特徴ベクトルを、入力画像の「シグネチャー」とみなすことができ、特徴ベクトルは、同じ種類の物の特徴ベクトルが特徴ベクトル空間に近接するポイントであるという特性を有する(例えば、類似の特徴ベクトルを有する)。特徴ベクトルを、入力画像のメタデータの一つ以上の種類の推定を取得するために分類器(例えば、ソフトマックス分類器)によって用いることができる。したがって、分類器によって算出される分類を、どの種類が所定の画像に関連するかを識別するために用いることができる。
分類を算出するために特徴ベクトルを分類器に供給することに加えて、特徴ベクトルを、画像検索に用いることもできる。類似する画像が類似する特徴ベクトルを有するので、データベースのエントリーは、エントリーの特徴ベクトルが特徴ベクトル空間のクエリー画像の特徴ベクトルに近接する場合にはクエリー画像に類似し、「近接」又は「類似」を、L又はLメトリック(LorL metric)のような標準メトリック(standard metric)に関連して算出することができる。大次元の特徴ベクトル空間が与えられる場合、特徴ベクトルは、主成分分析(PCA)又は線形判別分析(LDA)のような次元減少の技術を適用することによって更に計算的に扱いやすくすることができる。
2次元画像と類似するやり方で、3次元モデルを、テクスチャ化されているかテクスチャ化されていないかに関係なく、畳み込みニューラルネットワーク又は分類器を用いる分類又は検索に関連して考察することもできる。
したがって、本発明の実施の形態の一態様は、メタデータを取得するために類似のメディアドキュメントに関連するエントリーを検索するためのクエリーのメディアドキュメントからの情報を用いることに関する。特に、本発明の実施の形態の一態様は、畳み込みニューラルネットワークを用いてメディアドキュメントから特徴ベクトルを抽出するためにメディアドキュメントを作成することに関する。抽出した特徴ベクトルを、メディアドキュメントを分類するために分類器に供給することができる又は特徴ベクトル空間の類似のメディアドキュメントを検索するのに用いてもよい。
図5は、本発明の一実施の形態によるメディアドキュメントのメタデータを生成する方法500のフローチャートである。図5に示す方法を、スキャナ100のホストプロセッサ108、サーバ(例えば、スキャナ100にローカルなコンピュータ又は「クラウド」のデータセンタのコンピュータ)又は(一部の動作がスキャナのホストプロセッサ108によって実行されるとともに他の動作がサーバによって実行される場合の)その組合せによって実行してもよい。便宜上、動作を、「プロセッサ」によって実行されるものとして説明し、プロセッサがホストプロセッサ108であるかサーバのプロセッサであるかについての限定はない。
動作510において、プロセッサは、プロセッサが受け取ったメディアドキュメントの特徴ベクトルを算出する。場合によっては、メディアドキュメントは、スキャニング処理の間にスキャナ100によってキャプチャされた3Dモデルであってもよい。他の場合において、メディアドキュメントを、第三者(例えば、異なるスキャニング装置によってキャプチャされた3Dモデル)から検索してもよい、コンピュータ支援設計ツールを用いて手動で生成してもよい、又は、コンピュータ支援設計ツールを用いて修正したスキャンモデルとしてもよい。
上述したように、クエリーのメディアドキュメントが2D画像であり、データベースのメディアドキュメントも2D画像である場合、2D画像を、トレーニングされた(例えば、2D画像でトレーニングされた)CNNに直接供給してもよい。メディアドキュメントが録音である場合又はメディアドキュメントが音声成分を含む録画である場合、プロセッサは、音声を一つ以上のスペクトログラムに変換し、入力としての一つ以上のスペクトログラムを、トレーニングされた(例えば、録音のスペクトログラムでトレーニングされた)CNNに供給する。
クエリーのメディアドキュメントが3Dモデルであり、データベースが一連の2D画像を格納する場合、一つ以上の特徴ベクトルを3Dモデルから抽出することができる。例えば、一実施の形態において、3Dモデルは、複数の2D画像を生成するために複数の視点からレンダリングされ、2D画像の各々を、3Dモデルに関連する(2Dビューから抽出される)複数の特徴ベクトルを生成するために、トレーニングされたCNNに供給してもよい。したがって、3Dモデルを、2D画像のデータベースに対してクエリーを行うのに用いることができる。図6Aは、本発明の一実施の形態による3Dモデルをボクセル化することによりメディアドキュメントが3Dモデルである場合に特徴ベクトルを算出する方法を示すフローチャートであり、図6Bは、ボクセル化を用いた3DモデルへのCNNの適用を視覚的に示す。図6A及び図6Bを参照すると、動作610において、プロセッサは、例えば、rotating calipersアルゴリズムを3Dモデルに適用することによって3Dモデルの周辺の境界ボックス612を規定する。
動作630において、プロセッサは、3Dモデルを表すボクセルのセットを生成するためにモデルをボクセル化する。一実施の形態において、ボクセル化処理の間に、プロセッサは、境界ボックスを、ボクセルと称するサブユニットに分割する。例えば、境界ボックスを、256=16,777,216ボクセルの総数に対して一辺に256ボクセルを有する立方体としてもよいが、本発明の実施の形態は、それに限定されず、十分に大きくしてもよい。各ボクセルは、(例えば、2進数ボクセル化で)3Dモデルの一部がボクセル内に含まれるか否かを表す値に関連してもよく、他の場合において、各ボクセルは、3Dモデルによって占有されるボクセルの比又は割合(例えば、整数値又は浮動小数点ボクセル化)を表す値(例えば、8進数)に関連してもよい。図6Bは、ボクセル化された3Dモデル632を示す。
本発明の一実施の形態によれば、動作630は、ボクセル化を行う前に「好適なビュー」を識別するために特徴を推定すること又は主成分分析を行うことを更に有する。ボクセル化の前にモデルの一貫した好適なビューを識別することは、略類似する物(又は同一の物)の二つの異なる3Dモデルが(例えば、略同一の座標空間にそって規定されるボクセルを用いて)同一の視点からボクセル化される可能性を上げ、これによって、回転不変性(例えば、回転した物のモデルを認識するシステムの能力)を提供する。
動作650において、プロセッサは、動作630で生成されたボクセルから特徴ベクトルを生成する。本発明の一実施の形態によれば、特徴ベクトル654は、トレーニングされた畳み込みニューラルネットワークにボクセルを供給することによって算出される。ボクセル表示を3Dテンソルとみなすことができるので、ボクセルを入力としてCNNに直接供給することができ、この場合、CNNは、ボクセル化された3Dモデルに基づいてトレーニングされる。図6Bに示す破線の立方体は、畳み込み動作を表す。図6Bに示すように、特徴ベクトル654を、ボクセル化された3Dモデル612の分類656を生成するために分類器に供給することもできる。
本発明の他の実施の形態によれば、3Dモデルについての形状及び文字情報を、複数の方向又は視点からモデルをレンダリングすることによってコード化する。図7Aは、本発明に一実施の形態による種々の視点又は方向からの3Dモデルの複数のビューをレンダリングすることによりメディアドキュメントが3Dモデルである場合に特徴ベクトルを算出する方法を示すフローチャートであり、図7Bは、複数のビューからレンダリングした3DモデルへのCNNの適用を視覚的に示す。
図7A及び図7Bを参照すると、動作710において、プロセッサは、3Dモデルの複数の2次元(2D)ビュー712を生成するために複数の角度から3Dモデルをレンダリングする。類似特徴推定又は主成分分析技術を、3Dモデルの複数の2Dビューを生成する3Dモデルの「好適なビュー」を識別するために適用してもよい。動作730において、プロセッサは、複数の対応する単一ビュー特徴ベクトル(2Dビューの単一のものに対応する特徴ベクトル)を生成するために2Dビューの各々を畳み込みニューラルネットワーク732に供給する。一部の実施の形態において、図7Bに示すように、各ビューに対して個別の畳み込みニューラルネットワークが存在する。他の実施の形態において、ビューの各々を、同一の畳み込みニューラルネットワークに供給する。動作750において、ビュー追加層752は、2Dビュー又は画像から算出した単一ビュー特徴ベクトルを集める。ビュー追加層752は、システムの追加の柔軟性を可能にする。その理由は、ビュー追加層752によって追加の特徴ベクトルの長さが3Dモデルのビューの数に依存しなくなるからである。
動作770において、プロセッサは、特徴ベクトル774を算出するために最終段階CNN772を適用する。特徴ベクトル774を、3Dモデルのビューの分類776を生成するために分類器に供給してもよい。
クエリーのメディアドキュメントが同一の物の一つ以上の2D画像を有するとともにデータベースが一連の3Dモデルである場合、一連の3Dモデルの特徴ベクトルと比較することができる特徴ベクトルを生成するために、一つ以上の特徴ベクトルを2D画像から抽出してもよい。本発明の一実施の形態において、例えば、既に簡潔に説明するとともにR.Szeliski.“Computer Vision:Algorithms and Applications”,Springer,2010で更に詳しく説明されているブロックマッチングのような立体アルゴリズムを用いて3Dモデルを合成するために、2D画像が用いられる。この場合、図6A、図6B、図7A及び図7Bに関連して上述した技術のようにクエリーのメディアドキュメントが3Dモデルである手法と略類似する手法で、特徴ベクトルを、合成された3Dモデルから抽出することができる。
動作530において、プロセッサは、入力メディアドキュメントについて算出した特徴ベクトルに類似する特徴ベクトルを有するデータベースのメディアドキュメントを検索する。上述したように、特徴ベクトルの「近接」又は「類似」を、L空間のp−ノルム(p−norm)のような多次元距離メトリック(例えば、二つのベクトルx及びxに対して、
)に関連して算出することができる。例えば、Lは、「タクシー(taxicab)」空間又は「マンハッタン空間」の距離に対応し、Lは、ユークリッド空間の距離に対応する。一実施の形態において、プロセッサは、二つの特徴ベクトル(例えば、クエリーモデルの特徴ベクトル及びデータベースのエントリーの一つのモデルの特徴ベクトル)の間の距離(又は相違)を表すメトリックがしきい値未満であるときに二つの特徴ベクトルは類似することを決定する。
本発明の一実施の形態において、クエリーのメディアドキュメントの特徴ベクトルとデータベースの各エントリーの特徴ベクトルとを比較することによって、類似するメディアドキュメントがデータベースで識別される。本発明の他の実施の形態によれば、類似するエントリーは、特徴ベクトルの類似に基づいてデータベースにおいてグループ化(又はビニング)される。最初の検索は、クエリーのメディアドキュメントに類似するエントリーの一つ以上のビンを識別してもよく、この場合、エントリーの識別されたビンの各々のエントリーの全てを、クエリーのメディアドキュメント特徴ベクトルに類似するものとみなしてもよい。クエリーのメディアドキュメントの特徴ベクトルと識別されたビンの各々の各エントリーの各特徴ベクトルとを比較することによって、検索を更に精緻化することができる。
本発明の一実施の形態において、エントリーのメディアドキュメントが3Dモデルであるとともにエントリーのデータベースが一連の3Dモデルを含む場合、類似する3Dモデルは、Iterative Closest Point(ICP)技術を適用することによってデータベースにおいて識別される。一般的には、Iterative Closest Pointは、(例えば、3Dモデルに対応する)二つのポイントクラウドを調整することを試みる。IPC技術の一つの副産物は、あるポイントクラウドのポイントと他のポイントクラウドのポイントの間の距離のマップである。したがって、一実施の形態において、類似メトリックは、ポイントクラウドのポイント間の平均距離のような距離の統計値に対応する。
クエリーのメディアドキュメントが同一の物の一つ以上の2D画像を有するとともにデータベースが一連の3Dモデルである一実施の形態において、動作510において抽出した特徴ベクトルを、一つ以上の2D画像の各々に対して個別の特徴ベクトルとしてもよく、複数の異なる視点から3Dモデルの各々をレンダリングするとともに、各々が異なる視点に対応する一つ以上の特徴ベクトルを生成するために3Dモデルの個別のレンダリングしたビューの各々を畳み込みニューラルネットワークに供給することによって、複数の特徴ベクトルを、データベースの3Dモデルの各々に対して生成することができる。この場合、クエリーの2D画像と3Dモデルの間の類似を計算するために、クエリーの2D画像から抽出した特徴ベクトルを(例えば、上述したL又はLメトリックを用いて)3Dモデルの2Dビューの特徴ベクトルと比較してもよい。
メタデータを推論するのに用いることができる検索した物の更に関連するセットにつながるために、クエリー結果の検索したエントリーのセットをユーザに表示するとともにユーザによって手動で精緻化することもできる。
本発明の実施の形態の一態様によれば、クエリーが部分的に満たされたメタデータを有する場合において、動作530の類似するエントリーについてのデータベースを検索することは、クエリーメタデータの部分的に満たされた欄に類似するメタデータを含むエントリーを検索することを含んでもよい。類似するエントリーのメタデータを、クエリーのメタデータの満たされていない部分のメタデータを生成するために用いることができる。
例えば、クエリーは、メタデータ<title=“black BMW m3 2016”,class=“car”,tags=“”,text=“”>を有することができる。そのようなクエリーにおいて、“title”エントリー及び“class”エントリーが満たされており、“tags”エントリー及び“text”エントリーが満たされていない。“tags”及び“text”の満たされていないエントリー並びに潜在的な更に詳しい種類を、“title”及び“class”の利用できる欄に基づいて類似するエントリーに対してデータベースを検索することによって自動的に生成することができる。特に、データベースを、クエリーのメタデータのtitleに類似するtitleを有するclass“car”のエントリーに対して検索することができる。例えば、エントリーのタイトルがクエリーのタイトルの少なくとも75%を含む場合、データベースのエントリーのタイトルは、十分に類似しているものとみなしてもよい。他の例として、レーベンシュタイン距離又は他の距離メトリック(例えば、編集距離メトリック)を、タイトルの比較を行うのに用いてもよく、この場合、しきい値距離より下の距離を有するエントリーを類似しているものとみなしてもよい。
動作550において、類似するエントリーのタグ及びテキストメタデータ欄が判断され、そのコンテンツは、クエリーのメタデータの満たされていない欄に追加を行うタグ及びテキスト欄を自動的に生成するために併合される。一実施の形態において、検索したエントリーの全てのタグを列挙するとともに少なくとも二つのアイテムが出現するタグのみを保持することによってタグを取得することができ、意味的テキスト分析技術によってテキストを取得することができる。一実施の形態において、生成したメタデータの種類欄は、分類器によって特徴ベクトルに対して算出された分類(例えば、図6Bに示す分類656又は図7Bに示す分類776)を用いることによって満たされる。
例えば、再び図1を参照すると、検索したエントリー12並びにそれに対応する種類及びタグメタデータを、以下の表2に示す。
本発明の一部の実施の形態によれば、生成したメタデータに少なくともしきい値の回数が出現するタグを追加するという規則を適用する。表2に示すように、タグ“Jeep”,“convertible”及び“sport”の全ては、結果のタグに2回出現し、その結果、しきい値が2であると仮定される。これらの三つのタグを、生成したメタデータのタグに追加する。タグ“blue”、“red”及び“black&white”は、結果に1回しか出現せず、したがって、これらは、生成したメタデータのタグに追加されない。タグ“black&white”がクエリーの3Dモデルの色を正確に反映するとしても、結果は、このタグを生成したメタデータに含めるには十分でない。
検索の結果に少なくとも2回出現するメタデータを生成したメタデータに追加する例をここで説明するが、本発明の実施の形態はそれに限定されない。例えば、プロセッサを、多数の結果(例えば、最も類似する10個のエントリー)を検索するように構成してもよく、結果に出現する種類又はタグを追加するためのしきい値を少なくとも四つの結果としてもよい。他の実施の形態において、種類又はタグを追加するためのしきい値を、少なくとも50%のようなタグ又は種類を含む結果の最大割合として設定してもよい。
本発明の一部の実施の形態によれば、生成したメタデータの種類欄を、クエリー結果に少なくとも2回出現する種類を用いて又はクエリー結果のほとんどに出現する種類に基づいて満たしてもよい。表2に示すように、種類“car”は、結果の三つに出現し、種類“cap”は、結果の一つに出現する。したがって、生成したメタデータは、種類“car”を有するが種類“cap”を有しない。
本発明の一部の実施の形態によれば、種類をメディアドキュメントに割り当てるためにクエリー結果の種類を用いるのものではなく、クエリーのメディアドキュメントの特徴ベクトルが、一つ以上の分類(例えば、分類656又は分類776)を生成するために分類器(例えば、データベース内のエントリーについてトレーニングされた分類器)に供給される。分類を、複数の値として表すことができ、この場合、各値は、メディアドキュメントが特定の種類に属するという信頼性を表す。例えば、図1に示すクエリーの分類は、クエリーがcarを表現することについての高い信頼性、クエリーがcapを表現することについての低い信頼性及びクエリーがdogを表現することについてのゼロの信頼性を表すことができる。
動作570において、プロセッサは、メディアドキュメントに対する生成したメタデータを出力する。これは、例えば、メディアドキュメントに関連して表示装置にメタデータを表示することを含んでもよい。ユーザは、自動的に生成したメタデータを視察し、生成したメタデータが結果に対して妥当であること(例えば、種類、タグ、名前及びテキスト記述がメディアドキュメントの性質を正確に反映していること)が正しいことを確認し、必要であれば生成したメタデータを編集してもよい。
上述したように、一部の状況において、クエリーが一部のメタデータに既に関連していてもよい。しかしながら、クエリーのメディアドキュメントの特徴ベクトルとデータベースのエントリーの特徴ベクトルとの類似に基づいて他のメタデータを識別する処理を通じて、追加の関連のメタデータを自動的に生成してもよい。さらに、クエリーのメタデータの誤りを、自動的に生成したメタデータに基づいて訂正してもよい。
生成したメタデータを、他の用途に用いるためにメディアドキュメントに関連して保存してもよい。
ポリシーによって制限される検索
本発明の実施の形態の一態様は、アクセスポリシーに従ってデータベースの検索を制限することに関する。例えば、データベースに対してクエリーを行う種々のユーザは、ポリシーに基づいて、ユーザがアクセスすることができるデータベースの一部のみを検索することができる。例えば、5人のユーザ<a1,a2,a3,b1,b2>が存在し、ユーザ<a1,a2,a3>がグループAに属し、ユーザ<b1,b2>がグループBに属し、三つのセットのエントリー(又は三つのセットのメディアドキュメント)<dbA,dbB,dbC>によってデータベースが構成され、dbAは、グループAのメンバーによって見ることができ、dbBは、グループBのメンバーによって見ることができ、dbCは、グループAとグループBの両方のメンバーによって見ることができる場合、ユーザb1は、dbB及びdbCのエントリーのみの検索が許可(許容)され、dbAのエントリーへのアクセスが許可されない(拒否される)(したがって、検索は、dbAのエントリーに対して実行されない。)。したがって、ユーザb1によって行われる検索は、dbB及びdbCのエントリーに限定される。これらのポリシーを、メタデータの異なる欄に異なるように適用することもできる。例えば、ユーザb1は、タグ及びタイトル欄を追加するためにデータベース全体において検索することが許可されるが、テキスト欄を追加するためにdbB及びdbCしか検索することが許可されない。これらのポリシーの適用は、例えば、テキスト及び視覚情報、分類された情報、機密情報及び成人向け又は安全でない資料検索制限のデジタル著作権の行使を含む。
データベースへのエントリーの自動挿入
本発明の実施の形態の一態様によれば、クエリーのメディアドキュメント及びそれの自動的に生成したメタデータは、新たなエントリーとしてのデータベースへの挿入の候補を形成し、したがって、別のクエリーのメタデータの検索及び生成に更に用いることができるエントリーとなる。
しかしながら、検索後に自動的に追加したクエリーの欄が、データベースにエントリーを追加するユーザによって確認される場合、これは、供給されたメタデータ欄の品質がデータベースのエントリーとして安全に用いるのに十分高いことを保証するのに十分でないことがある。例えば、メタデータの誤りによって、新たに不正確にタグが付けられたエントリーによって追加のエントリーに不正確にタグが付けられるというカスケード効果が生じることがあり、これによって、後のクエリーに不正確にタグが付けられる可能性が高くなる。これは、これらのエントリーが分類器のトレーニングに用いられる場合に特に当てはまる。
したがって、高品質のメタデータ欄によって特徴付けられたクエリーのみがデータベースのエントリーとして組み込まれる可能性を高くするために、本発明の一実施の形態によれば、新たなエントリーに審査期間(probation time)及びデモクラティックバリデーション(democratic validation)が課される。そのような実施の形態において、クエリーは、一時的にエントリーとしてデータベースに追加される。この一時的なエントリーが異なるユーザからの次のクエリーの消失メタデータの追加に用いられるとともにユーザが自動的に満たされたメタデータ欄の正当性を確認する場合、このエントリーは、有効であるとみなされ、データベースの正規のエントリーのプールに追加される。他の実施の形態において、エントリーのプールに追加する準備ができているメディアドキュメントは、それが検索結果に出現することができる前にデータベースのアドミニストレータによって正当性が確認される。
自動的なメタデータの生成を伴うモデルキャプチャの例
明瞭のために、本発明の一実施の形態による3次元(3D)モデルをキャプチャするとともにモデルのメタデータを自動的に生成する処理の限定されない例を、図8に関連して以下で説明する。
図8は、本発明の一実施の形態によるモデルをキャプチャするとともにモデルのメタデータを自動的に生成する工程を示すフローチャートである。
便宜上、以下の例は、2017年6月22日に米国特許庁に出願された米国特許出願公開第15/630,715号明細書に記載されたタイプのスキャニングシステムのような3Dスキャナの使用を仮定し、その開示の全体を参照によりここに組み込む。そのような3Dスキャナは、3次元物体の形状及び文字情報を取得することができる。
動作810において、3Dスキャナは、ランプのような特定の物理的な3次元物体の3次元的な形状及び文字を取得する。3Dモデルを生成するためにキャプチャした未加工データ(例えば、2次元画像)の3D形状及び文字を算出するための計算の一部を3Dスキャナで行うことができ、それに対し、残りの部分を、ローカルサーバ又はリモートサーバで行うことができる。この動作の出力は、特定の物のテクスチャード加工の3次元モデル(3Dモデル)(例えば、ランプの3Dモデル)である。
動作820において、3Dモデルのデータベースは、キャプチャした3Dモデルを用いることによってクエリーが行われる。例えば、本発明の一実施の形態によれば、キャプチャした3Dモデル(例えば、キャプチャしたランプのモデル)は、ローカルサーバ又はリモートサーバにアップロードされ、ローカルサーバ又はリモートサーバは、この3Dモデルの検索を、分類及びラベル付けされた3Dモデルのデータベースに対して行う。便宜上、データベースのモデルの全てのメタデータ欄(例えば、名前、種類、タグ及びテキスト記述)の全てが追加されるとともにクエリーモデルのメタデータ欄のいずれも追加されないと仮定する。
データベースのクエリーを、図5の動作510及び520に示すのと略同一の手法で行ってもよい。動作510において、特徴ベクトルを、トレーニングされた畳み込みニューラルネットワーク(CNN)を用いながらクエリーの3Dモデルに基づいて算出(又は抽出)する(そのようなデータベースでトレーニングされたCNNの重みを再算出してもよく、データベースの3Dモデルの各々の特徴ベクトルを、同一のCNNを用いて再算出してもよく、これらの特徴ベクトルをデータベースに格納してもよい。)。したがって、クエリーの3Dモデルの特徴ベクトルを、分類及び検索のために用いることができる。
動作830において、クエリーの3Dモデルに対してメタデータ欄を自動的に生成する。上述したように、分類を、クエリー3Dモデルの特徴ベクトルが分類器に供給されるときのクエリーの3Dモデルの種類のセットとしてもよく、検索出力を、(例えば、類似する特徴ベクトルを有する)クエリーモデルに類似する3Dモデルを有するエントリーのセットとしてもよい。このような類似するエントリーモデルのセットを、名前、タグ及びテキスト記述のような種類以外のメタデータ欄の自動的な追加に用いることができる。
動作840において、クエリーとして供給された3Dモデルの自動的に生成したメタデータ欄の全てがサーバによって追加されるとともに検証のためにユーザに対して表示される。動作850において、ユーザは、サーバによって提示されたメタデータの自動的に生成した値を検証及び修正する。一旦、メタデータが検証(場合によっては編集)されると、結果的に得られるメタデータを動作860で出力することができ、3Dモデルは、3次元モデルを有する電子商取引リスティングの作成のような他の状況で用いられ、この場合、自動的に生成したメタデータを、電子商取引リスティングの種々の箇所を自動的に満たすために用いることができる。
電子商取引アプリケーションのメディアドキュメント
上述したように、自動的に生成したメタデータを有する3次元(3D)モデルのようなメディアドキュメントのメタデータを自動的に生成するアプリケーションの一例は、電子商取引アプリケーションにおけるものである。特に、販売される製品の3Dモデルを提供することは、ショッピング体験を向上させることができ、その結果、顧客が3D環境内で仮想的に商品を扱うことができるようにすることによる顧客の契約が増加し、これによって、製品のサイズ及び形状の更に実体験のように感じる理解を提供する。さらに、販売される製品の2D画像は、普通であり、購入者によって典型的に予測される。
製品についての視覚情報(例えば、画像及び3次元モデル)に加えて、電子商取引アプリケーションにおけるリスティングは、一般的には、名前(又はタイトル)、テキスト記述、タグ(又はキーワード)のような多量の関連のデータを含み、(通常カテゴリーと称される)種類に分かれている。特に、大規模な電子商取引のウェブサイトにおいて、リスティングカテゴリーは、数千以上ほどになることができ、サブカテゴリー関係を作成するツリー構造に分かれており、リストされた製品のそれぞれは一つ以上のカテゴリーに属する。
したがって、販売者が販売中の製品をリストすることを所望するとき、販売者は、販売する製品のメタデータ欄を満たす必要がある。一般的には、これは、手動の処理であり、製品リスティングページによって要求される情報を収集するとともに書式を埋めるのにかなりの時間及び労力を必要とすることがある。特に、リスティングがモバイルプラットフォーム(例えば、スマートフォン)から作成されるとき、この動作は、時間がかかるとともに面倒である。
したがって、本発明の実施の形態の態様による自動的なメタデータ生成によって、電子商取引ポスティング(e−commerce postings)のメタデータ欄を、キャプチャしたメタデータ(例えば、製品の写真又は物の3Dスキャン)を用いて自動的に追加することができる。本発明の一実施の形態を2次元画像及び3次元モデル本発明の実施の形態は、それに限定されず、ビデオのような他の形態のメディアに適用されてもよい(例えば、特徴ベクトルを、2D画像又は3Dモデルではなくビデオから抽出してもよく、結果的に得られる特徴ベクトルを、類似するエントリーからメタデータを自動的に検索するために画像に表された物を分類するとともに類似する物の画像及び/又はビデオを識別するのに用いてもよい。)。
このような種々のメタデータ欄(タイトル、種類、タグ、テキスト記述)の自動的な追加を、リスティングの自己更新構造化データベース(self−updating organized database)によって取得し、これによって、効率的な分類動作及び検索動作を可能にする。
本発明を所定の例示的な実施の形態に関連して説明したが、本発明が開示した実施の形態に限定されず、添付した特許請求の範囲の精神及び範囲並びにその等価物に含まれる種々の変形及び等価の配置をカバーすることを意図することを理解すべきである。

Claims (20)

  1. メディアドキュメントのメタデータを自動的に生成する方法であって、
    コンピュータによって、畳み込みニューラルネットワークを用いて前記メディアドキュメントの特徴ベクトルを算出することであって、前記メディアドキュメントは、3次元(3D)モデルであり、前記特徴ベクトルを算出することは、
    前記コンピュータによって、前記3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から前記3Dモデルをレンダリングすることと、
    前記コンピュータによって、一つ以上の畳み込みニューラルネットワークを用いて、各々が前記3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、
    統合された特徴ベクトルを算出するために、前記コンピュータによって、前記2Dビューに対応する前記複数の単一ビュー特徴ベクトルを集約することであって、前記統合された特徴ベクトルは、前記2Dビューの数に依存しない一定の長さを有することと、
    前記コンピュータによって、最終段階の畳み込みニューラルネットワークを用いて、前記統合された特徴ベクトルから前記特徴ベクトルを算出することと、
    を備えることと、
    前記コンピュータによって、前記メディアドキュメントの前記特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、前記一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、
    前記コンピュータによって、前記一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいて前記メディアドキュメントのメタデータを生成することであって、生成されたメタデータは、前記一つ以上のマッチングメディアドキュメントの数なくとも一つのしきい値のメタデータに出現する前記メタデータの部分を含むことと、
    前記コンピュータによって、生成したメタデータに関連して前記メディアドキュメントを表示することと、
    を備える方法。
  2. 前記一群のメディアドキュメントは、一群の2次元(2D)画像を備え、
    前記特徴ベクトルを算出することは、前記コンピュータによって、前記3Dモデルの一つ以上の特徴ベクトルを算出することを備え、
    前記一つ以上のマッチングメディアドキュメントは、前記一群の2D画像の一つ以上のマッチング2D画像を備え、
    前記マッチング2D画像の対応する特徴ベクトルの各々は、前記3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似する請求項に記載の方法。
  3. 前記コンピュータによって、3次元スキャナを用いて前記3Dモデルをキャプチャすることを更に備え、前記3次元スキャナは、
    二つ以上の赤外(IR)カメラと、
    一つ以上のIRコリメート照明と、
    を備える請求項に記載の方法。
  4. 前記コンピュータによって、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを更に備える請求項1に記載の方法。
  5. 生成したメタデータ及び前記メディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を備え、
    前記メタデータを生成することは、
    前記コンピュータによって、前記複数の欄の各欄に対して、前記一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、
    前記コンピュータによって、識別したデータを生成したメタデータに追加することと、
    を備える請求項1に記載の方法。
  6. 生成したメタデータは、メディアドキュメントの種類を備え、
    前記コンピュータによって、前記メディアドキュメントの種類を算出するために前記メディアドキュメントの特徴ベクトルを分類器に供給することと、
    前記コンピュータによって、分類に基づいて前記種類を算出することと、
    を備える請求項1に記載の方法。
  7. 前記コンピュータによって、前記メディアドキュメント及び生成したメタデータメタデータを前記一群のメディアドキュメントに追加することを更に備える請求項1に記載の方法。
  8. 前記一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間における前記メディアドキュメントの特徴ベクトルからの対応する距離を有し、
    前記対応する距離の各々は、しきい値距離未満である請求項1に記載の方法。
  9. 前記コンピュータによって、前記メディアドキュメントに関連するメタデータを受け取ることを更に備え、
    前記一群のメディアドキュメントを検索することは、前記コンピュータによって、前記メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する前記一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを備え、
    前記マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを備える請求項1に記載の方法。
  10. 前記一群のメディアドキュメントは、第1のセットのメディアドキュメント及び第2のセットのメディアドキュメントを備え、
    ユーザに関連するアクセスポリシーによって、前記第1のセットのメディアドキュメントへのアクセスを許可するとともに前記第2のセットのメディアドキュメントへのアクセスを拒否し、
    前記一群のメディアドキュメントを検索することは、前記第1のセットのメディアドキュメントに限定される請求項1に記載の方法。
  11. メディアドキュメントのメタデータを自動的に生成するシステムであって、
    プロセッサと、
    前記プロセッサによって実行されるときに、
    畳み込みニューラルネットワークを用いて前記メディアドキュメントの特徴ベクトルを算出することであって、前記メディアドキュメントは、3次元(3D)モデルであり、前記特徴ベクトルを算出することは、
    前記3Dモデルの複数の2次元(2D)ビューをレンダリングするために複数の角度から前記3Dモデルをレンダリングすることと、
    一つ以上の畳み込みニューラルネットワークを用いて、各々が前記3Dモデルの2Dビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、
    統合された特徴ベクトルを算出するために、前記2Dビューに対応する前記複数の単一ビュー特徴ベクトルを集約することであって、前記統合された特徴ベクトルは、前記2Dビューの数に依存しない一定の長さを有することと、
    最終段階の畳み込みニューラルネットワークを用いて、前記統合された特徴ベクトルから前記特徴ベクトルを算出することと、
    を備えることと、
    前記メディアドキュメントの前記特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、前記一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、
    前記一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいて前記メディアドキュメントのメタデータを生成することであって、生成されたメタデータは、前記一つ以上のマッチングメディアドキュメントの数なくとも一つのしきい値のメタデータに出現する前記メタデータの部分を含むことと、
    生成したメタデータに関連して前記メディアドキュメントを表示することと、
    を前記プロセッサによって実行させる格納された命令を有するメモリと、
    を備えるシステム。
  12. 前記一群のメディアドキュメントは、一群の2次元(2D)画像を備え、
    前記特徴ベクトルを算出することの命令は、前記プロセッサによって実行されるときに、前記3Dモデルの一つ以上の特徴ベクトルを算出することを前記プロセッサによって実行させる命令を備え、
    前記一つ以上のマッチングメディアドキュメントは、前記一群の2D画像の一つ以上のマッチング2D画像を備え、
    前記マッチング2D画像の対応する特徴ベクトルの各々は、前記3Dモデルの一つ以上の特徴ベクトルの少なくとも一つに類似する請求項11に記載のシステム。
  13. 二つ以上の赤外(IR)カメラと、
    一つ以上のIRコリメート照明と、
    を備える3次元スキャナを更に備え、前記メモリは、前記プロセッサによって実行されるときに、3次元スキャナを用いて前記3Dモデルをキャプチャすることを前記プロセッサによって実行させる命令を更に格納する請求項11に記載のシステム。
  14. 前記メモリは、前記プロセッサによって実行されるときに、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを前記プロセッサによって実行させる命令を更に格納する請求項11に記載のシステム。
  15. 生成したメタデータ及び前記メディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を備え、
    前記メタデータを生成することの命令は、前記プロセッサによって実行されるときに、
    前記複数の欄の各欄に対して、前記一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、
    識別したデータを生成したメタデータに追加することと、
    を前記プロセッサによって実行させる命令を備える請求項11に記載のシステム。
  16. 生成したメタデータは、メディアドキュメントの種類を備え、
    前記メモリは、前記プロセッサによって実行されるときに、
    前記メディアドキュメントの種類を算出するために前記メディアドキュメントの特徴ベクトルを分類器に供給することと、
    分類に基づいて前記種類を算出することと、
    を前記プロセッサによって実行させる命令を更に格納する請求項11に記載のシステム。
  17. 前記メモリは、前記プロセッサによって実行されるときに、前記メディアドキュメント及び生成したメタデータメタデータを前記一群のメディアドキュメントに追加することを前記プロセッサによって実行させる命令を更に格納する請求項11に記載のシステム。
  18. 前記一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間における前記メディアドキュメントの特徴ベクトルからの対応する距離を有し、
    前記対応する距離の各々は、しきい値距離未満である請求項11に記載のシステム。
  19. 前記メモリは、前記プロセッサによって実行されるときに、前記メディアドキュメントに関連するメタデータを受け取ることを前記プロセッサによって実行させる命令を更に格納し、
    前記一群のメディアドキュメントを検索することの命令は、前記プロセッサによって実行されるときに、前記メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する前記一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを前記プロセッサによって実行させる命令を備え、
    前記マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを備える請求項11に記載のシステム。
  20. 前記一群のメディアドキュメントは、第1のセットのメディアドキュメント及び第2のセットのメディアドキュメントを備え、
    ユーザに関連するアクセスポリシーによって、前記第1のセットのメディアドキュメントへのアクセスを許可するとともに前記第2のセットのメディアドキュメントへのアクセスを拒否し、
    前記一群のメディアドキュメントを検索することは、前記第1のセットのメディアドキュメントに限定される請求項11に記載のシステム。
JP2019507781A 2016-08-12 2017-08-11 メディアドキュメントのメタデータを自動的に生成するシステム及び方法 Active JP6810247B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662374598P 2016-08-12 2016-08-12
US62/374,598 2016-08-12
PCT/US2017/046642 WO2018031959A1 (en) 2016-08-12 2017-08-11 Systems and methods for automatically generating metadata for media documents

Publications (2)

Publication Number Publication Date
JP2019530062A JP2019530062A (ja) 2019-10-17
JP6810247B2 true JP6810247B2 (ja) 2021-01-06

Family

ID=61160193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507781A Active JP6810247B2 (ja) 2016-08-12 2017-08-11 メディアドキュメントのメタデータを自動的に生成するシステム及び方法

Country Status (7)

Country Link
US (2) US10296603B2 (ja)
EP (2) EP3497550B1 (ja)
JP (1) JP6810247B2 (ja)
CN (2) CN116484029A (ja)
ES (1) ES2941259T3 (ja)
PL (1) PL3497550T3 (ja)
WO (1) WO2018031959A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242474B2 (en) 2015-07-15 2019-03-26 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US10222932B2 (en) 2015-07-15 2019-03-05 Fyusion, Inc. Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations
US11095869B2 (en) * 2015-09-22 2021-08-17 Fyusion, Inc. System and method for generating combined embedded multi-view interactive digital media representations
US10147211B2 (en) 2015-07-15 2018-12-04 Fyusion, Inc. Artificially rendering images using viewpoint interpolation and extrapolation
US11006095B2 (en) 2015-07-15 2021-05-11 Fyusion, Inc. Drone based capture of a multi-view interactive digital media
US11783864B2 (en) 2015-09-22 2023-10-10 Fyusion, Inc. Integration of audio into a multi-view interactive digital media representation
US10496897B2 (en) * 2015-11-25 2019-12-03 Institute Of Automation Chinese Academy Of Sciences Method and apparatus for recognizing RGB-D objects based on adaptive similarity measure of dense matching item
CN107025642B (zh) * 2016-01-27 2018-06-22 百度在线网络技术(北京)有限公司 基于点云数据的车辆轮廓检测方法和装置
US11202017B2 (en) 2016-10-06 2021-12-14 Fyusion, Inc. Live style transfer on a mobile device
US10437879B2 (en) 2017-01-18 2019-10-08 Fyusion, Inc. Visual search using multi-view interactive digital media representations
US10313651B2 (en) * 2017-05-22 2019-06-04 Fyusion, Inc. Snapshots at predefined intervals or angles
US11069147B2 (en) 2017-06-26 2021-07-20 Fyusion, Inc. Modification of multi-view interactive digital media representation
CN107609152B (zh) * 2017-09-22 2021-03-09 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
US10579875B2 (en) * 2017-10-11 2020-03-03 Aquifi, Inc. Systems and methods for object identification using a three-dimensional scanning system
US10713563B2 (en) * 2017-11-27 2020-07-14 Technische Universiteit Eindhoven Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering
US10586118B2 (en) 2018-01-13 2020-03-10 Toyota Jidosha Kabushiki Kaisha Localizing traffic situation using multi-vehicle collaboration
US10963706B2 (en) * 2018-01-13 2021-03-30 Toyota Jidosha Kabushiki Kaisha Distributable representation learning for associating observations from multiple vehicles
US10916135B2 (en) 2018-01-13 2021-02-09 Toyota Jidosha Kabushiki Kaisha Similarity learning and association between observations of multiple connected vehicles
US20190251744A1 (en) * 2018-02-12 2019-08-15 Express Search, Inc. System and method for searching 3d models using 2d images
US11062469B2 (en) 2018-03-09 2021-07-13 Microsoft Technology Licensing, Llc 4D tracking utilizing depth data from multiple 3D cameras
US11429658B1 (en) * 2018-04-11 2022-08-30 Soroco Private Limited Systems and methods for content-aware image storage
US11367222B2 (en) 2018-04-20 2022-06-21 Hewlett-Packard Development Company, L.P. Three-dimensional shape classification and retrieval using convolutional neural networks and majority vote
US10592747B2 (en) 2018-04-26 2020-03-17 Fyusion, Inc. Method and apparatus for 3-D auto tagging
WO2019232645A1 (en) * 2018-06-07 2019-12-12 Element Ai Inc. Unsupervised classification of documents using a labeled data set of other documents
US10817270B2 (en) 2018-08-02 2020-10-27 Oracle International Corporation AI-generated instant micro apps
DE112019004364T5 (de) * 2018-08-29 2021-06-02 Movidius Ltd. Computer-vision system
US11507052B2 (en) * 2018-09-24 2022-11-22 The Boeing Company System and method of voxel based parametric specification for manufacturing a part
US10810725B1 (en) 2018-12-07 2020-10-20 Facebook, Inc. Automated detection of tampered images
EP3899784A4 (en) 2018-12-19 2022-10-19 Packsize, LLC SYSTEMS AND METHODS FOR COMMON LEARNING COMPLEX VISUAL INSPECTION TASKS USING COMPUTER VISION
US20200202622A1 (en) * 2018-12-19 2020-06-25 Nvidia Corporation Mesh reconstruction using data-driven priors
EP3980916A4 (en) * 2019-06-06 2023-06-21 Bluebeam, Inc. METHODS AND SYSTEMS FOR AUTOMATIC DESIGN ELEMENT DETECTION IN A TWO-DIMENSIONAL DESIGN DOCUMENT
JP7448566B2 (ja) 2019-06-14 2024-03-12 マジック リープ, インコーポレイテッド クロスリアリティシステムにおけるスケーラブル3次元オブジェクト認識
US11537816B2 (en) * 2019-07-16 2022-12-27 Ancestry.Com Operations Inc. Extraction of genealogy data from obituaries
JP7410613B2 (ja) * 2019-08-27 2024-01-10 キヤノン株式会社 情報処理装置およびその制御方法およびプログラム
CN111191052B (zh) * 2019-12-24 2023-12-22 广州索答信息科技有限公司 一种数据采集方法、设备及介质
CN111243085B (zh) * 2020-01-20 2021-06-22 北京字节跳动网络技术有限公司 图像重建网络模型的训练方法、装置和电子设备
US11430042B2 (en) * 2020-04-30 2022-08-30 Capital One Services, Llc Methods and systems for providing a vehicle recommendation
US11240707B2 (en) 2020-05-28 2022-02-01 Toyota Motor Engineering & Manufacturing North America, Inc. Adaptive vehicle identifier generation
CN116324783A (zh) * 2020-08-20 2023-06-23 西门子工业软件公司 用于在cad环境中提供三维计算机辅助设计(cad)模型的方法和系统
US11232298B1 (en) * 2021-08-18 2022-01-25 IAA, Inc. Automated data extraction and document generation
JP2023062237A (ja) * 2021-10-21 2023-05-08 アセントロボティクス株式会社 対象デジタルツインモデル生成システム、ロボットの制御システム、仮想店舗生成システム、対象デジタルツインモデル生成方法、ロボットの制御方法、および仮想店舗生成方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06223198A (ja) * 1993-01-26 1994-08-12 Hitachi Ltd 光線追跡による画像生成装置及び方法
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US6525699B1 (en) 1998-05-21 2003-02-25 Nippon Telegraph And Telephone Corporation Three-dimensional representation method and an apparatus thereof
JP4516957B2 (ja) * 2003-01-25 2010-08-04 パーデュー リサーチ ファンデーション 3次元オブジェクトについて検索を行なうための方法、システムおよびデータ構造
US9900478B2 (en) * 2003-09-04 2018-02-20 Flir Systems, Inc. Device attachment with infrared imaging sensor
US8166059B2 (en) * 2005-07-08 2012-04-24 Oracle International Corporation Optimization of queries on a repository based on constraints on how the data is stored in the repository
WO2009003225A1 (en) * 2007-06-29 2009-01-08 Adelaide Research & Innovation Pty Ltd Method and system for generating a 3d model from images
AU2009281762A1 (en) * 2008-08-15 2010-02-18 Brown University Method and apparatus for estimating body shape
US8340453B1 (en) * 2008-08-29 2012-12-25 Adobe Systems Incorporated Metadata-driven method and apparatus for constraining solution space in image processing techniques
US8411953B2 (en) * 2008-09-30 2013-04-02 International Business Machines Corporation Tagging images by determining a set of similar pre-tagged images and extracting prominent tags from that set
US8686992B1 (en) * 2009-03-30 2014-04-01 Google Inc. Methods and systems for 3D shape matching and retrieval
US20110222757A1 (en) * 2010-03-10 2011-09-15 Gbo 3D Technology Pte. Ltd. Systems and methods for 2D image and spatial data capture for 3D stereo imaging
CN101827203B (zh) * 2010-03-29 2012-05-30 天津大学 一种视频标注方法
US8485668B2 (en) * 2010-05-28 2013-07-16 Microsoft Corporation 3D interaction for mobile device
US8457355B2 (en) * 2011-05-05 2013-06-04 International Business Machines Corporation Incorporating video meta-data in 3D models
WO2013036181A1 (en) * 2011-09-08 2013-03-14 Telefonaktiebolaget L M Ericsson (Publ) Assigning tags to media files
CN103164463B (zh) * 2011-12-16 2017-03-22 国际商业机器公司 推荐标签的方法和装置
US9008433B2 (en) 2012-02-08 2015-04-14 International Business Machines Corporation Object tag metadata and image search
GB2514320B (en) * 2013-03-15 2020-01-29 3D Industries Ltd A method and system for 3D model database retrieval
US9117104B2 (en) * 2013-07-10 2015-08-25 Cherif Algreatly Object recognition for 3D models and 2D drawings
US9905043B2 (en) * 2013-09-10 2018-02-27 Microsoft Technology Licensing, Llc Techniques to generate digital maps
GB2514432B (en) 2013-10-02 2015-05-27 Cybertooling Ltd Floor height adjustment
US20150142782A1 (en) * 2013-11-15 2015-05-21 Trendalytics, Inc. Method for associating metadata with images
WO2015083199A1 (en) * 2013-12-04 2015-06-11 J Tech Solutions, Inc. Computer device and method executed by the computer device
WO2015085435A1 (fr) * 2013-12-15 2015-06-18 Socovar, Société En Commandite Méthode et système de comparaison de modèles 3d
EP2886043A1 (de) * 2013-12-23 2015-06-24 a.tron3d GmbH Verfahren zum Fortsetzen von Aufnahmen zum Erfassen von dreidimensionalen Geometrien von Objekten
US9311737B1 (en) * 2014-01-17 2016-04-12 Pixar Temporal voxel data structure
US9392262B2 (en) 2014-03-07 2016-07-12 Aquifi, Inc. System and method for 3D reconstruction using multiple multi-channel cameras
KR20170031656A (ko) * 2014-07-08 2017-03-21 삼성전자주식회사 화상을 이용해 3차원 정보를 처리하는 전자 장치 및 방
US9747493B2 (en) * 2014-09-23 2017-08-29 Keylemon Sa Face pose rectification method and apparatus
CN104391960B (zh) * 2014-11-28 2019-01-25 北京奇艺世纪科技有限公司 一种视频标注方法及系统
GB2532948B (en) 2014-12-02 2021-04-14 Vivo Mobile Communication Co Ltd Object Recognition in a 3D scene
US9858484B2 (en) * 2014-12-30 2018-01-02 Facebook, Inc. Systems and methods for determining video feature descriptors based on convolutional neural networks
ITUB20153277A1 (it) * 2015-08-28 2017-02-28 St Microelectronics Srl Procedimento per ricerche visuali, sistema, apparecchiatura e prodotto informatico corrispondenti
US9773302B2 (en) * 2015-10-08 2017-09-26 Hewlett-Packard Development Company, L.P. Three-dimensional object model tagging
CN105243139B (zh) * 2015-10-10 2018-10-23 天津大学 一种基于深度学习的三维模型检索方法及其检索装置
US10482681B2 (en) * 2016-02-09 2019-11-19 Intel Corporation Recognition-based object segmentation of a 3-dimensional image
CN107066559B (zh) * 2017-03-30 2019-12-27 天津大学 一种基于深度学习的三维模型检索方法

Also Published As

Publication number Publication date
CN109791554B (zh) 2023-05-09
EP3497550A1 (en) 2019-06-19
US20190236096A1 (en) 2019-08-01
EP4195069A1 (en) 2023-06-14
US10528616B2 (en) 2020-01-07
EP3497550B1 (en) 2023-03-15
CN116484029A (zh) 2023-07-25
CN109791554A (zh) 2019-05-21
PL3497550T3 (pl) 2023-07-24
JP2019530062A (ja) 2019-10-17
ES2941259T3 (es) 2023-05-19
WO2018031959A1 (en) 2018-02-15
US10296603B2 (en) 2019-05-21
US20180046649A1 (en) 2018-02-15
EP3497550A4 (en) 2020-03-11

Similar Documents

Publication Publication Date Title
JP6810247B2 (ja) メディアドキュメントのメタデータを自動的に生成するシステム及び方法
US10691979B2 (en) Systems and methods for shape-based object retrieval
Sun et al. Pix3d: Dataset and methods for single-image 3d shape modeling
JP7458405B2 (ja) 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法
US11922580B2 (en) Floorplan generation based on room scanning
US20190096135A1 (en) Systems and methods for visual inspection based on augmented reality
CN113436136A (zh) 以对象为中心的扫描
US20190188451A1 (en) Lightweight 3D Vision Camera with Intelligent Segmentation Engine for Machine Vision and Auto Identification
JP2016537901A (ja) ライトフィールド処理方法
US11574485B2 (en) Automatic measurements based on object classification
US20200057778A1 (en) Depth image pose search with a bootstrapped-created database
US9208606B2 (en) System, method, and computer program product for extruding a model through a two-dimensional scene
Zhang et al. Research on 3D architectural scenes construction technology based on augmented reality
US20160042233A1 (en) Method and system for facilitating evaluation of visual appeal of two or more objects
Kim et al. Multimodal visual data registration for web-based visualization in media production
Panek et al. Visual localization using imperfect 3d models from the internet
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
Xu et al. MPR-GAN: A novel neural rendering framework for MLS point cloud with deep generative learning
Kriegler et al. Evaluation of monocular and stereo depth data for geometry-assisted learning of 3D pose
Liu et al. Synthesis and identification of three-dimensional faces from image (s) and three-dimensional generic models
Takamatsu et al. A study on depth map generation using a light field camera and a monocular RGB camera based on deep learning
Sathirasethawong Light Field Imaging and Reconstruction Tools for Small Objects
San Accurate dense depth from light field technology for object segmentation and 3D computer vision
Nilosek Analysis and exploitation of automatically generated scene structure from aerial imagery
Duenas Oviedo et al. Colour Hue and Texture Evaluation for 3D Symbolization of Indoor Environments Using RGB-D Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201210

R150 Certificate of patent or registration of utility model

Ref document number: 6810247

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250