JP6810247B2

JP6810247B2 - メディアドキュメントのメタデータを自動的に生成するシステム及び方法

Info

Publication number: JP6810247B2
Application number: JP2019507781A
Authority: JP
Inventors: ダルムットーカルロ; メーモアルビーゼ; グエンダック; ラフィーアッバス; トラチュウスキージェイソン
Original assignee: アキフィ，インコーポレイティド
Priority date: 2016-08-12
Filing date: 2017-08-11
Publication date: 2021-01-06
Anticipated expiration: 2037-08-11
Also published as: CN109791554B; EP3497550A1; US20190236096A1; EP4195069A1; US10528616B2; EP3497550B1; CN116484029A; CN109791554A; PL3497550T3; JP2019530062A; ES2941259T3; WO2018031959A1; US10296603B2; US20180046649A1; EP3497550A4

Description

この出願は、２０１６年８月１２日に米国特許庁に出願された米国仮出願第６２／３７４，５９８号の利益を主張し、その全開示を参照によりここに組み込む。

本発明の実施の形態の態様は、画像及び３Ｄモデルタグ付けを含むデジタルメディアタグ付け及び分類の分野並びに関連のユーザインタフェースシステムに関する。

画像、録音及びビデオのような種々のタイプのデジタルメディアドキュメント（ｄｉｇｉｔａｌｍｅｄｉａｄｏｃｕｍｅｎｔ）は、デジタルメディアドキュメントのテキスト記述を含むメタデータを含む。このメディアデータは、タイムスタンプ並びに関連のデジタルメディアドキュメントのコンテンツの文書による記述（ｎａｒｒａｔｉｖｅｄｅｓｃｒｉｐｔｉｏｎ）のような情報を含んでもよい。これらのメタデータを、検索クエリーに関連するメディアドキュメントを識別するためにテキストベース検索を行うときに用いることができる。メタデータを、デジタルメディアドキュメントをカテゴリー化又は分類するのに用いることもできる。

一例として、デジタル写真に関連するメタデータは、画像の（画素の）寸法及び画像の色深度（ｃｏｌｏｒｄｅｐｔｈ）のような技術情報並びに写真のコンテンツを記述するメタデータを含むことができる。森のハイカーの写真に関連するメタデータは、「林」、「森」、「木」、「植物」、「葉（ｇｒｅｅｎ）」、「影」、「花」、「遠足（ｈｉｋｅ）」、「ハイカー」、「ハイキング」等のような写真のコンテンツのテキスト記述を含むことができる。

３次元（３Ｄ）モデルは、デジタルメディアドキュメントの他の形態であり、広告アプリケーション、品質管理アプリケーション、ビデオゲームアプリケーション、仮想現実アプリケーション及び拡張現実アプリケーションのようなコンテンツで一般的に用いられている。従来、３Ｄモデルを、例えば、コンピュータ支援設計（ＣＡＤ）ツールを用いることによって手動で生成していた。これらのモデルを作成することは、一般的には、詳細なモデルを作成するときに特にたくさんの人手を要する仕事である。近年、深度カメラ及び３Ｄスキャナが代替的なアプローチとして設けられ、この場合、詳細な３Ｄモデルを、実在する対象物の形状のデジタルキャプチャを通じて作成することができる。

ＣＡＤツール、深度カメラ及び３Ｄスキャナを用いて生成した三次元モデルは、メタデータタグ付けから利益を得ることもできる。例えば、３Ｄモデルを、電子商取引ウェブサイトの商品リスティングに用いることができ、３Ｄモデルに関連するメタデータを、関連の商品リスティングの情報を生成又は追加するのに用いることができる。例えば、車両の３Ｄモデルは、車の型及び様式、内部及び外観の色、状態（例えば、へこみ又は損傷の存在）等のようなメタデータ情報を含むことができる。これらのメタデータを、買い物客が特定の色の特定のタイプの車を検索できるようにするために商品リスティングの情報に追加することができる。

しかしながら、各３Ｄモデルのこれらのメタデータを手動で生成することは、時間がかかり、一貫性がなくまとまりの悪い結果を生じさせるおそれがある。例えば、車が「赤色」のものとしてタグ付けされるのに対して、赤の色合いの実際の名称が「ルビー」となることがある。特定の型の名称の綴りのように車両についての他の情報が不正確となることがある。

本発明の実施の形態の態様は、メタデータによる３次元（３Ｄ）モデルの自動的な増強及びこれらの３Ｄモデルを収集及び生成するシステムを対象とする。

本発明の一実施の形態によれば、メディアドキュメントのメタデータを自動的に生成する方法であって、方法は、畳み込みニューラルネットワークを用いてメディアドキュメントの特徴ベクトルを算出することと、メディアドキュメントの特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチング（ｍａｔｃｈｉｎｇ）メディアドキュメントの一群のメディアドキュメントを検索することであって、一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいてメディアドキュメントのメタデータを生成することと、生成したメタデータに関連してメディアドキュメントを表示することと、を備える。

メディアドキュメントは、３次元（３Ｄ）モデルであってもよい。特徴ベクトルを算出することは、有界３Ｄモデルを生成するために３Ｄモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界３Ｄモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、を有してもよい。一群のメディアドキュメントは、一群の３次元（３Ｄ）モデルを有してもよく、一群のメディアドキュメントを検索することは、反復的な最近点技術に従って３Ｄモデルと一群の３Ｄモデルの一つの間の距離を算出することを有してもよい。特徴ベクトルを算出することは、３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から３Ｄモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、を有してもよい。一群のメディアドキュメントは、一群の２次元（２Ｄ）画像を有してもよく、特徴ベクトルを算出することは、３Ｄモデルの一つ以上の特徴ベクトルを算出することを有してもよく、一つ以上のマッチングメディアドキュメントは、一群の２Ｄ画像の一つ以上のマッチング２Ｄ画像を有してもよく、マッチング２Ｄ画像の対応する特徴ベクトルの各々は、３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。方法は、３次元スキャナを用いて３Ｄモデルをキャプチャすることを更に有してもよく、３次元スキャナは、二つ以上の赤外（ＩＲ）カメラと、一つ以上のＩＲコリメート照明と、を有してもよい。

メディアドキュメントは、一つ以上の２次元（２Ｄ）画像を有してもよく、一群のメディアドキュメントは、一群の３次元（３Ｄ）モデルを有してもよく、特徴ベクトルを算出することは、一つ以上の２Ｄ画像の一つ以上の特徴ベクトルを算出することを有してもよく、一つ以上のマッチングメディアドキュメントは、一群の３Ｄモデルの一つ以上のマッチング３Ｄモデルを有してもよく、マッチング３Ｄモデルの対応する特徴ベクトルの各々は、３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。特徴ベクトルを算出することは、一つ以上の２Ｄ画像から物の３Ｄモデルを算出することと、３Ｄモデルから特徴ベクトルを抽出することと、を有してもよい。３Ｄモデルから特徴ベクトルを抽出することは、有界３Ｄモデルを生成するために３Ｄモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界３Ｄモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、を有してもよい。

３Ｄモデルから特徴ベクトルを抽出することは、３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から３Ｄモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、を有してもよい。

方法は、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを更に有してもよい。

生成したメタデータ及びメディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を有してもよく、メタデータを生成することは、複数の欄の各欄に対して、一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、識別したデータを生成したメタデータに追加することと、を有してもよい。

生成したメタデータは、メディアドキュメントの種類を有してもよく、方法は、メディアドキュメントの種類を算出するためにメディアドキュメントの特徴ベクトルを分類器に供給することと、分類に基づいて種類を算出することと、を有してもよい。

方法は、メディアドキュメント及び生成したメタデータメタデータを一群のメディアドキュメントに追加することを更に有してもよい。

一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間におけるメディアドキュメントの特徴ベクトルからの対応する距離を有してもよく、対応する距離の各々は、しきい値距離未満であってもよい。

方法は、メディアドキュメントに関連するメタデータを受け取ることを更に有してもよく、一群のメディアドキュメントを検索することは、メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを有してもよく、マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを有してもよい。

一群のメディアドキュメントは、第１のセットのメディアドキュメント及び第２のセットのメディアドキュメントを有してもよく、ユーザに関連するアクセスポリシーによって、第１のセットのメディアドキュメントへのアクセスを許可するとともに第２のセットのメディアドキュメントへのアクセスを拒否し、一群のメディアドキュメントを検索することは、第１のセットのメディアドキュメントに限定される。

本発明の一実施の形態によれば、メディアドキュメントのメタデータを自動的に生成するシステムであって、プロセッサと、プロセッサによって実行されるときに、畳み込みニューラルネットワークを用いてメディアドキュメントの特徴ベクトルを算出することと、メディアドキュメントの特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいてメディアドキュメントのメタデータを生成することと、生成したメタデータに関連してメディアドキュメントを表示することと、をプロセッサによって実行させる格納された命令を有するメモリと、を有する。

メディアドキュメントは、３次元（３Ｄ）モデルであってもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、有界３Ｄモデルを生成するために３Ｄモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界３Ｄモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、をプロセッサによって実行させる命令を有してもよい。一群のメディアドキュメントは、一群の３次元（３Ｄ）モデルを有してもよく、一群のメディアドキュメントを検索することの命令は、プロセッサによって実行されるときに、反復的な最近点技術に従って３Ｄモデルと一群の３Ｄモデルの一つの間の距離を算出することをプロセッサによって実行させる命令を有してもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から３Ｄモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、をプロセッサによって実行させる命令を有してもよい。一群のメディアドキュメントは、一群の２次元（２Ｄ）画像を有してもよく、特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、３Ｄモデルの一つ以上の特徴ベクトルを算出することをプロセッサによって実行させる命令を有してもよく、一つ以上のマッチングメディアドキュメントは、一群の２Ｄ画像の一つ以上のマッチング２Ｄ画像を有してもよく、マッチング２Ｄ画像の対応する特徴ベクトルの各々は、３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。システムは、二つ以上の赤外（ＩＲ）カメラと、一つ以上のＩＲコリメート照明と、を備える３次元スキャナを更に有してもよく、メモリは、プロセッサによって実行されるときに、３次元スキャナを用いて３Ｄモデルをキャプチャすることをプロセッサによって実行させる命令を更に格納してもよい。

メディアドキュメントは、一つ以上の２次元（２Ｄ）画像を有してもよく、一群のメディアドキュメントは、一群の３次元（３Ｄ）モデルを有してもよく、特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、一つ以上の２Ｄ画像の一つ以上の特徴ベクトルを算出することをプロセッサによって実行させる命令を有してもよく、一つ以上のマッチングメディアドキュメントは、一群の３Ｄモデルの一つ以上のマッチング３Ｄモデルを有してもよく、マッチング３Ｄモデルの対応する特徴ベクトルの各々は、３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似してもよい。特徴ベクトルを算出することの命令は、プロセッサによって実行されるときに、一つ以上の２Ｄ画像から物の３Ｄモデルを算出することと、３Ｄモデルから特徴ベクトルを抽出することと、をプロセッサによって実行させる命令を有してもよい。３Ｄモデルから特徴ベクトルを抽出することの命令は、プロセッサによって実行されるときに、有界３Ｄモデルを生成するために３Ｄモデルの周辺に境界ボックスを規定することと、複数のボクセルを算出するために有界３Ｄモデルをボクセル化することと、ボクセルから特徴ベクトルを生成することと、をプロセッサによって実行させる命令を有してもよい。３Ｄモデルから特徴ベクトルを抽出することの命令は、プロセッサによって実行されるときに、３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から３Ｄモデルをレンダリングすることと、一つ以上の畳み込みニューラルネットワークを用いて、各々が３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、統合された特徴ベクトルを算出するために複数の単一ビュー特徴ベクトルを統合することと、最終段階の畳み込みニューラルネットワークを用いて、統合された特徴ベクトルから特徴ベクトルを算出することと、をプロセッサによって実行させる命令を有してもよい。

メモリは、プロセッサによって実行されるときに、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることをプロセッサによって実行させる命令を更に格納してもよい。

生成したメタデータ及びメディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を有してもよく、メタデータを生成することの命令は、プロセッサによって実行されるときに、複数の欄の各欄に対して、一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、識別したデータを生成したメタデータに追加することと、をプロセッサによって実行させる命令を有してもよい。

生成したメタデータは、メディアドキュメントの種類を有してもよく、メモリは、プロセッサによって実行されるときに、メディアドキュメントの種類を算出するためにメディアドキュメントの特徴ベクトルを分類器に供給することと、分類に基づいて種類を算出することと、をプロセッサによって実行させる命令を更に格納してもよい。

メモリは、プロセッサによって実行されるときに、メディアドキュメント及び生成したメタデータメタデータを一群のメディアドキュメントに追加することをプロセッサによって実行させる命令を更に格納してもよい。

メモリは、プロセッサによって実行されるときに、メディアドキュメントに関連するメタデータを受け取ることをプロセッサによって実行させる命令を更に格納してもよく、一群のメディアドキュメントを検索することの命令は、プロセッサによって実行されるときに、メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することをプロセッサによって実行させる命令を有してもよく、マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを有してもよい。

特許又は出願ファイルは、少なくとも一つのカラー図面を含む。（一つ以上の）カラー図面を有するこの特許又は出願刊行物は、請求及び必要な費用の支払いを行うことによって特許庁から提供される。

添付図面は、明細書と共に本発明の例示的な実施の形態を説明し、明細書共に本発明の原理を説明する役割を果たす。

本発明の一実施の形態によるメタデータのタグ及び種類の自動的な追加の例である。本発明の一実施の形態によるスキャナシステムのブロック図である。本発明の一実施の形態によるスクリーンから切り離されているカメラを有する３Ｄスキャニングシステムを用いて物をスキャンするシステム及び方法をユーザの観点から示す。スキャニングシステムによってキャプチャした３次元モデルの例である。スキャニングシステムによってキャプチャした３次元モデルの例である。本発明の一実施の形態によるメディアドキュメントのメタデータを生成する方法のフローチャートである。本発明の一実施の形態による３Ｄモデルをボクセル化することによりメディアドキュメントが３Ｄモデルである場合に特徴ベクトルを算出する方法を示すフローチャートである。ボクセル化を用いた３ＤモデルへのＣＮＮの適用を視覚的に示す。本発明に一実施の形態による種々の視点又は方向からの３Ｄモデルの複数のビューをレンダリングすることによりメディアドキュメントが３Ｄモデルである場合に特徴ベクトルを算出する方法を示すフローチャートである。複数のビューからレンダリングした３ＤモデルへのＣＮＮの適用を視覚的に示す。本発明の一実施の形態によるモデルをキャプチャするとともにモデルのメタデータを自動的に生成する工程を示すフローチャートである。

以下の詳細な説明において、本発明の所定の例示的な実施の形態のみを例示として示すとともに説明する。当業者が認識するように、本発明を、複数の種々の形態で実施してもよく、ここで説明する実施の形態に限定されるものと解釈すべきでない。明細書を通じて、同様な参照番号は同様な要素を表す。

本発明の実施の形態の態様は、２次元（２Ｄ）画像又は３次元（３Ｄ）モデルのようなメディアドキュメントのメタデータを自動的に生成するシステム及び方法を対象とする。３Ｄモデルを、後に詳しく説明するように深度カメラを有するスキャナシステムによって生成してもよい。本発明の実施の形態の一部の態様は、特徴ベクトルを生成するとともに分類のセットに従ってメディアドキュメントを分類するようにトレーニングされた又は構成された分類器に特徴ベクトルを供給するためにメディアドキュメントを特徴抽出装置に供給することに関する。本発明の実施の形態の更に別の態様は、類似する分類（例えば、類似する特徴ベクトル）を有する存在するメディアドキュメントを識別するために（例えば、データベースに格納された）一群のメディアドキュメントを検索することに関する。類似する分類を有するこれらのメディアドキュメントに関連するメタデータを、供給されたメディアドキュメントのメタデータを生成するのに用いることができる。

図１は、本発明の一実施の形態によるメタデータのタグ及び種類の自動的な追加の例である。図１に示すように、３Ｄモデル１０は、クエリーとして供給されるメディアモデルとして用いられる。示す例において、３Ｄモデル１０は、関連のメタデータを有しない。３Ｄモデル１０を含むクエリーに基づいて、本発明の実施の形態は、クエリーに供給された３Ｄモデル１０に類似する一連のメディアドキュメント（一連の３Ｄモデル）のエントリー１２を識別する。識別されるエントリー１２の各々は、種類１４ａ及びタグ１４ｂを含むメタデータ１４に関連する。例えば、第１のエントリーは、ｃｌａｓｓ“ｃａｒ”及びｔａｇ“Ｊｅｅｐ（登録商標），ｂｌｕｅ，ｓｐｏｒｔ”を有する青のスポーツユーティリティビークルのモデルを示す。第２のエントリーは、ｃｌａｓｓ“ｃａｒ”及びｔａｇ“Ｊｅｅｐ（登録商標），ｃｏｎｖｅｒｔｉｂｌｅ，ｒｅｄ”を有する赤のオープントップタイプのオフロード車のモデルを示す。第３のエントリーは、ｃｌａｓｓ“ｃａｐ”及びｔａｇ“ｂｌａｃｋ＆ｗｈｉｔｅ”を有する野球帽のモデルを示す。第４のエントリーは、ｃｌａｓｓ“ｃａｒ”及びｔａｇ“ｃｏｎｖｅｒｔｉｂｌｅ”及び“ｓｐｏｒｔ”を有する緑のオープントップタイプの車のモデルを示す。識別されるエントリー１２の少なくとも半分に出現するメタデータをマージすることによって、クエリーの供給された３Ｄモデル１０に対してメタデータ１６を生成することができる。

このやり方は、スキャナシステムによって生成される３Ｄモデルの場合に特に有用となることができ、この場合、そのように生成された３Ｄモデルは、車を販売するための広告（例えば、オンラインのオークションウェブサイトの商品リスティング）の車の３Ｄモデルを含むようにするために３Ｄスキャナシステムを用いて車の３Ｄモデルをキャプチャするユーザの場合のようにほとんどメタデータを有さなくてもよい。

このやり方によって、システムは、物の画像又は３Ｄモデルをキャプチャするユーザがどんな物であるか又は物が何と呼ばれているかを知らないときでも物を自動的に分類するとともにタグ付けすることもできる。

スキャナシステム
一般的には、スキャナシステムは、シーンからデータを収集するカメラのようなセンサを有するハードウェア装置を有する。スキャナシステムは、センサによって収集したデータからシーンの深度画像及び／又は３次元（３Ｄ）モデルを生成するコンピュータプロセッサ又は他の処理ハードウェアを有してもよい。

スキャナシステムのセンサを、例えば、通常のカラーカメラ、深度（又は距離）カメラ又は深度及びカラーカメラの組合せを含む多様な種々のタイプのカメラとしてもよい。後者は、典型的にはＲＧＢ−Ｄと称され、ＲＧＢは、カラー画像を表し、Ｄは、深度画像を表す（この場合、各画素は、シーンの深度（又は距離）情報を作成（ｅｎｃｏｄｅ）する。）。深度画像を、幾何学的方法又は電子的方法を含む種々の方法によって取得することができる。深度画像を、ポイントクラウドとして表してもよい又はポイントクラウドに変換してもよい。幾何学的方法の例は、受動型又は能動型ステレオカメラシステム及び構造化光カメラシステム（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔｃａｍｅｒａｓｙｓｔｅｍ）を含む。電子的方法の例は、飛行時間型（ＴＯＦ）カメラ、一般的なスキャニングカメラ又は固定ＬＩＤＡＲカメラを含む。

カメラのタイプに応じて、カメラによってキャプチャしたデータから深度画像を生成するために種々のアルゴリズムを用いてもよい。ＤｅｎｃｅＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｉｎＲｅａｌＴｉｍｅ（ＤＴＡＭ）と称される種類（ｃｌａｓｓ）のアルゴリズムは、キャプチャした画像のカラーキュー（ｃｏｌｏｒｃｕｅ）を用いるものであり、ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ（ＳＬＡＭ）と称される他の種類のアルゴリズムは、深度（又は深度と色の組合せ）データを用いるものであり、更に別の種類のアルゴリズムは、ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ（ＩＣＰ）及びその派生（ｄｅｒｉｖａｔｉｖｅ）に基づく。

図２に関連して更に詳しく説明するように、少なくとも一部の深度カメラシステムによって、ユーザは、物の全ての側面をキャプチャするために物の周辺でカメラを自由に動かすことができる。結合した深度画像を生成する基本アルゴリズムは、キャプチャしたデータを物又は物の部分的に構成した３Ｄモデルに合わせるために物に対するカメラの姿勢を追跡することができる及び／又は推測することができる。３次元の物をスキャンするシステム及び方法の一例は、２０１７年６月２２日に米国特許庁に出願された米国特許出願公開第１５／６３０，７１５号明細書に記載されており、その開示の全体を参照によりここに組み込む。

本発明の一部の実施の形態において、深度画像又は３Ｄモデルの構造化を、スキャナそれ自体によって局所的に行う。他の実施の形態において、有線又は無線接続（例えば、イーサネット（登録商標）接続、ＵＳＢ接続、セルラー式のデータ接続、ローカル無線ネットワーク接続及びブルートゥース（登録商標）接続）を介してスキャナからデータを受信することができる一つ以上のローカルサーバ又はリモートサーバによって処理を行う。

更に具体的な例として、スキャナをハンドヘルド３Ｄスキャナとしてもよい。そのようなハンドヘルド３Ｄスキャナは、あり得る大きい表面又は完全な物の３Ｄ表現を作成するために同一表面の複数の深度画像を記録することができるソフトウェアと共に深度カメラ（各画素によって撮像された表面要素の距離を算出するカメラ）を有してもよい。ハンドヘルド３Ｄスキャナのユーザは、ハンドヘルド３Ｄスキャナを物の周辺の種々の位置に動かすとともに物の表面の全ての位置をカバーするように（例えば、スキャナによって取得した少なくとも一つの深度画像において表面が見えるように）ハンドヘルド３Ｄスキャナを適応させる必要がある。さらに、各表面パッチが十分高い密度の深度測定を受け取ることが重要である（この場合、深度カメラの各画素はそのような深度測定を提供する。）。深度測定の密度は、カメラによって表面パッチが見られる距離及び深度カメラの視野方向又は光軸に対する表面の角度又は傾斜に依存する。

図２は、本発明の一実施の形態によるステレオ深度カメラとしてのスキャニングシステムのブロック図である。

図２に示すスキャニングシステム１００は、第１のカメラ１０２と、第２のカメラ１０４と、投影源１０６（又は照明源若しくは能動型投影システム）と、ホストプロセッサ１０８と、メモリ１１０と、を有し、ホストプロセッサを、例えば、グラフィックスプロセッシングユニット（ＧＰＵ）、更に一般的な汎用プロセッサ（ＣＰＵ）、適切に構成されたフィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）とすることができる。第１のカメラ１０２及び第２のカメラ１０４の相対位置及び向きを十分に固定するように第１のカメラ１０２及び第２のカメラ１０４を、例えば、フレームに堅く結合してもよい。第１のカメラ１０２及び第２のカメラ１０４を共に「深度カメラ」と称してもよい。第１のカメラ１０２及び第２のカメラ１０４は、対応するイメージセンサ１０２ａ及び１０４ａを有し、対応するイメージ信号プロセッサも有してもよい。種々の構成要素は、システムバス１１２を介して互いに通信を行ってもよい。スキャニングシステム１００は、画像を表示することができるようにするためのディスプレイ１１４、他の装置と通信を行うためのネットワークアダプタ１１６、スキャニングシステム１００の加速度を検出する（例えば、向きを決定するために重力の方向を検出するとともに位置変化を検出するために動きを検出する）ジャイロスコープのような慣性計測装置（ＩＭＵ）１１８並びにスキャニングシステム１００によって収集及び処理されるデータを格納するＮＡＮＤフラッシュメモリのような永続メモリ１２０のような追加の構成要素を有してもよい。ＩＭＵ１１８を、多数のモデムスマートフォンでよく見つかるタイプのものとしてもよい。イメージキャプチャシステムは、ユニバーサルシリアルバス（ＵＳＢ）インタフェースコントローラのような他の通信部品も有してもよい。

一部の実施の形態において、カメラ１０２のイメージセンサ１０２ａ及びカメラ１０４のイメージセンサ１０４ａは、ＲＧＢ−ＩＲイメージセンサである。可視光（例えば、赤−緑−青、すなわち、ＲＧＢ）及び不可視光（例えば、赤外、すなわち、ＩＲ）を検出することができるイメージセンサを、例えば、電荷結合素子（ＣＣＤ）センサ又は相補型金属酸化膜半導体（ＣＭＯＳ）センサとしてもよい。一般的には、通常のＲＧＢカメラセンサは、５０％が緑、２５％が赤及び２５％が青である「ベイヤー配列」、すなわち、「ＲＧＢＧ配列」で配置された画素を有する。バンドパスフィルタ（又は「マイクロフィルタ」）を、ベイヤー配列に従って緑、赤及び青のそれぞれに対して個別のフォトダイオードの前に（例えば、フォトダイオードとカメラに関連する光学系の間に）配置する。一般的には、通常のＲＧＢカメラセンサは、電磁スペクトルのＩＲ部分の信号を遮断する（レンズの一部としての又はイメージセンサチップの全体のコーティングとしての）赤外（ＩＲ）フィルタ又はＩＲカットフィルタも有する。

ＲＧＢ−ＩＲセンサは、通常のＲＧＢセンサに略類似するが、種々のカラーフィルタを有してもよい。例えば、ＲＧＢ−ＩＲセンサにおいて、四つのフォトダイオードの各グループの緑フィルタの一つを、２５％の緑、２５％の赤、２５％の青及び２５％の赤外である配列を形成するためにＩＲバンドパスフィルタ（又は「マイクロフィルタ」）と共に配置し、この場合、赤外画素を可視光画素の間に混ぜる。さらに、ＩＲカットフィルタをＲＧＢ−ＩＲセンサから省略してもよい、ＩＲカットフィルタを、赤色光、緑色光及び青色光を検出する画素の上にのみ配置してもよい、又は、ＩＲフィルタを、可視光及び特定の波長間隔（例えば、８４０〜８６０ｎｍ）の光を通過させるように設計することができる。電磁スペクトルの複数の部分、帯域又はスペクトル帯の光（例えば、赤色光、青色光、緑色光及び赤外光）をキャプチャすることができるイメージセンサを、ここでは、「マルチチャネル」イメージセンサと称する。

本発明の一部の実施の形態において、イメージセンサ１０２ａ及び１０４ａは、通常の可視光センサである。本発明の一部の実施の形態において、システムは、一つ以上の可視光カメラ（例えば、ＲＧＢカメラ）と、それとは別の一つ以上の不可視光カメラ（例えば、赤外カメラ、この場合、ＩＲバンドパスフィルタが全て画素の上に配置される）と、を有する。本発明の他の実施の形態において、イメージセンサ１０２ａ及び１０４ａは、赤外（ＩＲ）光センサである。

一般的に言えば、立体深度カメラシステムは、互いに離間するとともに堅いフレームのような共有構造に堅く取り付けられた少なくとも二つのカメラを有する。カメラは、略同一の方向に向けられ（例えば、カメラの光軸を略平行にしてもよい）、重複する視野を有する。これらの個別のカメラを、例えば、（例えば、一つ以上のレンズを有する）光学系を有する相補型金属酸化膜半導体（ＣＭＯＳ）イメージセンサ又は電荷結合素子（ＣＣＤ）イメージセンサを用いて実現することができ、光学系は、光をイメージセンサに向ける又はイメージセンサ上に光の焦点を合わせるように構成される。光学系は、例えば、光学系が「広角」レンズ、望遠レンズ又は中間のもの（ｓｏｍｅｔｈｉｎｇｉｎｂｅｔｗｅｅｎ）を実現するか否かに基づいてカメラの視野を決定することができる。

以下の考察において、深度カメラシステムの画像取得システムを、「マスター」カメラ及び一つ以上の「スレーブ」カメラと称することができる少なくとも二つのカメラを有するものとして説明する。一般的に言えば、推定される深度又は視差マップは、マスターカメラの視点から算出されるが、カメラのいずれかをマスターカメラとして用いればよい。ここで用いられるように、マスター／スレーブ、左／右、上／下、第１／第２及びＣＡＭ１／ＣＡＭ２は、特に断りのない限り互いに用いられる。換言すれば、カメラのいずれか一つをマスターカメラ又はスレーブカメラとすることができ、右のカメラに対する考察を、他の方向において対称的に左のカメラに適用することができる。さらに、後に説明する考察は、便宜上種々の数のカメラに対して有効であるが、考察を、一般的には、二つのカメラを有するシステムの状況で説明する。例えば、深度カメラシステムは、三つのカメラを有してもよい。そのようなシステムにおいて、カメラの二つは、不可視光（赤外）カメラであってもよく、第３のカメラは、可視光カメラ（例えば、赤／青／緑のカラーカメラ）であってもよい。三つ全てのカメラを互いに光学的に調整（例えば、較正）してもよい。三つのカメラを有する深度カメラシステムの一例は、２０１６年５月５日に米国特許庁に出願された米国特許出願公開第１５／１４７，８７９号明細書の「深度投影３眼カメラシステム（ＤｅｐｔｈＰｅｒｓｐｅｃｔｉｖｅＴｒｉｎｏｃｕｌａｒＣａｍｅｒａＳｙｓｔｅｍ）」に記載されており、その開示の全体を参照によりここに組み込む。

カメラによって撮影されたシーンの特徴の深度を検出するために、深度カメラシステムは、カメラによってキャプチャされた画像の各々の特徴の画素位置を決定する。二つの画像の特徴の間の距離は、視差と称され、それは、物の距離又は深度に反比例する。（これは、比較の際に物を１回に一つの目で見たときに物が「変化する」程度の影響であり、変化の大きさは、物が観察者の目からどの程度離れているかに依存し、物が近づくに従って変化が大きくなり、物が遠くなるに従って変化が小さくなり、遠方の物は、検出できる変化がほとんどない。）視差を用いて深度を算出する技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉによる“ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ”，Ｓｐｒｉｎｇｅｒ，２０１０ｐｐ．４６７ｅｔｓｅｑに記載されている。

マスターカメラとスレーブカメラの間の視差の大きさは、カメラのピクセル解像度（ｐｉｘｅｌｒｅｓｏｌｕｔｉｏｎ）、カメラの間の距離及びカメラの視野のような深度カメラシステムの物理的な特性に依存する。したがって、正確な深度測定を生成するために、深度カメラシステム（又は深度投影カメラシステム）は、これらの物理的特性に基づいて較正される。

一部の深度カメラシステムにおいて、カメラのイメージセンサの画素の水平行が略平行になるようにカメラを配置してもよい。画像修正技術を、カメラのレンズの形状及びカメラの向きの変化による画像の歪みを調整するのに用いることができる。

更に詳しくは、カメラ較正情報は、入力画像を修正するために情報を提供することができ、その結果、等価カメラシステムのエピポーラ線は、修正された画像のスキャンラインに一致する。そのような場合、シーンの３Ｄポイントは、マスター画像及びスレーブ画像の同一のスキャンラインインデックスに投影される。Ｕ_ｍ及びＵ_ｓをマスターカメラ及びスレーブ等価カメラ（ｓｌａｖｅｅｑｕｉｖａｌｅｎｔｃａｍｅｒａ）の同一の３Ｄポイントｐの画像のスキャンラインの座標とし、この場合、各カメラにおいて、これらの座標は、主点（焦点面の光軸の交差点）を中心とするとともに修正された画像のスキャンラインに平行は水平軸を有する軸システム（ａｘｉｓｓｙｓｔｅｍ）を参照する。差Ｕ_ｍ−Ｕ_ｓは、視差と称され、ｄによって表される。視差は、修正されたカメラに対する３Ｄポイントの直行距離（すなわち、いずれかのカメラの光軸に対するポイントの直角投影の距離）に反比例する。

立体アルゴリズム（ｓｔｅｒｅｏｓｃｏｐｉｃａｌｇｏｒｉｔｈｍｓ）は、視差のこの特性を利用する。これらのアルゴリズムは、視差を推定することと等価である左右のビューで検出されるポイント（又は特徴）のマッチングを行うことによって３Ｄ再構成を実現する。ブロックマッチング（ＢＭ）は、一般的に用いられる立体アルゴリズムである。マスターカメラ画像の画素が与えられると、アルゴリズムは、この画素をスレーブカメラ画像の他の任意の画素にマッチングするためのコストを算出する。このコスト関数は、マスター画像の画素を包囲する小窓内の画像コンテンツとスレーブ画像の画素の間の相違として規定される。あるポイントの最適視差は、最小マッチングコストの引数（ａｒｇｕｍｅｎｔ）として最終的に推定される。この手順は、一般的には勝者独り勝ち（ＷＴＡ）と称される。これらの技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉの“ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ”，Ｓｐｒｉｎｇｅｒ，２０１０で更に詳しく記載されている。ＢＭのような立体アルゴリズムは外観類似に依存するので、視差の算出は、スレーブ画像の二つ以上の画素が同一の局部外観を有する場合に困難になり、これらの画素の全てがマスター画像の同一の画素と類似するので、不明確な視差推定になる。これが生じうる典型的な状況は、平坦な壁のような一定の輝度を有するシーンを視覚化するときである。

２０１６年７月１２日に発行された米国特許第９，３９２，２６２号明細書の「複数のマルチチャネルカメラを用いて３Ｄ再構成のシステム及び方法（ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎＵｓｉｎｇＭｕｌｔｉｐｌｅＭｕｌｔｉ−ＣｈａｎｎｅｌＣａｍｅｒａｓ）」に記載されているような小さい３Ｄの詳細をキャプチャすることができるブロックマッチングアルゴリズムの実行を向上させる又は最適化させるように設計されたパターンを投影することによって追加の照明を提供する方法が存在し、その開示の全体を参照によりここに組み込む。他の手法は、シーンにテクスチャを提供するとともに同時に出現するシーンの部分を除去する（ｄｉｓａｍｂｉｇｕａｔｉｎｇ）ことによってテクスチャの少ない領域（ｔｅｘｔｕｒｅ−ｌｅｓｓｒｅｇｉｏｎｓ）の深度推定を特に向上させるために単に用いられるパターンを投影する。

本発明の実施の形態による投影源１０６を、カメラ１０２及び１０４によって撮影されたシーンに可視光（例えば、人間及び／又は他の動物の目に見えるスペクトル内の光）又は不可視光（例えば、赤外光）を投影するように構成してもよい。換言すれば、投影源は、カメラ１０２及び１０４の光軸に略平行な光軸を有してもよく、投影源を、カメラ１０２及び１０４の視野の方向に光を出射するように構成してもよい。一部の実施の形態において、投影源１０６は、複数の個別の照明器を有してもよく、各照明器は、他の（一つ以上の）照明器の（一つ以上の）光軸から離間するとともにカメラ１０２及び１０４の光軸から離間した光軸を有する。

不可視光投影源は、対象が（テレビ会議システムにおけるような）人々である状況により適している。その理由は、不可視光が対象の見る能力を妨害しないからである。それに対し、可視光投影源は、対象の目に対して不快になるように照射するおそれがある又はシーンにパターンを加えることにより認識に不所望な悪影響を及ぼすおそれがある。不可視投影源を有するシステムの例は、例えば、２０１５年６月３０日に米国特許庁に出願された米国特許出願公開第１４／７８８，０７８号明細書の「複数の露出設定に基づくマルチチャネル撮影のシステム及び方法（ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ−ＣｈａｎｎｅｌＩｍａｇｉｎｇＢａｓｅｄｏｎＭｕｌｔｉｐｌｅＥｘｐｏｓｕｒｅＳｅｔｔｉｎｇｓ）」に記載されており、その開示の全体を参照によりここに組み込む。

能動型投影源を、投影静止パターン、例えば、経時的に変化しないパターンと、動的パターン、例えば、経時的に変化するパターンと、に分類することができる。両方の場合において、パターンの一態様は、照明レベルの投影パターンである。これは関連性がある。その理由は、深度カメラシステムの深度ダイナミックレンジ（ｄｅｐｔｈｄｙｎａｍｉｃｒａｎｇｅ）に影響を及ぼし得るからである。例えば、光照明がハイレベルである場合、深度測定を（例えば、距離の逆２乗に比例する因子によって物までの距離に亘る光照明の減衰を克服するために）明るい周囲光の状況の下で遠くの物から行うことができる。しかしながら、高い光照明レベルによって、クローズアップされたシーンの部分に飽和が生じることがある。それに対し、低い照明レベルによって、近くの物の測定を可能にするが、遠くの物の測定ができない。

状況次第で、深度カメラシステムは、二つの構成要素：取り外し可能なスキャニング部及び表示部を有する。一部の実施の形態において、表示部は、スマートフォン、タブレット、携帯端末又は他の同様なシステムのようなコンピュータシステムである。分離可能なスキャニング部及び表示部を用いるスキャニングシステムは、例えば、２０１６年１２月１６日に米国特許庁に出願された米国特許出願公開第１５／３８２，２１０号明細書の「スクリーンから分離可能なスキャニングセンサを有するスキャニング装置（ＳｃａｎｎｉｎｇＡｐｐａｒａｔｕｓｉｎｃｌｕｄｉｎｇＳｃａｎｎｉｎｇＳｅｎｓｏｒＤｅｔａｃｈａｂｌｅｆｒｏｍＳｃｒｅｅｎ）」に更に詳しく記載されており、その開示の全体を参照によりここに組み込む。

本発明の実施の形態をここでは立体深度カメラシステムに関連して説明するが、本発明の実施の形態は、それに限定されず、構造化された光飛行時間型カメラ及びＬＩＤＡＲカメラのような他の深度カメラシステムと共に用いられてもよい。

カメラの選択に応じて、３Ｄモデルを生成するために種々の技術を用いてもよい。例えば、ＤｅｎｃｅＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｉｎＲｅａｌＴｉｍｅ（ＤＴＡＭ）は、スキャニングのためにカラーキューを用いるものであり、ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇは、３Ｄモデルを生成するために深度データ（又は深度とカラーの組合せのデータ）を用いるものである。

図３は、本発明の一実施の形態によるスクリーンから切り離されているスキャニングセンサ（又はカメラ）を有する３Ｄスキャニングシステム５０を用いて固定位置の物２０をスキャンするシステム及び方法をユーザの観点から示す。特に、図３は、八つの異なる時点で物２０の周辺の八つの異なる物理的位置の単一のスキャニングセンサモジュール１００を示す。スキャニングセンサモジュール１００とスキャニング装置２００の間の破線は、二つのハードウェアの間のデータ接続を表し、この場合、スキャニング装置２００は、データ接続を介してコマンドをスキャニングセンサモジュール１００に送信することができ、スキャニングセンサモジュール１００は、画像を含むデータをスキャニング装置２００に送信することができる。

図３でわかるように、ユーザ２２は、（右手として図３に示すように）一方の手にスキャニングセンサモジュール１００（例えば、カメラ）を保持してもよく、（左手として図３に示すように）他方の手にスキャニング装置２００（例えば、スマートフォン、タブレットコンピュータ、携帯端末又はディスプレイを有する他の携帯装置）を保持してもよい。図３に示すように、ユーザは、スキャニング装置２００の位置を変えることなくスキャニングセンサを物の前から物の後ろに動かしてもよい。ユーザがスキャニングセンサを用いて物２０（図３に示すようなティッシュボックス）をスキャンする間、スキャニング装置２００は、ビュー２０２（例えば、リアルタイムビュー）、すなわち、スキャニングセンサモジュールによってキャプチャした画像の表現を表示する。図３に示すように、ユーザは、物２０のトップダウンビューを更に有してもよいが、ユーザ２２は、物２０のサイドビューを有するようにするためにスキャニングセンサモジュール１００を配置してもよい。図３に示すスキャニング装置２００のビュー２０２は、位置１００ｖのスキャニングセンサモジュール１００によってキャプチャしたサイドビュー画像に対応する。これにより、ユーザ２２は、スキャニング装置２００のディスプレイのビュー２０２の眺めを維持するためにユーザの身体をねじる必要なく物２０を更に容易かつ楽にスキャンすることができる。したがって、ユーザは、スキャニングセンサによってキャプチャしたデータに関するリアルタイムフィードバックを受け取り、これによって、トップを含む物の全てのサイドがスキャニングセンサによって撮影されることを保証するのを助ける。

このフィードバックがない場合、ユーザは、物の有用な画像をキャプチャし損なう方向にスキャニングセンサをうっかり向けることがある。例えば、ユーザは、天井又は床の画像をうっかりキャプチャすることがある又は背景の画像をキャプチャすることがある。さらに、カメラ及びディスプレイが互いに堅く固定された比較撮像システム（ｃｏｍｐａｒａｔｉｖｅｉｍａｇｉｎｇｓｙｓｔｅｍ）において、カメラの視野と撮像システムのディスプレイの観察方向の間の一定の関係によって、ユーザは、物の全てのサイドをスキャニングしながらスクリーンの観察を維持するのが困難になることがある。

一旦、スキャンされたものの３次元形状がスキャニングシステムによって取得及び処理されると、クリーンな３次元モデルを取得するために一部の修正を行うことができる。３次元モデルは、テクスチャ情報（例えば、カラー情報）に関連してもよい。そのようなモデルをメッシュとして表現してもよい。テクスチャモデルを作成することは、非テクスチャモデルを作成することより複雑である。その理由の一部は、テクスチャモデルの観察者がフォトリアリズム及びテクスチャをメッシュの表面に合わせることの追加の課題のために更に高い予測を有することがあるからである。測光誤差最小化及びグラフカット最適化に基づく種々の技術を、テクスチャモデルに適用してもよく、一部の実施の形態において、そのような技術を、スキャナそれ自体ではなくサーバによって実行してもよい。

図４Ａ及び図４Ｂは、スキャニングシステムによってキャプチャした３次元モデルの例である。図４Ａは、茶色の靴のテクスチャモデルであり、ＲＧＧ−ＩＲ深度カメラシステムによってキャプチャされたものである。図４Ｂは、ダッフルバックの非テクスチャモデルであり、テクスチャ化を行うことなく（例えば、可視光又はＲＧＢセンサなしでＩＲセンサのみを有する深度カメラシステムによって）キャプチャされたものである。生成したモデルを、“ｐｌｙ”フォーマット又は“ｏｂｊ”フォーマットのような標準的なフォーマットで格納してもよく、ビュアーソフトウェアを用いて表示装置に表示することができる。一部の実施の形態において、ビューイングソフトウェアを、ＴｈｅｅＪＳビュアーを用いる場合のように（例えば、ウェブブラウザによって実行される）ウェブベースのものとしてもよい。

３次元モデルの格納
本発明の実施の形態の一態様によれば、３次元（３Ｄ）モデルのような一連の既存のメディアドキュメントがデータベースに格納されている。（３Ｄモデルのような）供給されたメディアドキュメントのメタデータを生成するとき、供給されたメディアドキュメントに類似するメディアドキュメントについてデータベースに対するクエリーが行われ、類似するエントリーが結果として戻される。

データベース構成
本発明の実施の形態の一態様によれば、データベースは、Ｋ個の異なる種類に分けられたＮ個のエントリー（Ｎ個のメディアドキュメント）を格納する。エントリーの数（Ｎ）は数百万程度であってもよく、種類の数（Ｋ）は、数千又は数万程度であってもよい。Ｋ個の種類を階層的なツリー状構造に分けてもよく、その一部を表１に示す。

一実施の形態によれば、データベースの各エントリーは、名前、一つ以上の種類、一つ以上のタグ、テキスト記述及び視覚情報を含むメタデータに関連する。

名前欄は、エントリーのメディアドキュメントの特定の名前である。例えば、メディアドキュメントが特定のタイプの車の３Ｄモデルであるとき、車のフルネーム（例えば、年式、製造、型及びストリングに連結したトリム（ｔｒｉｍｃｏｎｃａｔｅｎａｔｅｄｉｎｔｏａｓｔｒｉｎｇ））を特定することができる。

種類欄は、特定のエントリーに関連するＫ個の種類の一つ以上の種類を識別する。特に、Ｋ個の種類がツリー状構造に階層的に分けられる場合、エントリーがある種類に属するときには、当該エントリーは、ツリーの特定の種類より上からツリーのルートまでの種類の全てに属する。表１に示す“Ｗａｓｈｃｌｏｔｈｓ”は、そのすぐ前の親の種類“Ｔｏｗｅｌｓ”並びに更に上の種類の“Ｂａｔｈｉｎｇ”及び“Ｂａｂｙ”に属する。

一つ以上のタグは、特定のエントリーに関連するキーワード（例えば、非階層的な単語又は語句）に対応する。これらは、例えば、製品の色の記述（例えば、赤、白及び黄）、パターン（例えば、格子柄、縞模様及びギンガム）、材料（例えば、綿、ポリエステル、混合物）、サイズ、又は、種類のような階層に適合しない他の記述を含んでもよい。

テキスト記述欄は、物語形式で型を記述してもよく、人間が読めるように書き込まれていてもよいが、エントリーのテキスト検索に用いてもよい。

メディア情報欄は、メディアドキュメントそれ自体（又は、更に広く見れば、特定の画像、特定の３Ｄモデル、特定の録音又は特定のビデオのようなエントリーに関連する特定のデジタルメディアドキュメント）に対応してもよい。

一部の実施の形態によれば、名前、種類及び視覚情報のようなこれらのメタデータ欄の一部は必須であるのに対して、タグ及びテキスト記述のような他のメタデータ欄は任意である。所定のエントリーに対するメタデータ欄の一部又は全てを、ユーザによって手動で入力してもよい又は後に詳しく説明するように自動的に生成してもよい。

自動的なメタデータ追加のためのデータベース検索
本発明の実施の形態の一態様は、所定の入力メディアドキュメントのメタデータを生成するために所定の入力メディアドキュメントに類似するエントリーの上述したデータベースの検索の実行を対象とする。

本開示の文脈において、クエリー及びエントリーの用語を以下で考察する。エントリーは、データベースに既に存在するとともにメタデータが利用できるメディアドキュメント（例えば、３Ｄモデル、画像、録音又はビデオ）である（又はそれに関連する）。それに対し、クエリーは、データベースに存在しないとともにデータベースに既に存在するエントリー又はモデルのメタデータからの情報を組み合わせることによってメタデータ欄の一部又は全てが満たされることが所望されるメディアドキュメント（例えば、３次元モデル）である。追加されるメタデータ欄がクエリーの種類である場合を、クエリーのメディアドキュメントの分類と称する。

画像のデータベースにクエリーを行う技術は、一般的には、二つの異なる形式：（一つ以上の種類を画像に割り当てる）画像分類及び（クエリー画像に関するデータベースの最も類似する画像入力を識別する）画像検索に含まれる。一つの共通画像データベースは、数百万の画像及び数千の異なる種類を有するＩｍａｇｅＮｅｔ（例えば、Ｊ．Ｄｅｎｇ，Ｗ．Ｄｏｎｇ，Ｒ．Ｓｏｃｈｅｒ，Ｌ．−Ｊ．Ｌｉ，ａｎｄＬ．Ｆｅｉ−Ｆｅｉ，ＩｍａｇｅＮｅｔ：ＡＬａｒｇｅ−ＳｃａｌｅＨｉｅｒａｃｈｉｃａｌＩｍａｇｅＤａｔａｂａｓｅ．ＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２００９参照）である。画像分類及び検索を行う技法は、畳み込みニューラルネットワーク（例えば、Ａ．Ｋｒｉｚｈｅｖｓｋｙ，Ｉ．Ｓｕｔｓｋｅｖｅｒ，Ｇ．Ｅ．Ｈｉｎｔｏｎ，“ＩｍａｇｅｎｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ”，ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，２０１２，Ｙ．ＬｅＣｕｎ，Ｂ．Ｂｏｓｅｒ，Ｊ．Ｓ．Ｄｅｎｋｅｒ，Ｄ．Ｈｅｎｄｅｒｓｏｎ，Ｒ．Ｅ．Ｈｏｗａｒｄ，Ｗ．Ｈｕｂｂａｒｄ，Ｌ．Ｄ．Ｊａｃｋｅｌ，“Ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅｒｅｃｏｇｎｉｔｉｏｎ”，ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，１９８９及びＣ．Ｓｚｅｇｅｄｙ，Ｗ．Ｌｉｕ，Ｙ．Ｊｉａ，Ｐ．Ｓｅｒｍａｎｅｔ，Ｓ．Ｒｅｅｄ，Ｄ．Ａｎｇｕｅｌｏｖ，Ｄ．Ｅｒｈａｎ，Ｖ．Ｖａｎｈｏｕｃｋｅ，Ａ．Ｒａｂｉｎｏｖｉｃｈ，“Ｇｏｉｎｇｄｅｅｐｅｒｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎｓ”，ＣＶＰＲ，２０１５参照）及び階層ベイズモデル（例えば、Ｌ．Ｆｅｉ−Ｆｅｉ，Ｐ．Ｐｅｒｏｎａ，“ＡＢａｙｅｓｉａｎｈｉｅｒａｒｃｈｉｃａｌｍｏｄｅｌｆｏｒｌｅａｒｎｉｎｇｎａｔｕｒａｌｓｃｅｎｅｃａｔｅｇｏｒｉｅｓ”，ＣＶＰＲ，２００５）を用いる技術を有する。

さらに、録音と、ビデオの音声成分とを、録音を画像に変換するとともに音声の一つ以上のスペクトログラム（例えば、音声の各チャネルに対する一つのスペクトログラム）を作成することによる特徴抽出のために畳み込みニューラルネットワークに供給することができる。

便宜上、限定を行うことなく、ＣＮＮを、入力画像が与えられたときに２次元（２Ｄ）畳み込み、非線形マッピング、Ｍａｘ−ｐｏｏｌｉｎｇ集約（Ｍａｘ−ｐｏｏｌｉｎｇａｇｇｒｅｇａｔｉｏｎｓ）及び（一般的に特徴ベクトルと称される）値又は特徴のベクトルを算出するための接続のような動作のセットを実行するシステムとみなすことができる。特に、クエリー画像に対する予測される特徴ベクトルは、大次元（例えば、４０９６の値）の（一般的には浮動小数点又は固定小数点の数値としてコード化される）値のベクトルである。特徴ベクトルを、入力画像の「シグネチャー」とみなすことができ、特徴ベクトルは、同じ種類の物の特徴ベクトルが特徴ベクトル空間に近接するポイントであるという特性を有する（例えば、類似の特徴ベクトルを有する）。特徴ベクトルを、入力画像のメタデータの一つ以上の種類の推定を取得するために分類器（例えば、ソフトマックス分類器）によって用いることができる。したがって、分類器によって算出される分類を、どの種類が所定の画像に関連するかを識別するために用いることができる。

分類を算出するために特徴ベクトルを分類器に供給することに加えて、特徴ベクトルを、画像検索に用いることもできる。類似する画像が類似する特徴ベクトルを有するので、データベースのエントリーは、エントリーの特徴ベクトルが特徴ベクトル空間のクエリー画像の特徴ベクトルに近接する場合にはクエリー画像に類似し、「近接」又は「類似」を、Ｌ^１又はＬ^２メトリック（Ｌ^１ｏｒＬ^２ｍｅｔｒｉｃ）のような標準メトリック（ｓｔａｎｄａｒｄｍｅｔｒｉｃ）に関連して算出することができる。大次元の特徴ベクトル空間が与えられる場合、特徴ベクトルは、主成分分析（ＰＣＡ）又は線形判別分析（ＬＤＡ）のような次元減少の技術を適用することによって更に計算的に扱いやすくすることができる。

２次元画像と類似するやり方で、３次元モデルを、テクスチャ化されているかテクスチャ化されていないかに関係なく、畳み込みニューラルネットワーク又は分類器を用いる分類又は検索に関連して考察することもできる。

したがって、本発明の実施の形態の一態様は、メタデータを取得するために類似のメディアドキュメントに関連するエントリーを検索するためのクエリーのメディアドキュメントからの情報を用いることに関する。特に、本発明の実施の形態の一態様は、畳み込みニューラルネットワークを用いてメディアドキュメントから特徴ベクトルを抽出するためにメディアドキュメントを作成することに関する。抽出した特徴ベクトルを、メディアドキュメントを分類するために分類器に供給することができる又は特徴ベクトル空間の類似のメディアドキュメントを検索するのに用いてもよい。

図５は、本発明の一実施の形態によるメディアドキュメントのメタデータを生成する方法５００のフローチャートである。図５に示す方法を、スキャナ１００のホストプロセッサ１０８、サーバ（例えば、スキャナ１００にローカルなコンピュータ又は「クラウド」のデータセンタのコンピュータ）又は（一部の動作がスキャナのホストプロセッサ１０８によって実行されるとともに他の動作がサーバによって実行される場合の）その組合せによって実行してもよい。便宜上、動作を、「プロセッサ」によって実行されるものとして説明し、プロセッサがホストプロセッサ１０８であるかサーバのプロセッサであるかについての限定はない。

動作５１０において、プロセッサは、プロセッサが受け取ったメディアドキュメントの特徴ベクトルを算出する。場合によっては、メディアドキュメントは、スキャニング処理の間にスキャナ１００によってキャプチャされた３Ｄモデルであってもよい。他の場合において、メディアドキュメントを、第三者（例えば、異なるスキャニング装置によってキャプチャされた３Ｄモデル）から検索してもよい、コンピュータ支援設計ツールを用いて手動で生成してもよい、又は、コンピュータ支援設計ツールを用いて修正したスキャンモデルとしてもよい。

上述したように、クエリーのメディアドキュメントが２Ｄ画像であり、データベースのメディアドキュメントも２Ｄ画像である場合、２Ｄ画像を、トレーニングされた（例えば、２Ｄ画像でトレーニングされた）ＣＮＮに直接供給してもよい。メディアドキュメントが録音である場合又はメディアドキュメントが音声成分を含む録画である場合、プロセッサは、音声を一つ以上のスペクトログラムに変換し、入力としての一つ以上のスペクトログラムを、トレーニングされた（例えば、録音のスペクトログラムでトレーニングされた）ＣＮＮに供給する。

クエリーのメディアドキュメントが３Ｄモデルであり、データベースが一連の２Ｄ画像を格納する場合、一つ以上の特徴ベクトルを３Ｄモデルから抽出することができる。例えば、一実施の形態において、３Ｄモデルは、複数の２Ｄ画像を生成するために複数の視点からレンダリングされ、２Ｄ画像の各々を、３Ｄモデルに関連する（２Ｄビューから抽出される）複数の特徴ベクトルを生成するために、トレーニングされたＣＮＮに供給してもよい。したがって、３Ｄモデルを、２Ｄ画像のデータベースに対してクエリーを行うのに用いることができる。図６Ａは、本発明の一実施の形態による３Ｄモデルをボクセル化することによりメディアドキュメントが３Ｄモデルである場合に特徴ベクトルを算出する方法を示すフローチャートであり、図６Ｂは、ボクセル化を用いた３ＤモデルへのＣＮＮの適用を視覚的に示す。図６Ａ及び図６Ｂを参照すると、動作６１０において、プロセッサは、例えば、ｒｏｔａｔｉｎｇｃａｌｉｐｅｒｓアルゴリズムを３Ｄモデルに適用することによって３Ｄモデルの周辺の境界ボックス６１２を規定する。

動作６３０において、プロセッサは、３Ｄモデルを表すボクセルのセットを生成するためにモデルをボクセル化する。一実施の形態において、ボクセル化処理の間に、プロセッサは、境界ボックスを、ボクセルと称するサブユニットに分割する。例えば、境界ボックスを、２５６^３＝１６，７７７，２１６ボクセルの総数に対して一辺に２５６ボクセルを有する立方体としてもよいが、本発明の実施の形態は、それに限定されず、十分に大きくしてもよい。各ボクセルは、（例えば、２進数ボクセル化で）３Ｄモデルの一部がボクセル内に含まれるか否かを表す値に関連してもよく、他の場合において、各ボクセルは、３Ｄモデルによって占有されるボクセルの比又は割合（例えば、整数値又は浮動小数点ボクセル化）を表す値（例えば、８進数）に関連してもよい。図６Ｂは、ボクセル化された３Ｄモデル６３２を示す。

本発明の一実施の形態によれば、動作６３０は、ボクセル化を行う前に「好適なビュー」を識別するために特徴を推定すること又は主成分分析を行うことを更に有する。ボクセル化の前にモデルの一貫した好適なビューを識別することは、略類似する物（又は同一の物）の二つの異なる３Ｄモデルが（例えば、略同一の座標空間にそって規定されるボクセルを用いて）同一の視点からボクセル化される可能性を上げ、これによって、回転不変性（例えば、回転した物のモデルを認識するシステムの能力）を提供する。

動作６５０において、プロセッサは、動作６３０で生成されたボクセルから特徴ベクトルを生成する。本発明の一実施の形態によれば、特徴ベクトル６５４は、トレーニングされた畳み込みニューラルネットワークにボクセルを供給することによって算出される。ボクセル表示を３Ｄテンソルとみなすことができるので、ボクセルを入力としてＣＮＮに直接供給することができ、この場合、ＣＮＮは、ボクセル化された３Ｄモデルに基づいてトレーニングされる。図６Ｂに示す破線の立方体は、畳み込み動作を表す。図６Ｂに示すように、特徴ベクトル６５４を、ボクセル化された３Ｄモデル６１２の分類６５６を生成するために分類器に供給することもできる。

本発明の他の実施の形態によれば、３Ｄモデルについての形状及び文字情報を、複数の方向又は視点からモデルをレンダリングすることによってコード化する。図７Ａは、本発明に一実施の形態による種々の視点又は方向からの３Ｄモデルの複数のビューをレンダリングすることによりメディアドキュメントが３Ｄモデルである場合に特徴ベクトルを算出する方法を示すフローチャートであり、図７Ｂは、複数のビューからレンダリングした３ＤモデルへのＣＮＮの適用を視覚的に示す。

図７Ａ及び図７Ｂを参照すると、動作７１０において、プロセッサは、３Ｄモデルの複数の２次元（２Ｄ）ビュー７１２を生成するために複数の角度から３Ｄモデルをレンダリングする。類似特徴推定又は主成分分析技術を、３Ｄモデルの複数の２Ｄビューを生成する３Ｄモデルの「好適なビュー」を識別するために適用してもよい。動作７３０において、プロセッサは、複数の対応する単一ビュー特徴ベクトル（２Ｄビューの単一のものに対応する特徴ベクトル）を生成するために２Ｄビューの各々を畳み込みニューラルネットワーク７３２に供給する。一部の実施の形態において、図７Ｂに示すように、各ビューに対して個別の畳み込みニューラルネットワークが存在する。他の実施の形態において、ビューの各々を、同一の畳み込みニューラルネットワークに供給する。動作７５０において、ビュー追加層７５２は、２Ｄビュー又は画像から算出した単一ビュー特徴ベクトルを集める。ビュー追加層７５２は、システムの追加の柔軟性を可能にする。その理由は、ビュー追加層７５２によって追加の特徴ベクトルの長さが３Ｄモデルのビューの数に依存しなくなるからである。

動作７７０において、プロセッサは、特徴ベクトル７７４を算出するために最終段階ＣＮＮ７７２を適用する。特徴ベクトル７７４を、３Ｄモデルのビューの分類７７６を生成するために分類器に供給してもよい。

クエリーのメディアドキュメントが同一の物の一つ以上の２Ｄ画像を有するとともにデータベースが一連の３Ｄモデルである場合、一連の３Ｄモデルの特徴ベクトルと比較することができる特徴ベクトルを生成するために、一つ以上の特徴ベクトルを２Ｄ画像から抽出してもよい。本発明の一実施の形態において、例えば、既に簡潔に説明するとともにＲ．Ｓｚｅｌｉｓｋｉ．“ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ”，Ｓｐｒｉｎｇｅｒ，２０１０で更に詳しく説明されているブロックマッチングのような立体アルゴリズムを用いて３Ｄモデルを合成するために、２Ｄ画像が用いられる。この場合、図６Ａ、図６Ｂ、図７Ａ及び図７Ｂに関連して上述した技術のようにクエリーのメディアドキュメントが３Ｄモデルである手法と略類似する手法で、特徴ベクトルを、合成された３Ｄモデルから抽出することができる。

動作５３０において、プロセッサは、入力メディアドキュメントについて算出した特徴ベクトルに類似する特徴ベクトルを有するデータベースのメディアドキュメントを検索する。上述したように、特徴ベクトルの「近接」又は「類似」を、Ｌ^ｐ空間のｐ−ノルム（ｐ−ｎｏｒｍ）のような多次元距離メトリック（例えば、二つのベクトルｘ_１及びｘ_２に対して、
）に関連して算出することができる。例えば、Ｌ^１は、「タクシー（ｔａｘｉｃａｂ）」空間又は「マンハッタン空間」の距離に対応し、Ｌ^２は、ユークリッド空間の距離に対応する。一実施の形態において、プロセッサは、二つの特徴ベクトル（例えば、クエリーモデルの特徴ベクトル及びデータベースのエントリーの一つのモデルの特徴ベクトル）の間の距離（又は相違）を表すメトリックがしきい値未満であるときに二つの特徴ベクトルは類似することを決定する。

本発明の一実施の形態において、クエリーのメディアドキュメントの特徴ベクトルとデータベースの各エントリーの特徴ベクトルとを比較することによって、類似するメディアドキュメントがデータベースで識別される。本発明の他の実施の形態によれば、類似するエントリーは、特徴ベクトルの類似に基づいてデータベースにおいてグループ化（又はビニング）される。最初の検索は、クエリーのメディアドキュメントに類似するエントリーの一つ以上のビンを識別してもよく、この場合、エントリーの識別されたビンの各々のエントリーの全てを、クエリーのメディアドキュメント特徴ベクトルに類似するものとみなしてもよい。クエリーのメディアドキュメントの特徴ベクトルと識別されたビンの各々の各エントリーの各特徴ベクトルとを比較することによって、検索を更に精緻化することができる。

本発明の一実施の形態において、エントリーのメディアドキュメントが３Ｄモデルであるとともにエントリーのデータベースが一連の３Ｄモデルを含む場合、類似する３Ｄモデルは、ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ（ＩＣＰ）技術を適用することによってデータベースにおいて識別される。一般的には、ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔは、（例えば、３Ｄモデルに対応する）二つのポイントクラウドを調整することを試みる。ＩＰＣ技術の一つの副産物は、あるポイントクラウドのポイントと他のポイントクラウドのポイントの間の距離のマップである。したがって、一実施の形態において、類似メトリックは、ポイントクラウドのポイント間の平均距離のような距離の統計値に対応する。

クエリーのメディアドキュメントが同一の物の一つ以上の２Ｄ画像を有するとともにデータベースが一連の３Ｄモデルである一実施の形態において、動作５１０において抽出した特徴ベクトルを、一つ以上の２Ｄ画像の各々に対して個別の特徴ベクトルとしてもよく、複数の異なる視点から３Ｄモデルの各々をレンダリングするとともに、各々が異なる視点に対応する一つ以上の特徴ベクトルを生成するために３Ｄモデルの個別のレンダリングしたビューの各々を畳み込みニューラルネットワークに供給することによって、複数の特徴ベクトルを、データベースの３Ｄモデルの各々に対して生成することができる。この場合、クエリーの２Ｄ画像と３Ｄモデルの間の類似を計算するために、クエリーの２Ｄ画像から抽出した特徴ベクトルを（例えば、上述したＬ^１又はＬ^２メトリックを用いて）３Ｄモデルの２Ｄビューの特徴ベクトルと比較してもよい。

メタデータを推論するのに用いることができる検索した物の更に関連するセットにつながるために、クエリー結果の検索したエントリーのセットをユーザに表示するとともにユーザによって手動で精緻化することもできる。

本発明の実施の形態の一態様によれば、クエリーが部分的に満たされたメタデータを有する場合において、動作５３０の類似するエントリーについてのデータベースを検索することは、クエリーメタデータの部分的に満たされた欄に類似するメタデータを含むエントリーを検索することを含んでもよい。類似するエントリーのメタデータを、クエリーのメタデータの満たされていない部分のメタデータを生成するために用いることができる。

例えば、クエリーは、メタデータ＜ｔｉｔｌｅ＝“ｂｌａｃｋＢＭＷｍ３２０１６”，ｃｌａｓｓ＝“ｃａｒ”，ｔａｇｓ＝“”，ｔｅｘｔ＝“”＞を有することができる。そのようなクエリーにおいて、“ｔｉｔｌｅ”エントリー及び“ｃｌａｓｓ”エントリーが満たされており、“ｔａｇｓ”エントリー及び“ｔｅｘｔ”エントリーが満たされていない。“ｔａｇｓ”及び“ｔｅｘｔ”の満たされていないエントリー並びに潜在的な更に詳しい種類を、“ｔｉｔｌｅ”及び“ｃｌａｓｓ”の利用できる欄に基づいて類似するエントリーに対してデータベースを検索することによって自動的に生成することができる。特に、データベースを、クエリーのメタデータのｔｉｔｌｅに類似するｔｉｔｌｅを有するｃｌａｓｓ“ｃａｒ”のエントリーに対して検索することができる。例えば、エントリーのタイトルがクエリーのタイトルの少なくとも７５％を含む場合、データベースのエントリーのタイトルは、十分に類似しているものとみなしてもよい。他の例として、レーベンシュタイン距離又は他の距離メトリック（例えば、編集距離メトリック）を、タイトルの比較を行うのに用いてもよく、この場合、しきい値距離より下の距離を有するエントリーを類似しているものとみなしてもよい。

動作５５０において、類似するエントリーのタグ及びテキストメタデータ欄が判断され、そのコンテンツは、クエリーのメタデータの満たされていない欄に追加を行うタグ及びテキスト欄を自動的に生成するために併合される。一実施の形態において、検索したエントリーの全てのタグを列挙するとともに少なくとも二つのアイテムが出現するタグのみを保持することによってタグを取得することができ、意味的テキスト分析技術によってテキストを取得することができる。一実施の形態において、生成したメタデータの種類欄は、分類器によって特徴ベクトルに対して算出された分類（例えば、図６Ｂに示す分類６５６又は図７Ｂに示す分類７７６）を用いることによって満たされる。

例えば、再び図１を参照すると、検索したエントリー１２並びにそれに対応する種類及びタグメタデータを、以下の表２に示す。

本発明の一部の実施の形態によれば、生成したメタデータに少なくともしきい値の回数が出現するタグを追加するという規則を適用する。表２に示すように、タグ“Ｊｅｅｐ”，“ｃｏｎｖｅｒｔｉｂｌｅ”及び“ｓｐｏｒｔ”の全ては、結果のタグに２回出現し、その結果、しきい値が２であると仮定される。これらの三つのタグを、生成したメタデータのタグに追加する。タグ“ｂｌｕｅ”、“ｒｅｄ”及び“ｂｌａｃｋ＆ｗｈｉｔｅ”は、結果に１回しか出現せず、したがって、これらは、生成したメタデータのタグに追加されない。タグ“ｂｌａｃｋ＆ｗｈｉｔｅ”がクエリーの３Ｄモデルの色を正確に反映するとしても、結果は、このタグを生成したメタデータに含めるには十分でない。

検索の結果に少なくとも２回出現するメタデータを生成したメタデータに追加する例をここで説明するが、本発明の実施の形態はそれに限定されない。例えば、プロセッサを、多数の結果（例えば、最も類似する１０個のエントリー）を検索するように構成してもよく、結果に出現する種類又はタグを追加するためのしきい値を少なくとも四つの結果としてもよい。他の実施の形態において、種類又はタグを追加するためのしきい値を、少なくとも５０％のようなタグ又は種類を含む結果の最大割合として設定してもよい。

本発明の一部の実施の形態によれば、生成したメタデータの種類欄を、クエリー結果に少なくとも２回出現する種類を用いて又はクエリー結果のほとんどに出現する種類に基づいて満たしてもよい。表２に示すように、種類“ｃａｒ”は、結果の三つに出現し、種類“ｃａｐ”は、結果の一つに出現する。したがって、生成したメタデータは、種類“ｃａｒ”を有するが種類“ｃａｐ”を有しない。

本発明の一部の実施の形態によれば、種類をメディアドキュメントに割り当てるためにクエリー結果の種類を用いるのものではなく、クエリーのメディアドキュメントの特徴ベクトルが、一つ以上の分類（例えば、分類６５６又は分類７７６）を生成するために分類器（例えば、データベース内のエントリーについてトレーニングされた分類器）に供給される。分類を、複数の値として表すことができ、この場合、各値は、メディアドキュメントが特定の種類に属するという信頼性を表す。例えば、図１に示すクエリーの分類は、クエリーがｃａｒを表現することについての高い信頼性、クエリーがｃａｐを表現することについての低い信頼性及びクエリーがｄｏｇを表現することについてのゼロの信頼性を表すことができる。

動作５７０において、プロセッサは、メディアドキュメントに対する生成したメタデータを出力する。これは、例えば、メディアドキュメントに関連して表示装置にメタデータを表示することを含んでもよい。ユーザは、自動的に生成したメタデータを視察し、生成したメタデータが結果に対して妥当であること（例えば、種類、タグ、名前及びテキスト記述がメディアドキュメントの性質を正確に反映していること）が正しいことを確認し、必要であれば生成したメタデータを編集してもよい。

上述したように、一部の状況において、クエリーが一部のメタデータに既に関連していてもよい。しかしながら、クエリーのメディアドキュメントの特徴ベクトルとデータベースのエントリーの特徴ベクトルとの類似に基づいて他のメタデータを識別する処理を通じて、追加の関連のメタデータを自動的に生成してもよい。さらに、クエリーのメタデータの誤りを、自動的に生成したメタデータに基づいて訂正してもよい。

生成したメタデータを、他の用途に用いるためにメディアドキュメントに関連して保存してもよい。

ポリシーによって制限される検索
本発明の実施の形態の一態様は、アクセスポリシーに従ってデータベースの検索を制限することに関する。例えば、データベースに対してクエリーを行う種々のユーザは、ポリシーに基づいて、ユーザがアクセスすることができるデータベースの一部のみを検索することができる。例えば、５人のユーザ＜ａ１，ａ２，ａ３，ｂ１，ｂ２＞が存在し、ユーザ＜ａ１，ａ２，ａ３＞がグループＡに属し、ユーザ＜ｂ１，ｂ２＞がグループＢに属し、三つのセットのエントリー（又は三つのセットのメディアドキュメント）＜ｄｂＡ，ｄｂＢ，ｄｂＣ＞によってデータベースが構成され、ｄｂＡは、グループＡのメンバーによって見ることができ、ｄｂＢは、グループＢのメンバーによって見ることができ、ｄｂＣは、グループＡとグループＢの両方のメンバーによって見ることができる場合、ユーザｂ１は、ｄｂＢ及びｄｂＣのエントリーのみの検索が許可（許容）され、ｄｂＡのエントリーへのアクセスが許可されない（拒否される）（したがって、検索は、ｄｂＡのエントリーに対して実行されない。）。したがって、ユーザｂ１によって行われる検索は、ｄｂＢ及びｄｂＣのエントリーに限定される。これらのポリシーを、メタデータの異なる欄に異なるように適用することもできる。例えば、ユーザｂ１は、タグ及びタイトル欄を追加するためにデータベース全体において検索することが許可されるが、テキスト欄を追加するためにｄｂＢ及びｄｂＣしか検索することが許可されない。これらのポリシーの適用は、例えば、テキスト及び視覚情報、分類された情報、機密情報及び成人向け又は安全でない資料検索制限のデジタル著作権の行使を含む。

データベースへのエントリーの自動挿入
本発明の実施の形態の一態様によれば、クエリーのメディアドキュメント及びそれの自動的に生成したメタデータは、新たなエントリーとしてのデータベースへの挿入の候補を形成し、したがって、別のクエリーのメタデータの検索及び生成に更に用いることができるエントリーとなる。

しかしながら、検索後に自動的に追加したクエリーの欄が、データベースにエントリーを追加するユーザによって確認される場合、これは、供給されたメタデータ欄の品質がデータベースのエントリーとして安全に用いるのに十分高いことを保証するのに十分でないことがある。例えば、メタデータの誤りによって、新たに不正確にタグが付けられたエントリーによって追加のエントリーに不正確にタグが付けられるというカスケード効果が生じることがあり、これによって、後のクエリーに不正確にタグが付けられる可能性が高くなる。これは、これらのエントリーが分類器のトレーニングに用いられる場合に特に当てはまる。

したがって、高品質のメタデータ欄によって特徴付けられたクエリーのみがデータベースのエントリーとして組み込まれる可能性を高くするために、本発明の一実施の形態によれば、新たなエントリーに審査期間（ｐｒｏｂａｔｉｏｎｔｉｍｅ）及びデモクラティックバリデーション（ｄｅｍｏｃｒａｔｉｃｖａｌｉｄａｔｉｏｎ）が課される。そのような実施の形態において、クエリーは、一時的にエントリーとしてデータベースに追加される。この一時的なエントリーが異なるユーザからの次のクエリーの消失メタデータの追加に用いられるとともにユーザが自動的に満たされたメタデータ欄の正当性を確認する場合、このエントリーは、有効であるとみなされ、データベースの正規のエントリーのプールに追加される。他の実施の形態において、エントリーのプールに追加する準備ができているメディアドキュメントは、それが検索結果に出現することができる前にデータベースのアドミニストレータによって正当性が確認される。

自動的なメタデータの生成を伴うモデルキャプチャの例
明瞭のために、本発明の一実施の形態による３次元（３Ｄ）モデルをキャプチャするとともにモデルのメタデータを自動的に生成する処理の限定されない例を、図８に関連して以下で説明する。

図８は、本発明の一実施の形態によるモデルをキャプチャするとともにモデルのメタデータを自動的に生成する工程を示すフローチャートである。

便宜上、以下の例は、２０１７年６月２２日に米国特許庁に出願された米国特許出願公開第１５／６３０，７１５号明細書に記載されたタイプのスキャニングシステムのような３Ｄスキャナの使用を仮定し、その開示の全体を参照によりここに組み込む。そのような３Ｄスキャナは、３次元物体の形状及び文字情報を取得することができる。

動作８１０において、３Ｄスキャナは、ランプのような特定の物理的な３次元物体の３次元的な形状及び文字を取得する。３Ｄモデルを生成するためにキャプチャした未加工データ（例えば、２次元画像）の３Ｄ形状及び文字を算出するための計算の一部を３Ｄスキャナで行うことができ、それに対し、残りの部分を、ローカルサーバ又はリモートサーバで行うことができる。この動作の出力は、特定の物のテクスチャード加工の３次元モデル（３Ｄモデル）（例えば、ランプの３Ｄモデル）である。

動作８２０において、３Ｄモデルのデータベースは、キャプチャした３Ｄモデルを用いることによってクエリーが行われる。例えば、本発明の一実施の形態によれば、キャプチャした３Ｄモデル（例えば、キャプチャしたランプのモデル）は、ローカルサーバ又はリモートサーバにアップロードされ、ローカルサーバ又はリモートサーバは、この３Ｄモデルの検索を、分類及びラベル付けされた３Ｄモデルのデータベースに対して行う。便宜上、データベースのモデルの全てのメタデータ欄（例えば、名前、種類、タグ及びテキスト記述）の全てが追加されるとともにクエリーモデルのメタデータ欄のいずれも追加されないと仮定する。

データベースのクエリーを、図５の動作５１０及び５２０に示すのと略同一の手法で行ってもよい。動作５１０において、特徴ベクトルを、トレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）を用いながらクエリーの３Ｄモデルに基づいて算出（又は抽出）する（そのようなデータベースでトレーニングされたＣＮＮの重みを再算出してもよく、データベースの３Ｄモデルの各々の特徴ベクトルを、同一のＣＮＮを用いて再算出してもよく、これらの特徴ベクトルをデータベースに格納してもよい。）。したがって、クエリーの３Ｄモデルの特徴ベクトルを、分類及び検索のために用いることができる。

動作８３０において、クエリーの３Ｄモデルに対してメタデータ欄を自動的に生成する。上述したように、分類を、クエリー３Ｄモデルの特徴ベクトルが分類器に供給されるときのクエリーの３Ｄモデルの種類のセットとしてもよく、検索出力を、（例えば、類似する特徴ベクトルを有する）クエリーモデルに類似する３Ｄモデルを有するエントリーのセットとしてもよい。このような類似するエントリーモデルのセットを、名前、タグ及びテキスト記述のような種類以外のメタデータ欄の自動的な追加に用いることができる。

動作８４０において、クエリーとして供給された３Ｄモデルの自動的に生成したメタデータ欄の全てがサーバによって追加されるとともに検証のためにユーザに対して表示される。動作８５０において、ユーザは、サーバによって提示されたメタデータの自動的に生成した値を検証及び修正する。一旦、メタデータが検証（場合によっては編集）されると、結果的に得られるメタデータを動作８６０で出力することができ、３Ｄモデルは、３次元モデルを有する電子商取引リスティングの作成のような他の状況で用いられ、この場合、自動的に生成したメタデータを、電子商取引リスティングの種々の箇所を自動的に満たすために用いることができる。

電子商取引アプリケーションのメディアドキュメント
上述したように、自動的に生成したメタデータを有する３次元（３Ｄ）モデルのようなメディアドキュメントのメタデータを自動的に生成するアプリケーションの一例は、電子商取引アプリケーションにおけるものである。特に、販売される製品の３Ｄモデルを提供することは、ショッピング体験を向上させることができ、その結果、顧客が３Ｄ環境内で仮想的に商品を扱うことができるようにすることによる顧客の契約が増加し、これによって、製品のサイズ及び形状の更に実体験のように感じる理解を提供する。さらに、販売される製品の２Ｄ画像は、普通であり、購入者によって典型的に予測される。

製品についての視覚情報（例えば、画像及び３次元モデル）に加えて、電子商取引アプリケーションにおけるリスティングは、一般的には、名前（又はタイトル）、テキスト記述、タグ（又はキーワード）のような多量の関連のデータを含み、（通常カテゴリーと称される）種類に分かれている。特に、大規模な電子商取引のウェブサイトにおいて、リスティングカテゴリーは、数千以上ほどになることができ、サブカテゴリー関係を作成するツリー構造に分かれており、リストされた製品のそれぞれは一つ以上のカテゴリーに属する。

したがって、販売者が販売中の製品をリストすることを所望するとき、販売者は、販売する製品のメタデータ欄を満たす必要がある。一般的には、これは、手動の処理であり、製品リスティングページによって要求される情報を収集するとともに書式を埋めるのにかなりの時間及び労力を必要とすることがある。特に、リスティングがモバイルプラットフォーム（例えば、スマートフォン）から作成されるとき、この動作は、時間がかかるとともに面倒である。

したがって、本発明の実施の形態の態様による自動的なメタデータ生成によって、電子商取引ポスティング（ｅ−ｃｏｍｍｅｒｃｅｐｏｓｔｉｎｇｓ）のメタデータ欄を、キャプチャしたメタデータ（例えば、製品の写真又は物の３Ｄスキャン）を用いて自動的に追加することができる。本発明の一実施の形態を２次元画像及び３次元モデル本発明の実施の形態は、それに限定されず、ビデオのような他の形態のメディアに適用されてもよい（例えば、特徴ベクトルを、２Ｄ画像又は３Ｄモデルではなくビデオから抽出してもよく、結果的に得られる特徴ベクトルを、類似するエントリーからメタデータを自動的に検索するために画像に表された物を分類するとともに類似する物の画像及び／又はビデオを識別するのに用いてもよい。）。

このような種々のメタデータ欄（タイトル、種類、タグ、テキスト記述）の自動的な追加を、リスティングの自己更新構造化データベース（ｓｅｌｆ−ｕｐｄａｔｉｎｇｏｒｇａｎｉｚｅｄｄａｔａｂａｓｅ）によって取得し、これによって、効率的な分類動作及び検索動作を可能にする。

本発明を所定の例示的な実施の形態に関連して説明したが、本発明が開示した実施の形態に限定されず、添付した特許請求の範囲の精神及び範囲並びにその等価物に含まれる種々の変形及び等価の配置をカバーすることを意図することを理解すべきである。

Claims

メディアドキュメントのメタデータを自動的に生成する方法であって、
コンピュータによって、畳み込みニューラルネットワークを用いて前記メディアドキュメントの特徴ベクトルを算出することであって、前記メディアドキュメントは、３次元（３Ｄ）モデルであり、前記特徴ベクトルを算出することは、
前記コンピュータによって、前記３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から前記３Ｄモデルをレンダリングすることと、
前記コンピュータによって、一つ以上の畳み込みニューラルネットワークを用いて、各々が前記３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、
統合された特徴ベクトルを算出するために、前記コンピュータによって、前記２Ｄビューに対応する前記複数の単一ビュー特徴ベクトルを集約することであって、前記統合された特徴ベクトルは、前記２Ｄビューの数に依存しない一定の長さを有することと、
前記コンピュータによって、最終段階の畳み込みニューラルネットワークを用いて、前記統合された特徴ベクトルから前記特徴ベクトルを算出することと、
を備えることと、
前記コンピュータによって、前記メディアドキュメントの前記特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、前記一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、
前記コンピュータによって、前記一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいて前記メディアドキュメントのメタデータを生成することであって、生成されたメタデータは、前記一つ以上のマッチングメディアドキュメントの数なくとも一つのしきい値のメタデータに出現する前記メタデータの部分を含むことと、
前記コンピュータによって、生成したメタデータに関連して前記メディアドキュメントを表示することと、
を備える方法。
前記一群のメディアドキュメントは、一群の２次元（２Ｄ）画像を備え、
前記特徴ベクトルを算出することは、前記コンピュータによって、前記３Ｄモデルの一つ以上の特徴ベクトルを算出することを備え、
前記一つ以上のマッチングメディアドキュメントは、前記一群の２Ｄ画像の一つ以上のマッチング２Ｄ画像を備え、
前記マッチング２Ｄ画像の対応する特徴ベクトルの各々は、前記３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似する請求項１に記載の方法。
前記コンピュータによって、３次元スキャナを用いて前記３Ｄモデルをキャプチャすることを更に備え、前記３次元スキャナは、
二つ以上の赤外（ＩＲ）カメラと、
一つ以上のＩＲコリメート照明と、
を備える請求項１に記載の方法。
前記コンピュータによって、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを更に備える請求項１に記載の方法。
生成したメタデータ及び前記メディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を備え、
前記メタデータを生成することは、
前記コンピュータによって、前記複数の欄の各欄に対して、前記一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、
前記コンピュータによって、識別したデータを生成したメタデータに追加することと、
を備える請求項１に記載の方法。
生成したメタデータは、メディアドキュメントの種類を備え、
前記コンピュータによって、前記メディアドキュメントの種類を算出するために前記メディアドキュメントの特徴ベクトルを分類器に供給することと、
前記コンピュータによって、分類に基づいて前記種類を算出することと、
を備える請求項１に記載の方法。
前記コンピュータによって、前記メディアドキュメント及び生成したメタデータメタデータを前記一群のメディアドキュメントに追加することを更に備える請求項１に記載の方法。
前記一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間における前記メディアドキュメントの特徴ベクトルからの対応する距離を有し、
前記対応する距離の各々は、しきい値距離未満である請求項１に記載の方法。
前記コンピュータによって、前記メディアドキュメントに関連するメタデータを受け取ることを更に備え、
前記一群のメディアドキュメントを検索することは、前記コンピュータによって、前記メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する前記一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを備え、
前記マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを備える請求項１に記載の方法。
前記一群のメディアドキュメントは、第１のセットのメディアドキュメント及び第２のセットのメディアドキュメントを備え、
ユーザに関連するアクセスポリシーによって、前記第１のセットのメディアドキュメントへのアクセスを許可するとともに前記第２のセットのメディアドキュメントへのアクセスを拒否し、
前記一群のメディアドキュメントを検索することは、前記第１のセットのメディアドキュメントに限定される請求項１に記載の方法。
メディアドキュメントのメタデータを自動的に生成するシステムであって、
プロセッサと、
前記プロセッサによって実行されるときに、
畳み込みニューラルネットワークを用いて前記メディアドキュメントの特徴ベクトルを算出することであって、前記メディアドキュメントは、３次元（３Ｄ）モデルであり、前記特徴ベクトルを算出することは、
前記３Ｄモデルの複数の２次元（２Ｄ）ビューをレンダリングするために複数の角度から前記３Ｄモデルをレンダリングすることと、
一つ以上の畳み込みニューラルネットワークを用いて、各々が前記３Ｄモデルの２Ｄビューの一つに対応する複数の単一ビュー特徴ベクトルを生成することと、
統合された特徴ベクトルを算出するために、前記２Ｄビューに対応する前記複数の単一ビュー特徴ベクトルを集約することであって、前記統合された特徴ベクトルは、前記２Ｄビューの数に依存しない一定の長さを有することと、
最終段階の畳み込みニューラルネットワークを用いて、前記統合された特徴ベクトルから前記特徴ベクトルを算出することと、
を備えることと、
前記メディアドキュメントの前記特徴ベクトルに類似する対応する特徴ベクトルを有する一つ以上のマッチングメディアドキュメントの一群のメディアドキュメントを検索することであって、前記一群のメディアドキュメントの各メディアドキュメントがメタデータに関連することと、
前記一つ以上のマッチングメディアドキュメントに関連するメタデータに基づいて前記メディアドキュメントのメタデータを生成することであって、生成されたメタデータは、前記一つ以上のマッチングメディアドキュメントの数なくとも一つのしきい値のメタデータに出現する前記メタデータの部分を含むことと、
生成したメタデータに関連して前記メディアドキュメントを表示することと、
を前記プロセッサによって実行させる格納された命令を有するメモリと、
を備えるシステム。
前記一群のメディアドキュメントは、一群の２次元（２Ｄ）画像を備え、
前記特徴ベクトルを算出することの命令は、前記プロセッサによって実行されるときに、前記３Ｄモデルの一つ以上の特徴ベクトルを算出することを前記プロセッサによって実行させる命令を備え、
前記一つ以上のマッチングメディアドキュメントは、前記一群の２Ｄ画像の一つ以上のマッチング２Ｄ画像を備え、
前記マッチング２Ｄ画像の対応する特徴ベクトルの各々は、前記３Ｄモデルの一つ以上の特徴ベクトルの少なくとも一つに類似する請求項１１に記載のシステム。
二つ以上の赤外（ＩＲ）カメラと、
一つ以上のＩＲコリメート照明と、
を備える３次元スキャナを更に備え、前記メモリは、前記プロセッサによって実行されるときに、３次元スキャナを用いて前記３Ｄモデルをキャプチャすることを前記プロセッサによって実行させる命令を更に格納する請求項１１に記載のシステム。
前記メモリは、前記プロセッサによって実行されるときに、生成したメタデータの複数の欄の一つ以上の検証を備えるユーザ入力を受け取ることを前記プロセッサによって実行させる命令を更に格納する請求項１１に記載のシステム。
生成したメタデータ及び前記メディアドキュメントの各々に関連するメタデータはそれぞれ、複数の欄を備え、
前記メタデータを生成することの命令は、前記プロセッサによって実行されるときに、
前記複数の欄の各欄に対して、前記一つ以上のマッチングメディアドキュメントの二つ以上のしきい値のメタデータに出現するデータを識別することと、
識別したデータを生成したメタデータに追加することと、
を前記プロセッサによって実行させる命令を備える請求項１１に記載のシステム。
生成したメタデータは、メディアドキュメントの種類を備え、
前記メモリは、前記プロセッサによって実行されるときに、
前記メディアドキュメントの種類を算出するために前記メディアドキュメントの特徴ベクトルを分類器に供給することと、
分類に基づいて前記種類を算出することと、
を前記プロセッサによって実行させる命令を更に格納する請求項１１に記載のシステム。
前記メモリは、前記プロセッサによって実行されるときに、前記メディアドキュメント及び生成したメタデータメタデータを前記一群のメディアドキュメントに追加することを前記プロセッサによって実行させる命令を更に格納する請求項１１に記載のシステム。
前記一つ以上のマッチングメディアドキュメントの一つ以上の対応する特徴ベクトルの各々は、多次元空間における前記メディアドキュメントの特徴ベクトルからの対応する距離を有し、
前記対応する距離の各々は、しきい値距離未満である請求項１１に記載のシステム。
前記メモリは、前記プロセッサによって実行されるときに、前記メディアドキュメントに関連するメタデータを受け取ることを前記プロセッサによって実行させる命令を更に格納し、
前記一群のメディアドキュメントを検索することの命令は、前記プロセッサによって実行されるときに、前記メディアドキュメントに関連するメタデータの複数の欄のうちの少なくとも一つにマッチングするメタデータを有する前記一群のメディアドキュメントの一つ以上のメディアドキュメントを識別することを前記プロセッサによって実行させる命令を備え、
前記マッチングメディアドキュメントは、識別した一つ以上のメディアドキュメントの少なくとも一つを備える請求項１１に記載のシステム。
前記一群のメディアドキュメントは、第１のセットのメディアドキュメント及び第２のセットのメディアドキュメントを備え、
ユーザに関連するアクセスポリシーによって、前記第１のセットのメディアドキュメントへのアクセスを許可するとともに前記第２のセットのメディアドキュメントへのアクセスを拒否し、
前記一群のメディアドキュメントを検索することは、前記第１のセットのメディアドキュメントに限定される請求項１１に記載のシステム。