JP6759844B2 - 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 - Google Patents

画像を施設に対して関連付けるシステム、方法、プログラム及び装置 Download PDF

Info

Publication number
JP6759844B2
JP6759844B2 JP2016160161A JP2016160161A JP6759844B2 JP 6759844 B2 JP6759844 B2 JP 6759844B2 JP 2016160161 A JP2016160161 A JP 2016160161A JP 2016160161 A JP2016160161 A JP 2016160161A JP 6759844 B2 JP6759844 B2 JP 6759844B2
Authority
JP
Japan
Prior art keywords
image
business
facility
concept
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016160161A
Other languages
English (en)
Other versions
JP2017130182A (ja
Inventor
チェン ボーチュン
チェン ボーチュン
チェン インイン
チェン インイン
チェン フランシーン
チェン フランシーン
ジョシ ディラジ
ジョシ ディラジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2017130182A publication Critical patent/JP2017130182A/ja
Application granted granted Critical
Publication of JP6759844B2 publication Critical patent/JP6759844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Library & Information Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本発明は、一般に画像での施設(ビジネスベニュー;Business Venue)の認識に関し、より具体的には、視覚的関連性及びビジネス関連性を考慮した意味論を用いて、画像をその画像が撮影された施設に関連付けるシステム、方法、プログラム及び装置に関する。
ソーシャルプラットフォーム(例えばツイッター(登録商標))及び他のメディア共有アプリケーション(例えばインスタグラム(登録商標))は行動、思想、意見、及び画像を共有する目的で普及している。ソーシャルメディアメッセージ及び画像のジオタギング(例えば、ツイートや特定の画像に物理的位置又は施設名を関連付けること)は、アプリケーションが位置情報に基づいてユーザの経験を個人向けにカスタマイズすることを可能とする。しかしながらプライバシの心配のために、ソーシャルメディアメッセージを投稿するとき、または特定の施設で写真を撮るときにその位置を公表することを選ぶユーザはごく少数の割合であり、また別の人はそのメッセージ/写真を時々オープンにするだけである。ごく一部の画像しか位置へのジオタグ付けが明示的になされていないために、画像が撮影された施設を(例えば画像内の概念を識別することによって)判定することが有用である。
画像に対応する地理的位置を特定するための従来の方法は、地理的位置決めに用いる手法によって、(1)粗区画位置の利用と(2)画像のデータベース画像との比較、の2つのグループに大別される。いくつかのアプリケーションでは、粗区画位置の推定を計るが、画像が撮影された特定の施設を示す情報を提供しない。別のアプリケーションでは、データベース画像だけを頼りとして画像を特定の位置に合致させる。これらの別のアプリケーションは、画像を撮影された位置に対応するデータベース画像が得られない場合には機能しない。また、さらに別のアプリケーションでは低レベルの視覚パターンに頼っていて、画像内の視覚的に顕著な概念を認識しようとはしない。したがってこれらのさらに別のアプリケーションでは、明確な低レベルの視覚パターンを有さない通常の消費者画像を区別できないことが多い。
Tomas Mikolov, Kai Chen, Greg Corrado,及びJeffrey Deanによる"Efficient Estimation of Word Representation in Vector Space(ベクトル空間における単語表現の効果的評価)",(Proceedings of Workshop at ICLR,2013) Bird, Klein,及びLoperによる"Natural Language Processing with Python"(Pythonを用いた自然言語処理),2009 Krizhevsky,Sutskever,及びHintonによる"Imagenet classification with deep convolutional neural networks"(深い畳み込みニューラルネットワークを用いるイメージネット分類),2012
本発明は、画像に位置情報が対応付けられていなかったとしても、画像をその画像が撮影された施設に関連付けることができるシステム、方法、プログラム及び装置を得ることを目的とする。
本発明の第1の態様は、画像を施設に関連付ける方法であって、ディスプレイと、1つ以上の入力装置と、1つ以上のプロセッサと、メモリを有するコンピュータが、特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、複数の施設に関するテキスト形式のレビューと保存画像とを含むリポジトリから、前記複数の施設の内の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内にあり、訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、前記スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、方法である。
第2の態様は、第1の態様において、前記コンピュータが、前記第2の表現を受信する場合に、前記訓練された視覚検出器を用いて保存画像の第2の集合の各保存画像の解析に基づいて、各保存画像内に前記複数のビジネス関連概念を検出し、検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記各保存画像内に存在する尤度を反映するスコアに関連付けられ、さらに、第1の候補施設の第2の表現のそれぞれが、(i)0以上の関連スコアと、(ii)前記第1の候補施設に関連する各テキストレビューに対する1つ以上の単語表現とに基づいている。
第3の態様は、第1または第2の態様において、前記複数のビジネス関連概念の各概念は、(i)各概念はビジネス関連であり、(ii)各概念は視覚的に一貫しており、(iii)各概念は施設認識に関して弁別可能である、という条件を満たしている。
第4の態様は、第1〜第3のいずれかの態様において、前記複数のビジネス関連概念は、前記ビジネス関連概念を識別するために施設に関連するテキストと画像を探索することによって識別される。
第5の態様は、第1〜第4のいずれかの態様において、前記訓練された視覚検出器は前記複数のビジネス関連概念に関連する画像を利用し、かつクエリ画像の視覚概念を1つ以上の前記ビジネス関連概念に合致させるように構成された視覚概念検出器を構築することによって訓練される。
第6の態様は、第5の態様において、前記訓練された視覚検出器は、前記第1の画像を受信する前に訓練される。
第7の態様は、第1〜第6のいずれかの態様において、前記第1の画像を前記第1の候補施設に関連付ける前には、前記リポジトリには前記第1の候補施設に関連する画像が含まれていない。
第8の態様は、第1〜第7のいずれかの態様において、与えられる指示には、前記第1の画像が前記第1の候補において撮影されたことを示すテキスト記述のついた視覚指示が含まれる。
第9の態様は、第1〜第8のいずれかの態様において、前記第1の表現が第1の候補施設のそれぞれの第2の表現に最も類似していることを判定するステップは、前記第2の表現のそれぞれが前記複数のビジネス関連概念の多次元空間における前記第1の表現に最も近いことを判定すること含む。
第10の態様は、第1〜第9のいずれかの態様において、前記第1の画像を受信する前に、前記複数のビジネス関連概念が前記施設に関連する画像とテキストレビューを解析することにより識別されて、以下の条件、(i)各概念はビジネス関連性がある、(ii)各概念は視覚的に一貫している、(iii)各概念は施設の認識に関して弁別可能である、を満たす概念が配置される。
第11の態様は、第1〜第10のいずれかの態様において、前記第1の画像を前記第1の候補施設に関連付けるステップが、前記第1の画像を前記リポジトリ内に保存するために送信することを含む。
第12の態様は、第1〜第11のいずれかの態様において、前記受信した第1の画像は室内環境で撮影された画像に対応する。
第13の態様は、第1〜第12のいずれかの態様において、前記受信した第1の画像は室外環境で撮影された画像に対応する。
第14の態様は、第1〜第13のいずれかの態様において、前記特定の地理領域は、前記第1の画像が撮影された地点の近似座標に関連づけられる。
第15の態様は、第1〜第14のいずれかの態様において、前記特定の地理領域は、前記第1の画像が撮影されたときに前記コンピュータによって検出されたWi−Fi信号に基づいて判定される。
第16の態様は、第1〜第15のいずれかの態様において、前記第1の表現は、前記第1の画像の多モード表現である。
第17の態様は、第1〜第16のいずれかの態様において、前記高スコアのビジネス関連概念は、スコア閾値を超える指定スコアに関連付けされる。
第18の態様は、第1〜第17のいずれかの態様において、前記複数の施設に関連するテキストレビュー及び保存画像の前記リポジトリは、前記コンピュータから遠隔地にあるサーバシステムに保持される。
第19の態様は、ディスプレイと1つ以上の入力装置と1つ以上のプロセッサとメモリとを有するコンピュータによって実行されるプログラムであって、前記コンピュータに、特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、複数の施設に関連するテキスト形式のレビューと保存画像のリポジトリから、前記複数の施設の内の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内にあり、訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、前記関連スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、処理を実行させる命令を含んでいる。
第20の態様は、ディスプレイと、1つ以上の入力装置と、1つ以上のプロセッサと、メモリと、1つ以上のプログラムと、を備える装置であって、前記1つ以上のプログラムは前記メモリ内に格納されて前記1つ以上のプロセッサによって実行されるように構成されており、前記1つ以上のプログラムには、特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、複数の施設に関連するテキストレビューと保存画像のリポジトリから、前記複数の施設の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内に位置し、訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念のそれぞれは、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、前記関連スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、ための命令が含まれている。
本発明によれば、視覚的関連性及びビジネス関連性を考慮した意味論を用いて、画像をその画像が撮影された施設により正確に関連付けることができる。
一態様による、クエリ画像(例えば撮影場所の施設にまだ関連付けされていない画像)に対する施設関連付けシステムを示すブロック図である。 一態様によるサーバを示すブロック図である。 一態様によるクライアント装置を示すブロック図である。 一態様による、ビジネス関連概念を発見し、視覚検出器を訓練し、訓練された視覚検出器と単語表現モデルを利用してクエリ画像を施設に関連付ける方法を示すフローチャートである。 一態様による、ビジネス関連概念を発見し、視覚検出器を訓練し、訓練された視覚検出器と単語表現モデルを利用してクエリ画像を施設に関連付ける方法を示すフローチャートである。 一態様による、ビジネス関連概念を発見し、視覚検出器を訓練し、訓練された視覚検出器と単語表現モデルを利用してクエリ画像を施設に関連付ける方法を示すフローチャートである。 一態様による、画像を施設に関連づけるプロセスに使用される画像の例である。 一態様による、画像を施設に関連づけるプロセスに使用される画像の例である。 一態様による、画像を施設に関連づけるプロセスに使用される画像の例である。 一態様による、訓練された視覚検出器と単語表現モデルを利用してクエリ画像を施設に関連付ける方法を示すフローチャートである。 一態様による、画像を施設に関連付けるプロセスのフローチャートである。 一態様による、本明細書に開示した画像を施設に関連づけるシステムと方法の性能を示す、解析表及びグラフである。 一態様による、本明細書に開示した画像を施設に関連づけるシステムと方法の性能を示す、解析表及びグラフである。 一態様による、本明細書に開示した画像を施設に関連づけるシステムと方法の性能を示す、解析表及びグラフである。 一態様による、本明細書に開示した画像を施設に関連づけるシステムと方法の性能を示す、解析表及びグラフである。
次に様々な態様を参照し、その実施例を添付の図面に示す。以下の詳細な説明において、本発明及びその説明された態様の完全な理解を与えるために多数の具体的詳細を記述する。ただし本発明はこれらの特定の詳細なしでも実行し得る。他の例においては、態様を不必要に曖昧にしないために周知の方法、手順、コンポーネント、及び回路は説明しない。
図1は、ある態様による、サーバシステム104の一部である視覚検出器訓練モジュール114を含む分散システム100のブロック図である。分散環境100には、1つ以上のクライアント装置102(例えば、クライアント102−1、...、102−s)が含まれ、それぞれが個別のユーザ106(例えば、ユーザ106−1、...、106−s)で操作される。クライアント装置102とユーザ106との間には必ずしも1対1の対応はない。サーバシステム104は、インターネットなどの1つ以上の通信ネットワーク108によってクライアント102と相互接続されている。
クライアント102(“クライアント装置”、“クライアントコンピュータ”、又は“コンピュータ装置”とも呼ばれる)は、クライアント102のユーザ106がそこを経由してサーバシステム104にリクエストを送り、そこから結果又はサービスを受け取る任意のコンピュータ又は類似のデバイスであってよい。クライアント装置の例としては、デスクトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、携帯電話、携帯情報端末、セットトップボックス、又はこれらの任意の組合せがある。クライアント102は典型的にはクライアントアプリケーション326を実行し、これはサーバシステム104にリクエストを送ることができる。例えば、クライアントにはウェブブラウザ324又は他のタイプのアプリケーションを含むものがあって、通信ネットワーク108を介してサーバシステム104からアクセスされるリソース(例えばウェブページ及びウェブサービス)をユーザ106が検索、ブラウズ、及び/又は利用することができる。
いくつかの例では、クライアント装置102は、ラップトップコンピュータ又はスマートフォンなどの携帯機器である。ユーザ106は普通携帯機器102を使って、メッセージ交換や、ツイッター(登録商標)、フォースクエア(登録商標)、Yelp(登録商標)、インスタグラム(登録商標)、フェースブック(登録商標)などの外部サービス122と対話するソーシャルメディアアプリケーションを実行する。サーバシステム104を外部サービス122に接続してテキストによるレビュー及び保存画像を取得し、画像内のビジネス関連概念を識別するためのビジネス関連概念の発見及び視覚検出器の訓練に利用する。
ある態様においては、クライアント装置102にローカルな分類コンポーネント(例えばアプリケーション326)が含まれ、これがサーバシステム104の視覚検出器訓練モジュール114と連携して、分類システムのコンポーネントとして作用する。ある態様においては、分類コンポーネントは外部サービス122又はサーバシステム104に格納された大規模なソーシャルメディア画像データベースからのデータを構成し、取り出すためのソフトウェアアプリケーションである。ある態様ではローカル分類コンポーネントはクライアント102で実行され、別の態様ではローカル分類コンポーネントは、サーバシステム104の分類モジュール114のコンポーネントである。ある態様では、ローカル分類コンポーネントと分類モジュール114はサーバシステム104内の別々のサーバに実装される。
通信ネットワーク108は、イントラネット、インターネット、またはそれらのネットワークの組合せなどの、任意の有線又は無線のローカルエリアネットワーク(LAN)、及び/又はワイドエリアネットワーク(WAN)であってよい。ある態様では通信ネットワーク108は、伝送制御プロトコル/インターネットプロトコル(TCP/IP)を利用する情報の伝送にハイパーテキスト転送プロトコル(HTTP)を利用する。HTTPは、クライアントコンピュータが通信ネットワーク108を介して接続可能な様々なリソースへのアクセスを可能とする。本明細書において使用される“リソース”という用語は、コンテンツ位置識別子(例えばURL)を介してアクセス可能な任意の情報及び/又はサービスを指し、例えば、ウェブページ、ドキュメント、データベース、画像、計算オブジェクト、サーチエンジン、又はその他のオンライン情報サービスであってよい。
ある態様において、サーバシステム104はコンテンツ(例えば、施設(テキストレビューと保存画像)、ソーシャルメディアメッセージ、ウェブページ、画像、デジタル写真、ドキュメント、ファイル、及び広告)を配信する。ある態様では、サーバシステム104は多くのファイルまたは様々なタイプの他のデータ構造を含み、これらのファイルやデータ構造には、テキスト、グラフィックス、ビデオ、オーディオ、デジタル写真、及びその他のデジタルメディアファイルが含まれる。
ある態様では、サーバシステム104は視覚検出器訓練モジュール114を含んでいる。視覚検出器訓練モジュール114は、施設に関する既存のデータの大規模なコレクションを利用する、機械学習アプリケーションである。ある態様では、既存データの大規模なコレクションには、視覚検出器の訓練プロセスを自動化するための、視覚画像、Yelp(登録商標)等のサービスにより保存されたテキストレビュー、フォースクエア(登録商標)等のサービスによって保存された施設が含まれている。そうして視覚検出器が画像内のビジネス関連概念の識別に使用される。
ある態様では、サーバシステム104が外部サービス122に接続され、テキストレビューと外部サービス122が収集した保存画像などの情報を取得する。取得された情報は次にサーバ104上のデータベース112に格納される。ある態様では、データベース112にはテキストレビュー228と保存画像230が格納されている。このデータを利用して、ビジネス関連概念を見つけ出し、見つけ出されたビジネス関連概念を画像内に検出するように視覚検出形を訓練し、既存の施設とまだ関連付けされていない画像の表現(例えばベクトルに基づく表現)が行われる。ある態様では、ビジネス関連概念を見つけ出すときに、ビジネス関連概念232がデータベースに格納される。ある態様では、データベース112はほかのデータもまた格納している(例えば、視覚検出器224、及びクエリ画像と施設238の生成された表現など)。
図2は、サーバシステム104で使用され得る、サーバ200を示すブロック図である。典型的なサーバシステムには、多くの個別のサーバ200が含まれ、これらは一緒に配置されていてもよいし、複数の別々の物理位置に配置されていてもよい。サーバ200は典型的には1つ以上のプロセッサユニット(CPU)202を含んで、モジュール、プログラム又はメモリ214に格納された命令を実行する。それによってプロセス操作、1つ以上のネットワークまたはそれ以外の通信インタフェース204、メモリ214、及びこれらのコンポーネントを相互接続するための1つ以上の通信バス212を遂行する。通信バス212には、システムコンポーネント間の通信を相互接続して制御する回路(チップセットと称されることもある)が含まれていてもよい。ある態様では、サーバ200にはユーザインタフェース206が含まれ、これがディスプレイ装置208と、キーボードとマウス等の1つ以上の入力装置210を含んでいてもよい。
ある態様では、メモリ214には、DRAM、SRAM、DDR RAMやその他のランダムアクセス固体素子メモリ装置、などの高速ランダムアクセスメモリが含まれている。ある態様では、メモリ214には、1つ以上の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、又はその他の不揮発性固体記憶装置などの、不揮発性メモリが含まれている。ある態様では、メモリ214には、CPU202から遠隔位置にある、1つ以上の記憶装置が含まれている。メモリ214、又はそれに代わってメモリ214内部の不揮発性メモリ装置は、非一時的コンピュータ可読記憶媒体を備えている。ある態様では、メモリ214又はメモリ214のコンピュータ可読記憶媒体は、以下に述べるプログラム、モジュール、及びデータ構造あるいはその部分集合を格納する。
オペレーティングシステム216。これは様々な基本システムのサービスを取り扱い、またハードウェアに依存するタスクの遂行のための手順を含んでいる。
通信モジュール218。これは1つ以上の通信ネットワークインタフェース204(有線又は無線)及び、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、大都市圏ネットワークなどの通信ネットワーク108を介して、サーバ200を他のコンピュータに接続するために利用される。
ユーザインタフェースモジュール220。これは1つ以上の入力装置210から入力を受信し、ディスプレイ装置208上にディスプレイするためのユーザインタフェース要素を生成する。
1つ以上のウェブサーバ110。これはクライアント装置102からリクエストを受信し、それぞれのウェブページ、リソース、又はリンクを返す。ある態様では、各リクエストはデータベース112に記録される。
データベースアクセスモジュール222。これはデータベース112に格納されているデータの読み出し、書き込み、及びクエリのための手順を含んでいる。
視覚検出器訓練モジュール114。これは、図4A〜図4C、図5、図6に関して後で述べるように、画像内のビジネス関連概念を検出するように1つ以上の視覚検出器224を訓練するために使用される。
1つ以上のデータベース112。これは視覚検出器訓練モジュール114及び/又は視覚検出器224によって使用されるデータを格納する。ある態様では、データベース112は、SQLデータベース等のリレーショナルデータベースである。一方、他の態様ではデータベース112は、JSONオブジェクト等のデータ構造のコレクション、又はリレーショナルデータベースと非リレーショナル形式で格納されたデータ構造との組合せを含む。ある態様では、データベースには次のものが格納される。
(a)多様な外部サービス(例えばYelp(登録商標)、フォースクエア(登録商標)等の、図1の外部サービス122)から収集される多様な施設に関するテキストレビュー228、及びビジネス関連概念を見つけ出し、視覚検出器を訓練するのに利用される他の情報。
(b)多様な外部サービス(例えばインスタグラム(登録商標)、フェースブック(登録商標)等の、図1の外部サービス122−1)から収集される多様な施設に関連する保存画像230、及びビジネス関連概念を見つけ出し、視覚検出器を訓練するのに利用される他の情報。
(c)テキストレビュー228及び/又は保存画像230の解析に基づいて見つけ出されるビジネス関連概念232(ある態様では、ビジネス関連概念232が、施設の認識の目的で使用可能なビジネス関連性があり、視覚的に検出可能であり、弁別可能な用語である(すなわち、個々のビジネス関連概念232のそれぞれが、少なくとも画像内に個々のビジネス関連概念を信頼性良く検出できる等、視覚検出器を訓練可能である)ことを確実とするために、見つけ出された各ビジネス関連概念232がビジネス関連概念に対する予め定められた仕様に合致していることの検証に保存画像230が利用される。)
(d)生成されたクエリ画像と施設238の表現。これは図4A〜図4C、図5、図6を参照して後で詳細を説明するように、個々のクエリ画像に対して最も類似した施設を配置するために利用される。
視覚検出器224を利用して画像内に(例えば、まだ施設に関連付けられていないクエリ画像内、及び/又は既に施設に関連付けられている保存画像230内に)ビジネス関連概念を識別するための、概念検出モジュール234:ある態様では、概念検出モジュール234は画像を受信した後、各ビジネス関連概念が画像内に存在する尤度を特定する、各ビジネス関連概念に対する(例えばビジネス関連概念232の)スコアのベクトルを生成する。
クエリ画像と施設238の形成された表現を作成/生成/形成するための表現形成モジュール236(例えば、ビジネス関連概念のスコアのベクトルと単語表現を含む)。
図2における上記で明らかにされた各要素は、既述の1つ以上のメモリ装置に格納され得る。実行可能なプログラム、モジュール、又は手順のそれぞれが、上記の機能を遂行するための命令セットに対応する。上記で明らかにさされたモジュール又はプログラム(すなわち、命令セット)は個別のソフトウェアプログラム、手順、又はモジュールとして実装される必要はない。そしてこれらのモジュールの様々な組み合わせが様々な態様において結合あるいは再構成され得る。ある態様では、メモリ214が上記のモジュールの組み合わせとデータ構造を格納する。さらに、メモリ214は上記以外のモジュールやデータ構造も格納し得る。
図2はサーバ200を示しているが、図2は、本明細書に記載の態様の構造形式というよりもむしろ、サーバシステム104で使用されるサーバに存在することができる様々な特徴の機能的表示としてより多くの意図を持っている。実際に、また当業者に理解されているように、個別に示されている項目は組合せ可能であり、またある項目は分離することもできる。サーバシステム104の機能を実装のために使用されるサーバ200の実際の数とそれらへの機能の割当て方法は、態様ごとに異なり、使用量がピークの期間及び使用量が平均的な期間でシステムが処理しなければならないデータ量に部分的に依存し得る。
図3はある態様によるクライアント装置102のブロック図である。クライアント装置102には、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、スマートフォン、PDA、民生用カメラ、ファーストパーソンカメラ、スマートウォッチが含まれる。ある態様では、ソーシャルメディアインタラクションを改良するために(例えば、特定のユーザが以前に訪問した施設を基にして標的となった施設をよりよく推薦するために)、クライアント装置102には画像を処理してそれを施設に関連付ける少なくとも1つのサーバ(例えばソーシャルメディアサービスに接続された)が含まれている。クライアント装置102は典型的には、1つ以上の処理ユニット(CPU)302と、1つ以上のネットワークインタフェース304と、メモリ314と、ユーザインタフェース306と、これらのコンポーネントを相互接続する1つ以上の通信バス312(チップセットと呼ばれることもある)とを含んでいる。ユーザインタフェース306には、メディアコンテンツを提示可能であって1つ以上のスピーカ又は1つ以上の視覚ディスプレイを含む1つ以上の出力装置308が含まれている。ユーザインタフェース306にはまた1つ以上の入力装置310が含まれ、これは、キーボード、マウス、音声命令入力ユニットまたはマイクロフォン、タッチスクリーンディスプレイ、タッチスクリーン、タッチ式入力パッド、カメラ(例えば様々な施設の写真撮影のためのカメラ、ただしその写真には位置情報が保存されないこともある)、ジェスチャキャプチャカメラ、又はその他の入力ボタンや制御器などのユーザ入力を支援するユーザインタフェースコンポーネントが含まれる。さらに、クライアント装置102のあるものは、マイクロフォンと音声認識、又はカメラとジェスチャ認識をキーボードに補足して又は置き換えて利用する。
メモリ314には、DRAM、SRAM、DDR RAMやその他のランダムアクセス固体素子メモリ装置、などの固体ランダムアクセスメモリが含まれている。ある態様では、メモリには、1つ以上の磁気ディスク記憶装置、1つ以上の光ディスク記憶装置、1つ以上のフラッシュメモリ装置、又は1つ以上のその他の不揮発性固体記憶装置などの、不揮発性メモリが含まれている。ある態様では、メモリ314には、処理ユニット302から遠隔位置にある、1つ以上の記憶装置が含まれている。メモリ314、又はそれに代わるメモリ314内部の不揮発性メモリは、非一時的コンピュータ可読記憶媒体を備えている。ある態様では、メモリ314又はメモリ314の非一時的コンピュータ可読記憶媒体は、以下に述べるプログラム、モジュール、及びデータ構造あるいはその部分集合を格納する。
オペレーティングシステム316。これは様々な基本システムのサービスを取り扱い、またハードウェアに依存するタスクの遂行のための手順を含んでいる。
通信モジュール318。これは1つ以上の通信ネットワークインタフェース304(有線又は無線)及び、インターネット、その他の広域ネットワーク、ローカルエリアネットワーク、大都市圏ネットワークなどの通信ネットワーク108を介して、クライアント装置102を他のコンピュータと装置に接続するために利用される。
ディスプレイモジュール320。これは1つ以上の入力装置310から入力を受信し、ディスプレイ装置308上にディスプレイするためのユーザインタフェース要素を生成する。
1つ以上のユーザ入力または1つ以上の入力装置310からのインタラクションを検出し、検出された入力またはインタラクションを解釈するための、入力処理モジュール322。
ユーザがネットワーク108(インターネットなど)を介してリモートコンピュータ又は装置と通信可能となるウェブブラウザ324。
クライアント装置102で実行するように構成された、1つ以上のアプリケーション326−1〜326−u。様々な態様において、アプリケーション326には、カメラモジュール、センサモジュール、1つ以上のゲーム、アプリケーション市場、支払いプラットフォーム、及び/又はソーシャルネットワークプラットフォームが含まれる。ある態様では、1つ以上のアプリケーション326がウェブブラウザ324内で動作する。ある態様では1つ以上のアプリケーションに、装置102のユーザが(例えば、図4A〜図4C、図5、及び図6を参照して後で説明する等、任意の方法を利用して)関連する施設の処理と識別のために画像の投入を可能とするアプリケーションが含まれている。
装置102又は装置102のユーザ106に関する情報を含む、クライアントデータ328。ある態様では、クライアントデータ328には1つ以上のユーザプロファイル330が含まれ、これには装置102のユーザが訪問したことのある施設に関するユーザ固有の情報が含まれ得る。これを利用してクエリ画像に関連する施設の識別に対する支援(例えば候補施設のリストの精選/選択支援)が可能となる。ある態様では、クライアントデータ328には、クライアント装置でのユーザアクティビティを記録するユーザデータが含まれる。
任意選択で概念検出モジュール234が含まれる。これは視覚検出器224を利用して(例えば、サーバ200や1つ以上の視覚検出器224から受信した後、クライアント装置は検出プロセスをローカルに実行可能である)、画像(例えばまだ施設に関連付けられていないクエリ画像、及び/又は既に施設に関連付けられている保存画像230)の中にビジネス関連概念を識別するためのものである。ある態様では、概念検出モジュール234が(例えば装置のユーザから)画像を受信した後、個々のビジネス関連概念が画像内に存在する尤度を特定する、(例えば、複数のビジネス関連概念232の内の)各ビジネス関連概念に対するスコアのベクトルを作成する。
任意選択により、クエリ画像と施設238の形成された表現(例えば、ビジネス関連概念のスコアのベクトルと単語表現を含む)を作成/生成/形成するための表現形成モジュール236を含む。
任意選択により、データベース112(図2)に保存されたデータのすべて又は一部を保存するための1つ以上のデータベース338を含む。例えばネットワークのトラフィック状態が遅いとき、ネットワークを介して1つ以上のサーバ200と情報を交換する場合よりもより効率的にデータをローカルに保存及びアクセスすることができる。
上で述べた実行可能なモジュール、アプリケーション、又は手順の組のそれぞれは、既述の1つ以上のメモリ装置に格納することができ、前述した機能を遂行するための命令の組に対応する。上記の識別されたモジュール又はプログラム(すなわち、命令セット)は個別のソフトウェアプログラム、手順、又はモジュールとして実装される必要はない。そしてこれらのモジュールの様々なサブセットが様々な態様において結合あるいは再構成され得る。ある態様では、メモリ314が上記のモジュールサブセットとデータ構造を格納する。さらに、メモリ314は上記以外のモジュールやデータ構造も格納し得る。
図3はクライアント装置102を示しているが、図3は本明細書に記載の態様の構造形式よりもむしろ、様々な特徴の機能を記述することをより大きな意図としている。実際に、また当業者に理解されるように、個別に示されている項目は組合せ可能であり、またある項目は分離することができる。
ある態様では、サーバシステム104の機能のあるものはクライアント装置102で遂行され、これらの機能に対応するサブモジュールは、サーバシステム104よりもむしろクライアント装置102にあってもよい。その逆にある態様では、クライアント装置102の機能のあるものはサーバシステム104で遂行され、これらの機能に対応するサブモジュールは、クライアント装置102よりもむしろサーバシステム104にあってもよい(例えば、ビジネス関連概念発見操作のあるもの、及び視覚概念検出と訓練操作のあるものはクライアント装置とサーバ装置で共有されてもよい)。図2と図3に示すサーバ200とクライアント装置102はある態様を示している。他の構成を利用して本明細書に記載の機能を実装してもよい。
図4A〜図4Cはある態様による、ビジネス関連概念を発見し、視覚検出器を訓練し、訓練された視覚検出器を利用して施設に関連するクエリ画像を発見する方法を示すフローチャートである。ある態様では、方法400(および関連する方法404と410)がコンピュータ装置(例えば、図1のコンピュータ装置102)、及び/又はコンピュータ装置の1つ以上のコンポーネント(例えば、オペレーティングシステム126など)によって遂行される。ある態様では、方法400が1つ以上のサーバ200(図2)との組み合わせで、コンピュータ装置によって遂行される。例えば、1つ以上のサーバ200がコンピュータ装置102にデータを送信し、コンピュータ装置はそれを利用して方法400の操作を実行する(例えば、方法400のある操作が1つ以上のサーバ200によって遂行される)。ある態様では、方法400は非一時的コンピュータ可読記憶媒体に格納された命令によって管理され、装置102の1つ以上のプロセッサ302等、装置の1つ以上のプロセッサによって実行される。説明を簡単にするために、装置102により遂行される方法400を以下に述べる。ある態様では、図3を参照して、方法400の操作がデータベース338と概念検出モジュール334と表現形成モジュール336の少なくとも一部によって遂行されるか、又はそれを利用する。装置102はまた、方法400、入力装置310、及び/又はディスプレイ308(例えば、タッチセンサディスプレイ)の1つ以上の操作の遂行に利用される1つ以上のサーバ200からのデータ(例えば、テキストレビュー228、保存画像230、ビジネス関連概念238、及びクエリ画像と施設238の生成された表現、図2)を受信する。方法400の操作のあるものは任意選択により結合され、及び/又はある操作の順番が任意選択により変更される。
図4Aに示すように、例示の施設認識方法400は、施設に関する画像とテキストデータ(例えば、レビュー、会社プロフィールなど)の取得(402)から始まる。ある態様では、取得されたテキストデータは、ユーザが施設に関するレビューを投稿できる、Yelp(登録商標)やその他のオンラインサービス等のデータソースから収集される。ある態様では、画像は、インスタグラム(登録商標)、Yelp(登録商標)、又はユーザが特定の施設に関連して画像を投稿できる類似のサービスなどのオンラインサービスから取得される。次にこの方法が、取得されたテキストデータと画像データを利用して、視覚検出器に画像内のビジネス関連概念の検出を訓練させる(406)ことのできるビジネス関連概念の発見を行う(404)。ビジネス関連概念の発見に関する追加の詳細は、図4Bと図5を参照して後で述べる。
この方法には、クエリ画像を受信し(408)、そのクエリ画像を(操作410と、操作406で訓練された視覚検出器を利用して)解析して、クエリ画像内に発見されたビジネス関連概念を検出する。操作408に示すクエリ画像例から検出され得るビジネス関連概念の例として、“エスプレッソ”、“コーヒー”及び“テーブル”がある。ある態様では、ビジネス関連性畳み込みニューラルネットワーク(“BA−CNN”)を利用して、クエリ画像コンテンツ内のビジネス関連概念検出のための視覚検出器の訓練を行う。そして検出されたビジネス関連概念にはそれぞれスコアを割り当てて、検出されたビジネス関連概念がその画像コンテンツ内に存在する尤度を反映させる(すなわち、検出操作がスコアの第1のベクトルとビジネス関連概念を出力する)。別の表現をすれば、BA−CNNが視覚検出器の訓練のためにビジネスレビューから探索された意味のある信号を組み込み、ビジネス関連特徴を抽出する。次に1つ以上の検出された概念が、さらに用語ベクトル(例えば、クエリ画像に関連する第2のベクトル)によって表現される。ある態様では、用語ベクトルは既知の単語表現モデル(例えば、非特許文献1(これは参照によりその全体を本明細書に援用する)に記載のWord2Vecなど)を利用して構築される。第1のベクトルと第2のベクトルは次に、データベース内の施設の表現に対してクエリ画像が一致するように表現する(410)(例えば、クエリ画像表現に最も近い施設の表現を見つける)。ある態様では、第1と第2のベクトルは、第1の画像の多モード表現を形成する。
これに加えて、そして図4Cと図5を参照して後で説明するように、施設に関する保存画像とテキストデータはまた、施設(例えば、図4Cと図5を参照して後で説明する選択された候補施設)に関する表現(例えば用語ベクトルとテキストデータと画像に対する視覚概念スコア)を生成するために、操作406と410を用いて解析される。例えば、各画像に関する視覚概念と1つ以上の単語表現(すなわち用語ベクトル)が上記のように(操作410において)事前計算される。テキストデータもまた用語ベクトルで表される。クエリ画像の視覚概念と単語表現は次に、テキストデータと保存画像から抽出されたものと一致させられる。最もよい一致をする画像とテキストレビューに関連する施設が、最も可能性の高い施設として返される(412)。
ある態様では、表現の2つのモダリティ(例えば、画像とテキスト)にわたって最もよく一致する画像とテキストレビューを配置するプロセスは、(1)モダリティ全体に亘る連結表現(“早期融合”とも呼ばれる)と、(2)各単一表現を同一モダリティの他のものと比較して、一致スコアを平均化する(“後期融合”とも呼ばれる)、の1つを利用して実行される。
(1)ある態様では、早期融合による一致には、第1のベクトル(すなわちクエリ画像に対するスコアと関連するビジネス関連概念)と、第2のベクトル(すなわちクエリ画像に対する用語ベクトル)をクエリ画像に対する単一ベクトル表現として連結し、それを次にデータベース内の保存画像と施設のテキストレビューと一致させるために利用することが含まれる。施設に関連している(すなわち、所属している)クエリ画像の尤度は、各施設に対する各連結ベクトル表現と比較した場合の、クエリ画像に対する単一ベクトル表現の類似性に基づいている。
(2)ある態様では、後期融合による一致には、単一モダリティに亘り、連結を用いない一致が含まれる。例えば、第1のベクトルはデータベース内の各保存画像と比較され(あるいはそれと一致させられ)、第2のベクトルはデータベース内の各テキストレビューと比較される(あるいはそれと一致させられる)。各単一モダリティに亘る類似性スコアは次に融合されて(例えば平均化されて)、クエリ画像が施設に属する(または関連する)全体としての尤度が取得される。ある態様では、上記の(1)と(2)のいずれか又は両方に対する類似性尺度の計算は、例えばユークリッド距離、距離メトリック学習、ランク付け学習、などの様々な方法論を通して行われ得る。
次に図4Bを参照すると、ビジネス関連概念404の発見方法の例が(図4Aで示したものに加えて)示されている。前で説明したように、方法400の操作402は、施設に関するテキストデータと画像データを取得することが含まれ、ビジネス関連概念を発見するためにそのテキストデータが402−Aで識別される。具体的にはビジネス関連概念が(自動的かつ人手の介入なしで)テキストデータから探索される。上記のようにビジネス関連概念は意味概念であり、一連の既定条件(ビジネス関連性、視覚検出性、及び弁別性)を満足する。ある態様においては、既定の条件として以下のものがある。(1)ビジネス関連性:施設への関連性(例えば、“地球”は良好なビジネス関連概念ではない、それは施設には通常使用されない可能性があるからである。他方で、“猫”は良好なビジネス関連概念であり得る。それは近くのペットショップによく見かけ得るからである。)(2)視覚検出性:画像内の視覚コンテンツにおける検出可能性(例えば、“病気”は病院でよく見かけられるが画像コンテンツで検出することは困難であり、したがって良好な検出可能概念ではない。他方で、“薬”は検出するのにより一貫した視覚パターンを有しており、良好な視覚概念である。)(3)弁別性:異なる施設を区別する弁別力(例えば、“人”は一般的な施設に現れるので十分な弁別性がない。その一方で“バーガー”はアメリカンレストランでよく見かけられるので良好な概念であり得る。)
予め定められた条件を満足する概念を識別するために、404−Aにおいて頻出名詞が抽出される(例えば、レストラン特有の名詞、買い物に特有の名詞、ナイトライフ関係の名詞、など)。そして、不快用語/一般的な用語が除外される(404−B)。そうして残った候補の集合が作成される(404−C)。ある態様では、ビジネス関連性に関する既定条件を確実に満足させるために、ソーシャルメディアウェブサイト(例えば、Yelp(登録商標))上のローカルビジネスのレビューから候補概念が探索される。ある態様では、施設はYelp(登録商標)のビジネス区分形態(例えば、レストラン、アクティブライフ、自動車、など)における最上位区分によって分類される。次に一定数(例えば、3,000)のテキストレビューが各ビジネス区分からそれぞれ収集される。各区分から予め定められた数(例えば、500)の頻出名詞が、そのドキュメントの頻度に基づいて候補概念として選択される。ある態様では、非特許文献2(参照によりその全体を本明細書に援用する)に記載のNLTKツールキットを用いてレビュー内の単語をトークン化して品詞タグを見つける。ある態様では、視覚検出性を高めるために、名詞のみが候補概念の初期集合に含まれるように選択される(図4Bの404−Aに示すもの)。候補概念の初期集合内にある各候補概念の弁別性の既定条件を確実に満足するために、10を超える異なる区分に現れる概念、及び不快用語(例えば、図4Bの404−Bに示されるものなどの、インスタグラム(登録商標)のAPIでブロックされる用語)を含むものとして識別される概念もまた除外される。一例として、表1(下記)に本明細書に開示の態様に従って発見された候補概念の例を示す。
404−Dにおいて概念選択が進められて既定条件の組を満足しない候補概念がさらに除外される。例えば、404−Eにおいて、精度の低い概念(例えば視覚的に検出できないもの)、及び高エントロピ概念(例えば弁別性のないもの)が除外される。除外プロセスの404−Dと404−Eの後に、1つのビジネス関連視覚概念の集合が残る(404−F)。そして残ったビジネス関連視覚概念は、既定条件の組を満足する意味概念である。ある態様では、ビジネス関連概念を発見するステップには、1つ以上の残ったビジネス関連概念に関連する画像を取得することと、各残存ビジネス関連概念が視覚的に検出可能であることを検証することが含まれる。各残存ビジネス関連概念が視覚的に検出可能であることの判定に従って、各残存ビジネス関連概念が後での使用に備えて(例えば、図2のデータベース112のビジネス関連概念232と共に)保存される。それぞれの残存ビジネス関連概念が視覚的に検出不可能であると判定されると、それぞれの残存ビジネス関連概念は後での利用のために保存されることはなく、廃棄される。
より具体的には、候補概念の初期集合を識別した後に、候補概念の初期集合の各概念を利用して予め定められた数(例えば、1,000)の画像をソーシャルメディアサービス(例えばインスタグラム(登録商標))から引き出す。ソーシャルメディアサービスからダウンロードされた画像はノイズが多いために、2重の交差検証を(たとえば、非特許文献3(この全体を参照により本明細書に援用する)に記載の畳み込みニューラルネットワーク(CNN)を用いて)行って、視覚概念の正確な検出学習のための適正画像を選択する。2重の交差検証を利用してその画像を2つの集合に分割し、各集合で別々の概念分類器を訓練して最終的にそのそれぞれを利用して他の集合の画像を検証する。
ある態様では、概念検出器の訓練に関する分類スコアに基づいて各集合から画像のある上位数(たとえば250)が決定される。図4Dは、“ピザ”という概念に関する交差検証選択をする前の例示的な訓練データを示す。図4Eは、交差検証選択の後の訓練データを示す。図に示すように、選択後の訓練データには視覚的一貫性が向上した画像が含まれ、それ故に選択後の画像は概念分類により優れた精度を発揮できる。1つの実験(下の表2に示す)では、単純にすべての画像を訓練データとして利用した場合の36.5%に比べて、交差検証選択では最大48.5%の分類精度が得られた。ある態様では、交差検証選択で85%の精度を達成できる。
交差検証選択の後、検証精度が50%未満の概念は(グランドトゥルースとしてハッシュタグを使って)候補概念の初期集合から排除し、概念の視覚検出性を高める。候補概念の初期集合内に残存する概念のうち、より弁別力の高いものが、以下の式を使った交差位置の正規化エントロピ計算によって判定される。
ここで、Xは概念cの施設の分布を表すランダム変数である。η(X(c))はその概念に対する正規化エントロピである。n(c)は概念cを有する施設の全数であり、p(x (c))はその概念が施設iに現れる確率である。ある態様では、インスタグラム(登録商標)(例えば、異なる1,000の施設に関連する250,000の画像を含む)からの画像のデータセットが利用され、正規化エントロピが施設への分散の観点から各概念に対して計算される。ある態様では、エントロピ値が最も低い一定数(例えば490)の概念が施設認識のためのビジネス関連視覚概念として選択される。図4Fは、概念と対応する画像のいくつかの例を示す。
図4Cは、クエリ画像と候補施設410の表現を生成する方法を示す(図4Cha,図4Aに示す操作410についてのさらなる情報を提供する)。クエリ画像を受信(408)した後、方法は、クエリ画像に関連付けられた近似位置情報の抽出/取得(408−A)に移行する。例えば、近似位置情報は、基地局の位置、WiFi送信機、画像データに関連付けられたGPSデータ、画像に関連付けられたポスティングデータ、知られたユーザの習性に基づく位置、等に基づき特定することができる。方法は、近似位置情報を用いて候補施設(すなわち、近似位置情報から予め定められた距離内に位置する施設)を識別し(414)、テキストレビュー(及び、会社プロフィール等の他の関連するテキストデータ)及び候補施設に関連付けられた保存された画像を取得する。
ある態様において、受信したクエリ画像に関連する候補施設を見つけるために、方法410は操作410−Aと410−Bと410−Aを適用して受信したクエリ画像(プロセスフロー416−A〜416−D)と、取得されたテキストレビュー(プロセスフロー420−A〜420−B)と、保存された画像(プロセスフロー418−A〜418−B)を解析する。
受信したクエリ画像の解析に関してある態様では、方法410が受信したクエリ画像を訓練された視覚検出器410−Aを利用して(フロー416−Aを介して)解析し、(例えば1つ以上の訓練された視覚検出器に関連する)各ビジネス関連概念が受信したクエリ画像内に存在する尤度を反映するビジネス関連概念のスコアを(フロー416−Bを介して)出力する。操作410−Aはまた、高スコア(すなわち各ビジネス関連概念が受信したクエリ画像内に存在する高い尤度)のビジネス関連概念を(フロー416−Cを介して)出力する。操作410−Bは単語表現モデルを利用して(フロー416−Dを介して)高スコアビジネス関連概念に対する単語表現を出力する。ある態様では、ビジネス関連概念のスコアと単語表現のベクトルに基づく表現が受信したクエリ画像の表現に使用される。
取得されたテキストレビューの解析に関しては、ある態様では方法410が単語表現モデルを利用して取得されたテキストレビューのそれぞれに対して1つ以上の単語表現を生成する(420−A及び420−B)。保存画像の解析に関しては、ある態様では方法410が訓練された視覚検出器を利用して各保存画像を(フロー418−Aを介して操作410―Aにおいて)解析し、各ビジネス関連概念が各保存画像内に存在する尤度を反映するビジネス関連概念のスコアを(フロー418−Bを介して)出力する。ある態様では、各候補施設に関する単語表現とビジネス関連概念スコアが各候補施設の候補に特有な表現を作成する。
ある態様では方法410が次に、受信したクエリ画像に最も類似する候補施設を見つけるために、受信クエリ画像の多モード表現を候補に特有な表現のそれぞれと比較する。別の表現をすれば、受信クエリ画像が検出されたビジネス関連概念の多次元空間内に第1のベクトルとして表現される。そして受信クエリ画像の表現と各施設に関連する他のオブジェクト(テキストレビューと保存画像)との間の距離が計算されて、受信クエリ画像に最もよく一致する候補施設が見つけ出される。(例えば候補施設は、多次元空間において、受信クエリ画像の表現に最も近いテキストレビュー/保存画像に関連している。)クエリ画像の表現を候補に特有な表現と比較して一致させることに関するさらなる詳細は、以前に図4Aを参照して提供されている。
次に図4Gでは、多モード施設認識のシステムフレームワークを示す追加のフローチャートが、ある態様に従って示されている。図4Gに示すように、クエリ画像が受信され、候補施設のリストがGPS(または、携帯電話アンテナによる三角測量やWiFi信号などの近似位置情報を決定する別の技術)を利用してソーシャルメディアから識別され、ビジネス関連概念がBA−CNNを利用して画像コンテンツから検出される。ある態様では、単語表現モデルもまた利用されて、単語表現を生成する。クエリ画像の視覚概念と単語表現は次に、データベース(例えば図2のデータベース112)に保存されたレビューと画像から抽出されたものに照合される。最も高い一致性を有する画像とレビューに関連する施設が最も可能性の高い施設として返される。
ある態様では、CNNの出力層で異なる種類のラベルで監視された特徴が利用されて、出力層の前の最後の完全接続層(FC7)からの活性化が画像を表現するための特徴として利用される。ラベルの種類は、ImageNet(ImageNet−CNN)で使用される汎用概念、ビジネス関連概念(BA−CNN(C))、及び/又は施設(BA−CNN(C))の部分集合であってよい。異なる種類のラベルの比較は、図6A〜図6Cを参照して以下で述べる。最終的には最近接分類器がクエリ画像とデータベース画像のCNN特徴に基づいて適用される。最も類似したデータベース画像に関連する施設が予想施設として出力される。ただしこれらの態様では、単純にCNN特徴を利用するといくつかの問題が生じ得る。ImageNet−CNN(すなわち、ImageNetラベルで訓練されたネットワーク)に関しては、概念は前以って規定され、ローカルビジネスに関連しない。BA−CNN(C)に関しては、弁別性は施設よりも異なるビジネス関連概念を分離することにのみある。BA−CNN(V)では、施設はより多くの訓練画像を有する施設に限定され、したがって一般的な施設を網羅することができない。さらには、CNN特徴は通常は、他のデータドメインに関連付ける(例えば、画像をテキストに関連付ける)ことを支援するキー特性である、意味論的な意味を持たない。
これらの問題点に対処するために、ある態様ではBA−CNN(C+V)を利用して、施設認識のためにビジネス関連概念を検出する。図4Gに示すように、認識にFC7を使う代わりに、層(FC8)がビジネス関連概念ラベルによって代わりに監視され、別の層(FC9)が施設ラベルの部分集合によって監視される概念層の上に加えられる。このように、特徴がFC8から抽出され、そこでは、各寸法がビジネス関連概念に対応しており、また異なる施設を分離する弁別力が入手可能である。BA−CNN(C+V)は、画像から抽出される他のCNN特徴に比べてより高い認識精度を持っている。さらに、BA−CNN(C+V)により抽出された特徴は意味論的に記述可能な概念の応答であるので、認識のための多モードデータ(例えば、テキストと画像)に関連付けることが可能である。
ある態様では、BA−CNNで検出された概念表現を取得した後、施設の認識精度は、画像コンテンツを多モード表現(例えば、視覚概念とテキスト表現)に展開することによってさらに改良することが可能である。例えば、ローカルビジネスのレビュー(例えばYelp(登録商標)レビュー)は、各単語を(例えば500次元の)ベクトルに変換することができる単語ベクトルモデルを訓練するために使用される。概念単語と既定数の視覚概念の単語表現とが画像の別のモダリティの表現に使用されるので、各クエリ画像に対して、既定数の視覚概念(例えば5つの上位スコア概念)がクエリ画像から検出される。図4G(の多モード認識(b))に示すように、視覚概念表現及び単語表現は、次に相互に融合されてクエリ画像の最終表現を形成する。ある態様では、早期融合が活用されて(すなわち490次元の概念表現と500次元の単語ベクトル表現が一緒に連結されて990次元のベクトルを形成して)2つのモダリティを結合する。同じようにデータベースにある施設に関連する画像とレビューもまたそれぞれ視覚概念と単語表現で表される。最後に、多モード表現によるL2の距離を有する最近接法分類器を使用して、クエリ画像と関連している最も可能性の高い施設を判定する。
図5はある態様による、画像を施設に関連付けるプロセスのフローチャートである。ある態様では、方法500がコンピュータ装置(例えば、図1のコンピュータ装置102)、及び/又はコンピュータ装置の1つ以上のコンポーネント(例えば、オペレーティングシステム126など)によって遂行される。ある態様では、方法500が1つ以上のサーバ200(図2)との組み合わせで、コンピュータ装置によって遂行される。例えば、1つ以上のサーバ200がコンピュータ装置102にデータを送信し、コンピュータ装置はそれを利用して方法500の操作を実行する(例えば、方法500のある操作が1つ以上のサーバ200によって遂行される)。ある態様では、方法500は非一時的コンピュータ可読記憶媒体に格納された命令によって管理され、装置102の1つ以上のプロセッサ302等の、装置の1つ以上のプロセッサによって実行される。説明を簡単にするために、装置102により遂行される方法500を以下に述べる。ある態様では、図3を参照して、方法500の操作がデータベース338と概念検出モジュール334と表現形成モジュール336の少なくとも一部によって、又はそれを利用して遂行される。装置102はまた、方法500、入力装置310、及び/又はディスプレイ308(例えば、タッチセンサディスプレイ)の1つ以上の操作の遂行に利用される1つ以上のサーバ200からのデータ(例えば、テキストレビュー228、保存画像230、ビジネス関連概念238、及びクエリ画像と施設238の生成された表現、図2)を受信する。方法500における操作のあるものは任意選択で結合され、及び/又は操作のあるものの順番は任意選択で変更される(例えば、方法500の操作のあるものは、図4A〜図4Gを参照して既に提示された細部で補足される)。
ある態様では、装置が複数のビジネス関連概念を発見するときに(502)、任意選択で方法500が開始される。ある態様では、発見された複数のビジネス関連概念の各概念は以下の既定条件を満足する。(i)各概念はビジネス関連性がある。(ii)各概念は視覚的に一貫している。(iii)各概念は施設認識に関して弁別性がある。このように、画像で認識され、様々な施設間で識別可能である概念のみが選択されてリポジトリに含まれる(態様のあるものでは、その他のすべての潜在的な概念はふるい落とされる)。ある態様では、各ビジネス関連概念は交差検証されて確実に条件を満たすようにされる。例えば画像の訓練セットを利用して(選択された訓練画像の関連する集合と比較されたときに各ビジネス関連概念が確実に視覚的に一貫であるように)条件を満たすことが確証される。ある態様において、その施設に関連するテキスト(例えば、レビュー)内に頻出する名詞が識別され、不快用語は排除されて、次にそれらの概念がすべての条件を満足するかどうかが確認される(例えば、視覚的に検出できない精度の低い概念が排除され、区別不能なエントロピの高い概念が排除される)。ビジネス関連概念発見のさらなる詳細は、図4A〜図4Cを参照して前に述べた。ある態様では、装置が任意選択で視覚検出器を訓練し、(図4A〜図4Cを参照して前に述べたようにして)画像内に複数のビジネス関連概念を検出する(504)。ある態様では、訓練された視覚検出器(例えば視覚概念検出器)は、複数のビジネス関連概念に関連する画像を配置し、クエリ画像内の視覚概念を1つ以上のビジネス関連概念に一致させるように構成された視覚概念検出器を構築することによって、訓練される。ある態様では、ビジネス関連概念が畳み込みニューラルネットワーク(“CNN”)を利用して画像コンテンツから検出される。ある態様では、画像の多モード特徴表現が構築され、そこには視覚概念検出器が含まれ、予測される視覚概念の各単語が用語ベクトルとして表現される。ある態様では、施設に関連する各テキスト項目(例えばレビュー)もまた、用語ベクトルとして表現される。ある態様では、既に図4Cで議論したように、第1の画像を第1の施設に合致させるために、次に視覚概念と入力画像の単語表現がリポジトリ内のレビューと画像から抽出されたものと引き合わせられる。
ある態様では、コンピュータ装置の1つ以上の入力装置(例えば、カメラ、又は写真アプリケーション内でユーザが選択する画像、又はその時点で施設がわかっていない画像の大きな集合を解析するためのバッチプロセス)を介して、装置が特定の地理領域に関連する第1の画像を受信する(506)。例えば、第1の画像は、GPS座標等の近似位置情報に関連する。そこには、第1の画像に潜在的に関連し得る複数の施設が含まれる。ある態様では、特定の地理領域は検出されるWiFi信号又はソーシャルネットワークデータに基づいて決定される。ある態様では、第1の画像はその特定の地理領域内のある位置で撮影されており、その特定の地理領域が複数の施設を含んでいるので、その画像が撮影された正確な施設はまだわからない。
コンピュータ装置は複数の施設に関連するテキストレビューと保存画像を含むリポジトリから、テキストレビューの第1の集合と保存画像の第2の集合を取得する(508)。これらは複数の施設の中の1つ以上の候補施設に関連している。ある態様では、1つ以上の候補施設の各施設は特定の地理領域の予め定められた距離(例えば100フィート、200フィート、300フィート、など)の中に位置している(510)。ある態様において、ステップ506の第1の画像の受信に応答して検索ステップ(508)が遂行される。
コンピュータ装置は次に、訓練された視覚検出器を用いた第1の画像の解析に基づいて、第1の画像内に複数のビジネス関連概念を検出する(512)。ある態様では、検出された各ビジネス関連概念には、その検出された各ビジネス関連概念が第1の画像内に存在する尤度を反映するスコアが付けられる(514)。ある態様では、検出操作512/514の結果は、それぞれがビジネス関連概念に対応するスコアのベクトルである。ここでこのスコアは対応するビジネス関連概念がその画像コンテンツ内に出現する尤度(例えば、確率)を反映している。
次にコンピュータ装置は、関連スコアに基づき、また複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、第1の画像に対応する第1の表現を生成する(516)。ある態様では、高スコアビジネス関連概念には、スコアの閾値(例えば、0.65、0.7、0.75、あるいはそのビジネス関連概念が第1の画像内に存在する尤度が高いことを反映する確率)を超えるスコアが指定される。
コンピュータ装置はまた、1つ以上の候補施設のそれぞれに対応する第2の表現を受信する(518)。ここで第2の表現はテキストレビューの第1の集合と保存画像の第2の集合とに基づいている。第2の表現は、候補施設がデータベース内に関連画像があるかどうかに依存して、多モードであっても、そうでなくてもよい。ある態様では、第2の表現を受信することは、訓練された視覚検出器を用いた保存画像の第2の集合の各保存画像の解析に基づいて、各保存画像内に複数のビジネス関連概念を検出するステップを含む。ここで検出された各ビジネス関連概念には、検出されたビジネス関連概念が各画像内に存在する尤度を反映するスコアが付けられている。ある態様では、第1の候補施設の第2の表現のそれぞれが、(i)0以上の関連スコア(すなわち、第1の候補施設がどの保存画像にも関連しない場合にはスコア0)と、(ii)第1の候補施設に関連する各テキストレビューに対する1つ以上の単語表現ベクトル、とに基づいている。
ある態様では、1つ以上の第2の表現は事前生成(又は事前計算)される。したがって、受信操作518に伴って生成又は再生成される必要はない。例えば、各施設に関連する保存画像を新たに受信すると、コンピュータ装置(または図2のサーバ200等のサーバ)が各施設に対する第2の表現を生成し、後で使用するために第2の表現を保存する(こうして操作518での処理時間を節約する)。ある態様では、施設に対する第2の表現は予め定められた間隔(例えば、1日に1回、1時間に1回、又はサーバシステムやコンピュータ装置に計算リソースを保存するように設計された別の間隔)で生成される。ある態様では、施設に対する第2の表現はまず予め定められた間隔(例えば、1日に1回、1時間に1回、又はサーバシステムやコンピュータ装置に計算リソースを保存するように設計された別の間隔)で生成され、次に各施設に関する新しい画像やレビューが受信されると後から更新される。ある態様では、操作508(図5)の間、テキストレビューと保存画像を取り出す代わりに、コンピュータ装置は1つ以上の施設に対する事前生成(又は事前計算)された第2の表現を取得する。
第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していると判定する(520)ことにより、コンピュータ装置は,(i)第1の画像を第1の候補施設に関連付け、(ii)第1の画像が第1の候補施設に関連していることの指示を与える(例えば、第1の画像は第1の候補施設で撮影されたことを示すテキストの記述による視覚的指示、又は関連を反映する別の何らかのデータベースの更新)。こうして方法500は、第1の画像を他の画像と比較することにのみに集中しないで、第1の画像を第1の施設に関連付けることが可能である(すなわち、消費者の写真はノイズが多く、人間空間の一般的な物体の室内画像を多数含んでいるので、施設で撮影された画像コンテンツは、第1の画像を他の画像と区別する固有の低レベル視覚パターンを持っていない可能性がある。)したがって本方法では、クエリ画像内の低レベル視覚特徴を既存の(例えばリポジトリ内に保存された)データベース画像と比較するというよりむしろ、クエリ画像及び同一の施設に関係するほかのドメインのデータにある画像コンテンツを意味概念付きで表現する(例えば、第1の/クエリ画像内にビジネス関連視覚概念があることを検出することによって)。こうして意味概念は視覚コンテンツを単語表現に展開して、データベースにある保存テキストデータ(例えば、図2のデータベース112に保存されたテキストレビュー)と照合することができる。
ある態様では、第1の表現が第1の候補施設のそれぞれの第2の表現に最も類似していることを判定するステップが、第2の表現のそれぞれが複数のビジネス関連概念の多次元空間における第1の表現に最も近いと判定することを含む。ある態様ではスコアは、その概念が画像内のあるコンテンツをどれだけ十分に記述するかを示している(例えば、画像の前景で焦点が合っているコーヒーは、その画像にはない他の概念よりも高いスコアを得る)。ある態様では、第1の画像が検出されたビジネス関連概念の多次元空間内にベクトルとして表現される。そして第1の画像の表現とリポジトリ内の各施設に関連する他のオブジェクト(レビューと画像)との間の距離が計算されて、第1の画像に最もよく一致する施設(例えば、多次元空間において第1の画像の表現に最も近いレビュー/画像を持つ施設)が見つけ出される。
ある態様では、第1の画像を第1の候補施設に関連付ける前には、リポジトリには第1の候補施設に関連する画像が含まれていない。つまり、方法500は単語表現のみに基づいて画像を施設に一致させることができる(例えば、第1の画像内に視覚概念を識別してそれらの視覚概念に基づいて単語表現を生成し、その時点で第1の施設に関する画像が手に入らないとしても、第1の施設に関連付けられたテキストレビューのみに基づいて単語表現を第1の施設に合わせる。)
ある態様では、第1の画像を前記第1の施設に関連付けるステップが、第1の画像をリポジトリ内に保存するために送信することを含む。
ある態様または状況においては、受信した第1の画像が室内環境で撮影された画像に対応する(本開示の態様は室内画像に対して特に有利である)。別の態様または状況においては、受信した第1の画像は室外環境で撮影された画像に対応する。
ある態様では、複数の施設に関連するテキストレビュー及び保存画像のリポジトリは、コンピュータ装置から遠隔地にあるサーバシステムに保持される。
図6A〜図6Cは、ある態様による、画像を施設に関連づける本明細書に開示したシステムと方法の性能と利点を示す解析表及びグラフである。
具体的には、図6Aは、レビュー(特徴として単語表現WordVecを利用)と画像(特徴としてCNNで学習した画像表現を利用)の2つのデータドメインを有する施設データベースでの施設認識精度を示している。列602(“Acc.@2“と表現)は、候補施設のリストに2つの施設が含まれている場合の精度を示す。列604(“Acc.@5“と表現)は、候補施設のリストに5つの施設が含まれている場合の精度を示す。単純にテキスト表現を使用する場合(“WordVec(Google News)“)が、ランダム推定よりも性能がよい。これはBA−CNN(C十V)からの概念抽出が実際に意味論的な意味を有していることを示している。Word−Vec(Business−aware)がWordVec(Google News)を凌駕しており、ビジネス関連性の重要さを示している。そしてBA−CNN(C+V)+WordVecが全体での最高の精度となっている(2つと5つの候補施設に対してそれぞれ78.5%と56.1%)。
データ稀薄性の問題のために、データベース(例えば図2のデータベース112)の施設は、堅牢な画像ベース施設認識のための十分な数の画像を関連付けられないことがある。図6Bに示すように、約12,000の施設(施設全体の50%超)が5個未満の関連画像しか持っていない。
図6Cは、異なる数の近接施設を候補施設として考慮した場合の認識精度を示す。図6Cに示すように、付近の施設が多いほど、施設の識別がより困難となるので、実行精度は落ちる。これも図6Cに示されているように、すべての数の近接施設にわたり、BA−CNN(C+V)が他のモデルよりも常に性能が優れている。
図6Dは、データ稀薄性の問題に対する多モード施設認識の有用性を示している。データベース内の施設画像が不十分(例えば、施設当たり5未満)である場合、多モード認識(BA−CNN(C十V)+WordVec)が画像だけに頼る(BA−CNN)場合よりも大きく改善されている。データベース内の各施設に1つしか画像がない場合、レビューテキストのみの照合(WordVec)が、データベース画像照合(BA−CNN(C+V))よりもより精度が高いが、それでも多モード施設認識(BA−CNN(C十V)+WordVec)の性能が最高である。
上記のように、高水準の意味概念(例えば、ビジネス関連概念)は、単なる画像だけよりもより多くのデータのあるドメイン、例えばレビューの単語において一般的である。この関連付けは純粋な視覚コンテンツを多モード特徴表現−視覚概念表現と単語表現−へ展開し、テスト画像(テキストなし)を、施設認識のためのウェブ上の多モード情報源(例えば、画像とレビュー)への関連付けを可能とする。本願ではこれは多モード施設認識と定義する。多モード施設認識は、単一モード認識よりも精度が高い。さらに、単一モード認識よりもデータ稀薄性の問題に対してより堅牢である。例えば、施設の画像が非常に少なくて、データベース中にない場合に、画像ベースの認識は適用不能であるが、ここで開示する多モード認識は、別に入手できるデータ(レビューなど)を活用して、標的の施設と関連付けることが可能であるために、それでも機能する。
本明細書において“第1”、“第2”などの用語が様々な要素の記述に使用されるが、これらの要素はこの用語で限定されるものではない。これらの用語は、単に、1つの要素を別の要素と区別するために使用される。例えば発生するすべての“第1の接触”を一貫して名称変更し、かつ発生するすべての第2の接触を一貫して名称変更する限りは、記述の意味は変わるが、第1の接触を第2の接触と呼び、第2の接触を第1の接触と呼ぶこともできる。第1の接触と第2の接触はいずれも接触であるが、同一の接触ではない。
本明細書で使用の用語は、特定の態様を説明するためだけのものであり、請求の範囲を限定することを意図するものではない。本明細書に使用の“及び/又は”という用語は、関連して列挙される1つ以上の項目のあらゆる可能な組合せを指し、またそれを包含する。
上記の記述は説明の目的で特定の態様を参照して記述した。ただし、上記の説明的な議論は網羅的であることも、本発明を開示した形態そのものに限定することも意図していない。上記の教えの見地から、多くの変更及び変形が可能である。態様例は、本発明の原理とその実際的な適用を最もよく説明し、それによって他の当業者が本発明と様々な態様を、考え得る具体的な使用に好適なさまざまな変更をして最もよく活用できるように選択され、記述された。
添付の請求項の範囲内のシステム、方法、及び装置の様々な態様は、それぞれが複数の態様を有し、そのいずれの1つもそれだけで本明細書に記載の属性に対応するものではない。添付の請求項の範囲を制限することなく、本開示を考察し、及び特に“態様の説明”のセクションを考察した後に、視覚的に関連がありかつビジネス関連性を考慮した意味論を利用することでコンピュータ装置が画像を施設(例えばその画像が撮影された施設)へ関連付けできるようにするための、様々な態様の使われ方が理解されるであろう。
開示された態様は、(その施設に関連する画像が入手できないなど、施設に関するデータが僅かにしか得られない等の場合においても)画像を施設に正確に関連付けるための方法を提供する。一般的に開示された態様は、テキストベースのレビュー(例えばYelp(登録商標)レビュー)と保存画像(例えば、インスタグラム(登録商標)、Yelp(登録商標)、及びその他の類似のソーシャルメディアサービスからの画像であって、既に施設に関連付けられているもの)との両方を効果的に活用して、画像をその画像が撮影された施設に正確に関連付けるフレームワークを形成する。例えば、このフレームワークには施設のテキストレビューからの探索意味概念(これは本明細書ではビジネス関連概念とも呼ぶ)が含まれる。意味概念は、施設認識の目的で利用可能な、ビジネス関連性があり、視覚的に検出可能であり、かつ弁別可能な用語を含むように入念に選択される。フレームワークにはまた、(i)クエリ画像(例えば、まだ施設に関連付けられていない画像)にある意味概念を識別するために視覚検出器を訓練することと、(ii)それぞれの意味概念を単語表現(本明細書では“単語ベクトル”あるいは“用語ベクトル”とも称する)に変換するために単語表現モデル(単語表現モデルの例は図4Aを参照して後で議論する)を利用することとが含まれる。意味概念を識別した後、各クエリ画像に対して最も類似の施設を識別するために、個々のクエリ画像の表現(例えばこの表現には、意味概念が個々のクエリ画像内に存在する尤度を反映するスコアのベクトルと、高スコアの意味概念に対する単語表現とが含まれる)を候補施設の表現と比較することができる。1つの実験においては、本明細書に記載の態様に従って(例えば、ここでは“BA−CNN“と呼ぶ本開示のビジネス関連・畳み込みニューラルネットワークを利用して)検出された視覚概念は、従来の方法(例えば最新の畳み込みニューラルネットワーク機能)に比べて、施設認識に関して最大で22.5%の改善が達成された。
より具体的には一態様において、コンピュータ装置(例えば、ユーザのラップトップ、携帯電話などのローカルコンピュータ装置、又はサーバなどのリモートコンピュータ装置)が、特定の地理領域に関連する第1の画像を受信する(例えば、その画像に付属するメタデータから概略のGPS座標を抽出することができる)。コンピュータ装置はまた、テキストレビュー(例えば、Yelp(登録商標)の等のサービスを通じて入手可能なものなどのオンラインレビュー)の第1の集合と、1つ以上の候補施設(例えば、各候補は特定の地理領域の予め定められた距離内に位置している)に関連する保存画像(例えば、インスタグラム(登録商標)などのサービスを通じて入手可能なものの施設に関するユーザ投稿画像)の第2の集合とを引き出す。コンピュータ装置はまた、トレーニングされた視覚検出器を用いて、第1の画像内に複数のビジネス関連概念を検出し、その検出されたビジネス関連概念が第1の画像内に存在する尤度を反映するスコアを指定する。コンピュータ装置はさらに、(i)スコアと、高スコアビジネス関連概念に関する1つ以上の単語ベクトルとに基づく第1の画像の第1の表現を生成し、(ii)第1と第2の集合に基づいて各候補施設の第2の表現を生成する。第1の表現が、第1の候補施設の各第2の表現に最も類似していると判定することにより、この方法が、(i)第1の画像を第1の候補に関連付け、また(ii)関連していることの指示を与える。
開示した態様は、様々なソーシャルネットワークで入手可能なもの、ユーザのローカルデバイスに保存されているもの、などを含む、特定の施設にまだ関連付けられていない任意の画像に適用可能である。
ある態様において、特定の施設とジオタグの付いていないソーシャルメッセージの位置を識別する方法が開示されている。これは、微細な区画での地理的位置と、そのソーシャルメッセージに関連する施設名とを同時に示す。ある態様において、ソーシャルネットワーク情報は、ソーシャルネットワークのメタ経路を利用して符号化されている。ソーシャルネットワークに埋め込まれた地理情報もまた利用される。分類器が訓練されて、ソーシャルメディアメッセージと施設(実際の施設、又は施設のないノード)がリンクされているかどうかの確率を計算する。
ある態様によれば、プロセスが画像をそれが撮影された施設に関連付ける。このプロセスは、ディスプレイと1つ以上の入力装置と1つ以上のプロセッサとメモリとを有するコンピュータ装置(例えば、図1と図3のコンピュータ装置102、又は図1と図2のサーバ200)で遂行される。このプロセスには、特定の地理領域に関連する第1の画像を、1つ以上の入力装置を介して受信することが含まれる。このプロセスにはまた、複数の施設に関するテキスト形式のレビューと保存画像とを含むリポジトリから、複数の施設の内の1つ以上の候補施設に関係するテキストレビューの第1の集合と保存画像の第2の集合とを引き出すことが含まれる。(例えば、1つ以上の候補施設の各施設は、特定の地理領域の予め定められた距離内にある。)ある態様において、第1の画像の受信に応答して引き出しが遂行される。このプロセスにはさらに、訓練された視覚検出器を用いた第1の画像の解析に基づいて、第1の画像内に複数のビジネス関連概念を検出することが含まれる。(例えば、検出されたビジネス関連概念のそれぞれは、その検出されたビジネス関連概念が第1の画像内に存在する尤度を反映するスコアに関連づけられる。)さらにこのプロセスには、関連スコアに基づいて、また複数のビジネス関連概念の中から高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、第1の画像に対応する第1の表現を生成することと、1つ以上の候補施設のそれぞれに対応する第2の表現を受信することが含まれる。(例えば、第2の表現はテキストレビューの第1の集合と保存画像の第2の集合とに基づいている。)第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従ってこのプロセスには、(i)第1の画像を第1の候補施設に関連付けること、(ii)第1の画像が第1の候補施設に関連付けられていることの指示を与えること、が含まれる。
こうして本明細書に開示のプロセスは、第1の画像を他の画像と比較することにのみに集中することなしに、第1の画像を第1の施設に関連付けることが可能である(すなわち、消費者の写真はノイズが多く、多くの室内画像や人間空間の一般的な物体を含んでいるので、施設で撮影された画像コンテンツは、第1の画像を他の画像と区別する固有の低レベル視覚パターンを持っていない可能性がある。)したがって本方法では、クエリ画像内の低レベル視覚特徴を既存の(例えばリポジトリ内に保存された)データベース画像と比較するというよりむしろ、クエリ画像及び同一の施設に関連するほかのドメインのデータにある画像コンテンツを意味概念付きで表現する(例えば、第1の/クエリ画像内にビジネス関連視覚概念があることを検出することによって)。こうして意味概念は視覚コンテンツを1つ以上の単語表現に展開可能である。
上記のプロセスのある態様によれば、第2の表現を受信することが、訓練された視覚検出器を用いて保存された画像の第2の集合の各保存画像の解析に基づいて、各保存画像内に複数のビジネス関連概念を検出することを含む。ある態様において、検出された各ビジネス関連概念は、検出されたビジネス関連概念が各画像内に存在する尤度を反映するスコアに関連付けられ、第1の候補施設の第2の表現のそれぞれが、(i)0以上の関連スコア(例えば0以上の関連スコアは、それぞれのビジネス関連概念が第1の候補施設に関連付けられた画像内に存在する尤度を反映する)と、(ii)第1の候補施設に関連する各テキストレビューに対する1つ以上の単語表現とに基づいている。ある態様において、それぞれのビジネス関連概念が存在する尤度とは、それぞれのビジネス関連概念の存在を計算した確率を表している。別の態様では、尤度とは、明確な確率を計算するのではなく、その個々のビジネス関連概念が存在する相応な可能性(例えば50%を超える可能性)を表している。
上記のプロセスのある態様によれば、複数のビジネス関連概念の各概念は、(i)各概念はビジネス関連性があり、(ii)各概念は視覚的に一貫しており、(iii)各概念は施設の認識に関して弁別性がある、という条件を満たしている。このように、画像内で認識可能であり、様々な施設間で弁別可能である概念のみが選択されてリポジトリに含まれる(例えば、その他のすべての概念はふるい落とされる)。ある態様において、各ビジネス関連概念は複数の検証により条件を満たすことが確認される。例えば画像の訓練セットを利用して条件が満たされていることを確認する。ある態様において、その施設に関連するテキスト(例えば、レビュー)内に頻出する名詞が識別され、次にそれらの概念がすべての条件を満足するかどうかが確認される(例えば、視覚的に検出できない精度の低い概念が除外され、弁別不能なエントロピの高い概念が除外される)。
上記のプロセスのある態様において、複数のビジネス関連概念が、ビジネス関連概念を識別するための施設に関連するテキスト(例えば、施設、会社の概要、購入記録などに関するレビューを含むテキスト)の探索によって識別される。
上記のプロセスのある態様によれば、訓練された視覚検出器は、複数のビジネス関連概念に関連する画像を利用し、クエリ画像の視覚概念を1つ以上のビジネス関連概念に一致させるように構成された視覚概念検出器で構築することにより訓練される。
上記のプロセスのある態様によれば、訓練された視覚検出器は第1の画像を受信する前に訓練される。
上記のプロセスのある態様によれば、第1の画像を第1の候補施設に関連付ける前には、リポジトリには第1の施設に関連する画像が含まれていない。ある態様において、第1の画像を第1の候補施設に関連付ける前には、1つ以上の候補施設のいくつか(例えば、2つ以上)には、リポジトリ内に関連する画像がない場合がある。つまり、プロセスは単語表現のみに基づいて画像を施設に一致させることができる(例えば、第1の画像内に視覚概念を識別して、その時点で第1の施設に関する画像が手に入らないとしても、第1の施設に関連付けられたテキストレビューのみに基づいてそれらの視覚概念を第1の施設に関する単語表現に一致させる。)
上記のプロセスのある態様によれば、与えられる指示には、第1の画像が第1の施設において撮影されたことを示すテキスト記述のついた視覚指示が含まれる。
上記のプロセスのある態様によれば、第1の表現が第1の候補施設のそれぞれの第2の表現に最も類似していることを判定することが、それぞれの第2の表現が複数のビジネス関連概念の多次元空間における第1の表現に最も近いと判定することを含む。
上記のプロセスのある態様によれば、第1の画像を受信する前に、複数のビジネス関連概念が施設に関連する画像とテキストレビューを解析することにより識別されて、以下の条件、つまり(i)各概念はビジネス関連性がある、(ii)各概念は視覚的に一貫している、(iii)各概念は施設の認識に関して弁別可能である、を満たす概念が配置される。
上記のプロセスのある態様によれば、第1の画像を第1の施設に関連付けることが、第1の画像をリポジトリに送信して保存させることを含む。
上記のプロセスのある態様によれば、受信した第1の画像が室内環境で撮影された画像に対応する。
上記のプロセスのある態様によれば、受信した第1の画像が室外環境で撮影された画像に対応する。
上記のプロセスのある態様によれば、特定の地理領域が、第1の画像が撮影された地点の近似座標(例えば、第1の画像に関連するGPS座標、又は第1の画像が撮影された時点におけるコンピュータ装置に関連するGPS座標)に関連付けられる。
上記のプロセスのある態様によれば、特定の地理領域は、第1の画像が撮影されたときにコンピュータ装置によって検出されたWi−Fi信号に基づいて決定される。ある態様において、特定のソーシャルネットワーク内でのユーザの活動の履歴ログを利用して特定の地理領域(例えば、以前のチェックイン位置、またはユーザからの以前の投稿に関する位置データに基づいて)が判定される。あるいは1つ以上の候補施設に含まれる施設がさらに絞り込まれる(例えば、上記の関連アプリケーションに関する説明中に記述されている手法を参照)。
上記のプロセスのある態様によれば、第1の表現は第1の画像の多モード表現である。多モード表現とは、複数のモダリティ(例えば、画像とテキスト)の表現を結合させた表現である。ある態様において、多モード表現は、(i)それぞれの検出されたビジネス関連概念と、その検出されたビジネス関連概念が第1の画像中に存在する尤度を反映する関連スコア(例えば、検出されたビジネス関連概念と関連スコアを表す第1のベクトル)と、(ii)高スコアビジネス関連概念に対する1つ以上の単語表現(例えば、1つ以上の単語表現を表す第2のベクトル)との組合せである。
上記のプロセスのある態様によれば、高スコアのビジネス関連概念は、スコア閾値を超える指定スコアに関連付けされる。
上記のプロセスのある態様によれば、複数の施設に関連するテキストレビュー及び保存画像のリポジトリは、コンピュータ装置から遠隔地にあるサーバシステムに保持される。
ある態様は、本明細書に記載したものと同じ手法を数多くの多様なコンテキストに適用する。より一般的には、開示した手法は、画像が特定の注目点(POI)で撮影されたかどうかを評価するために適用することができる。例えば、写真とユーザと注目点のソーシャルネットワークグラフを作成する場合、与えられた写真(これにはジオタグがついていない)が注目点で生成されたかどうかをこの手法で評価することができる。追加的な例としては、本明細書で開示した態様を、(i)チェックイン場所の推薦(例えば、ユーザがソーシャルメディアサービスに投稿するとき、本明細書に開示の態様によりその画像に関連する施設の推薦に利用可能である)、(ii)位置プロファイリング(例えば、画像と特定の施設との間の予め定められた関連に基づく特定の施設におけるユーザの活動とエクスペリエンスの理解)、及び(iii)位置ベースのサービス(例えば、施設と画像との間の予め定められた関連に基づくユーザへのプロモーション情報や広告の標的化)のために利用可能である。
102−1 クライアント
102−r クライアント
104 サーバシステム
108 通信ネットワーク
110 ウェブサーバ
112 データベース
114 視覚検出器訓練モジュール
122−1 外部サービス
122−n 外部サービス

Claims (20)

  1. 画像を施設に関連付ける方法であって、ディスプレイと、1つ以上の入力装置と、1つ以上のプロセッサと、メモリを有するコンピュータが、
    特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、
    複数の施設に関するテキスト形式のレビューと保存画像とを含むリポジトリから、前記複数の施設の内の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内にあり、
    訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、
    前記スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、
    前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、
    前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、
    方法。
  2. 前記コンピュータが、前記第2の表現を受信する場合に、前記訓練された視覚検出器を用いて保存画像の第2の集合の各保存画像の解析に基づいて、各保存画像内に前記複数のビジネス関連概念を検出し、
    検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記各保存画像内に存在する尤度を反映するスコアに関連付けられ、
    さらに、第1の候補施設の第2の表現のそれぞれが、(i)0以上の関連スコアと、(ii)前記第1の候補施設に関連する各テキストレビューに対する1つ以上の単語表現とに基づいている、請求項1に記載の方法。
  3. 前記複数のビジネス関連概念の各概念は、(i)各概念はビジネス関連であり、(ii)各概念は視覚的に一貫しており、(iii)各概念は施設の認識に関して弁別可能である、という条件を満たしている、請求項1または請求項2に記載の方法。
  4. 前記複数のビジネス関連概念は、前記ビジネス関連概念を識別するために施設に関連するテキストと画像を探索することによって識別される、請求項1〜請求項3の何れか1項に記載の方法。
  5. 前記訓練された視覚検出器は前記複数のビジネス関連概念に関連する画像を利用し、かつクエリ画像の視覚概念を1つ以上の前記ビジネス関連概念に合致させるように構成された視覚概念検出器を構築することによって訓練される、請求項1〜請求項4の何れか1項に記載の方法。
  6. 前記訓練された視覚検出器は、前記第1の画像を受信する前に訓練される、請求項5に記載の方法。
  7. 前記第1の画像を前記第1の候補施設に関連付ける前には、前記リポジトリには前記第1の候補施設に関連する画像が含まれていない、請求項1〜請求項6の何れか1項に記載の方法。
  8. 与えられる指示には、前記第1の画像が前記第1の候補施設において撮影されたことを示すテキスト記述のついた視覚指示が含まれる、請求項1〜請求項7の何れか1項に記載の方法。
  9. 前記第1の表現が第1の候補施設のそれぞれの第2の表現に最も類似していることを判定するステップは、前記第2の表現のそれぞれが前記複数のビジネス関連概念の多次元空間における前記第1の表現に最も近いことを判定すること含む、請求項1〜請求項8の何れか1項に記載の方法。
  10. 前記第1の画像を受信する前に、前記複数のビジネス関連概念が前記施設に関連する画像とテキストレビューを解析することにより識別されて、以下の条件、(i)各概念はビジネス関連性がある、(ii)各概念は視覚的に一貫している、(iii)各概念は施設の認識に関して弁別可能である、を満たす概念が配置される、請求項1〜請求項9の何れか1項に記載の方法。
  11. 前記第1の画像を前記第1の候補施設に関連付けるステップが、前記第1の画像を前記リポジトリ内に保存するために送信することを含む、請求項1〜請求項10の何れか1項に記載の方法。
  12. 前記受信した第1の画像は室内環境で撮影された画像に対応する、請求項1〜請求項11の何れか1項に記載の方法。
  13. 前記受信した第1の画像は室外環境で撮影された画像に対応する、請求項1〜請求項12の何れか1項に記載の方法。
  14. 前記特定の地理領域は、前記第1の画像が撮影された地点の近似座標に関連づけられる、請求項1〜請求項13の何れか1項に記載の方法。
  15. 前記特定の地理領域は、前記第1の画像が撮影されたときに前記コンピュータによって検出されたWi−Fi信号に基づいて判定される、請求項1〜請求項14の何れか1項に記載の方法。
  16. 前記第1の表現は、前記第1の画像の多モード表現である、請求項1〜請求項15の何れか1項に記載の方法。
  17. 前記高スコアのビジネス関連概念は、スコア閾値を超える指定スコアに関連付けされる、請求項1〜請求項16の何れか1項に記載の方法。
  18. 前記複数の施設に関連するテキストレビュー及び保存画像の前記リポジトリは、前記コンピュータから遠隔地にあるサーバシステムに保持される、請求項1〜請求項17の何れか1項に記載の方法。
  19. ディスプレイと1つ以上の入力装置と1つ以上のプロセッサとメモリとを有するコンピュータによって実行されるプログラムであって、前記コンピュータに、
    特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、
    複数の施設に関連するテキスト形式のレビューと保存画像のリポジトリから、前記複数の施設の内の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内にあり、
    訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念は、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、
    前記スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、
    前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、
    前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、処理を実行させる命令を含んでいる、
    プログラム。
  20. ディスプレイと、
    1つ以上の入力装置と、
    1つ以上のプロセッサと、
    メモリと、
    1つ以上のプログラムと、
    を備える装置であって、
    前記1つ以上のプログラムは前記メモリ内に格納されて前記1つ以上のプロセッサによって実行されるように構成されており、前記1つ以上のプログラムには、
    特定の地理領域に関連する第1の画像を、前記1つ以上の入力装置を介して受信し、
    複数の施設に関連するテキストレビューと保存画像のリポジトリから、前記複数の施設の1つ以上の候補施設に関連するテキストレビューの第1の集合と保存画像の第2の集合とを引き出し、前記1つ以上の候補施設の各施設は、前記特定の地理領域の予め定められた距離内に位置し、
    訓練された視覚検出器を用いた前記第1の画像の解析に基づいて、前記第1の画像内に複数のビジネス関連概念を検出し、検出された各ビジネス関連概念のそれぞれは、前記検出されたビジネス関連概念が前記第1の画像内に存在する尤度を反映するスコアに関連付けられ、
    前記スコアに基づき、また前記複数のビジネス関連概念の中の高スコアのビジネス関連概念に対する1つ以上の単語表現に基づいて、前記第1の画像に対応する第1の表現を生成し、
    前記1つ以上の候補施設のそれぞれに対応する第2の表現を受信し、前記第2の表現はテキストレビューの前記第1の集合と保存画像の前記第2の集合とに基づいており、
    前記第1の表現が第1の候補施設の第2の表現のそれぞれに最も類似していることを判定することに従って、(i)前記第1の画像を前記第1の候補施設に関連付け、(ii)前記第1の画像が前記第1の候補施設に関連付けられていることの指示を与える、ための命令が含まれている
    装置。
JP2016160161A 2016-01-19 2016-08-17 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 Active JP6759844B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/001,130 2016-01-19
US15/001,130 US10198635B2 (en) 2016-01-19 2016-01-19 Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics

Publications (2)

Publication Number Publication Date
JP2017130182A JP2017130182A (ja) 2017-07-27
JP6759844B2 true JP6759844B2 (ja) 2020-09-23

Family

ID=59314377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016160161A Active JP6759844B2 (ja) 2016-01-19 2016-08-17 画像を施設に対して関連付けるシステム、方法、プログラム及び装置

Country Status (2)

Country Link
US (1) US10198635B2 (ja)
JP (1) JP6759844B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL236598A0 (en) * 2015-01-05 2015-05-31 Superfish Ltd Image similarity as a function of image weighted image descriptors generated from neural networks
US10055489B2 (en) * 2016-02-08 2018-08-21 Ebay Inc. System and method for content-based media analysis
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
US10067965B2 (en) 2016-09-26 2018-09-04 Twiggle Ltd. Hierarchic model and natural language analyzer
US20180089316A1 (en) 2016-09-26 2018-03-29 Twiggle Ltd. Seamless integration of modules for search enhancement
US10515289B2 (en) * 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation
CN111295669A (zh) * 2017-06-16 2020-06-16 马克波尔公司 图像处理系统
CN111316281B (zh) 2017-07-26 2024-01-23 舒辅医疗 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
CN108170712B (zh) * 2017-11-29 2021-08-10 浙江大学 一种利用包含社会地理信息的多媒体网络学习最大边界多媒体网络表达的方法
US11290530B2 (en) * 2018-06-01 2022-03-29 Apple Inc. Customizable, pull-based asset transfer requests using object models
US11164026B2 (en) 2018-10-16 2021-11-02 International Business Machines Corporation Graphical user interface generation based on image analysis
US11495041B2 (en) * 2019-03-29 2022-11-08 Jumio Corporation Biometric identification using composite hand images
US11553026B2 (en) * 2019-05-27 2023-01-10 International Business Machines Corporation Regulating content associated with a streaming platform
US11842299B2 (en) * 2020-01-14 2023-12-12 Dell Products L.P. System and method using deep learning machine vision to conduct product positioning analyses
JP2021165886A (ja) * 2020-04-06 2021-10-14 トヨタ自動車株式会社 制御装置、制御装置のプログラム、及び端末装置のプログラム
CN112597695B (zh) * 2020-12-03 2022-05-03 浙江大学 一种基于感知特征聚类的计算机辅助设计方法及系统
CN113065012B (zh) * 2021-03-17 2022-04-22 山东省人工智能研究院 一种基于多模态动态交互机制的图文解析方法
CN115718868A (zh) * 2021-08-23 2023-02-28 华为技术有限公司 模型训练方法、装置及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108230A (ja) * 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
CN102348050A (zh) * 2010-08-03 2012-02-08 国基电子(上海)有限公司 数码照相设备及其获取地理标签的方法
US20170109615A1 (en) * 2015-10-16 2017-04-20 Google Inc. Systems and Methods for Automatically Classifying Businesses from Images

Also Published As

Publication number Publication date
JP2017130182A (ja) 2017-07-27
US10198635B2 (en) 2019-02-05
US20170206416A1 (en) 2017-07-20

Similar Documents

Publication Publication Date Title
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
JP6575335B2 (ja) ソーシャルメディアメッセージ及び施設の間のリンクを推定する方法、コンピュータシステム、及びプログラム
CN107315759B (zh) 归类关键字的方法、装置和处理系统、分类模型生成方法
US10496752B1 (en) Consumer insights analysis using word embeddings
JP6540314B2 (ja) 施設推定方法、デバイス及びプログラム
US20180060353A1 (en) System and method for predicting a geographic origin of content and accuracy of geotags related to content obtained from social media and other content providers
CN111602147A (zh) 基于非局部神经网络的机器学习模型
CN104699732B (zh) 形成用户简档的方法和信息处理设备
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
CN108701155B (zh) 社交网络中的专家检测
US10685183B1 (en) Consumer insights analysis using word embeddings
CN105874452B (zh) 从社交摘要中标记兴趣点
US10509863B1 (en) Consumer insights analysis using word embeddings
Kordopatis-Zilos et al. Geotagging text content with language models and feature mining
US10803248B1 (en) Consumer insights analysis using word embeddings
CN110622153A (zh) 用于查询分割的方法和系统
WO2017016122A1 (zh) 一种信息推送方法及装置
JP2016525727A (ja) オンライン・ソーシャル・ネットワーク上での画像に対するタグ付けの提案
US11082800B2 (en) Method and system for determining an occurrence of a visit to a venue by a user
JP2023162232A (ja) 視覚検索クエリのためのインテリジェントなシステムおよび方法
US20210176181A1 (en) Intelligent Conversion of Internet Domain Names to Vector Embeddings
WO2022245469A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
US10685184B1 (en) Consumer insights analysis using entity and attribute word embeddings
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
US11651280B2 (en) Recording medium, information processing system, and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6759844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350