JP2013509654A - センサベースのモバイル検索、関連方法及びシステム - Google Patents

センサベースのモバイル検索、関連方法及びシステム Download PDF

Info

Publication number
JP2013509654A
JP2013509654A JP2012537074A JP2012537074A JP2013509654A JP 2013509654 A JP2013509654 A JP 2013509654A JP 2012537074 A JP2012537074 A JP 2012537074A JP 2012537074 A JP2012537074 A JP 2012537074A JP 2013509654 A JP2013509654 A JP 2013509654A
Authority
JP
Japan
Prior art keywords
user
data
image
information
bauble
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012537074A
Other languages
English (en)
Other versions
JP6011938B2 (ja
Inventor
ジェフリー, ビー. ローズ,
トニー, エフ. ロドリゲス,
ギルバート, ビー. ショー,
ブルース, エル. デイビス,
ウィリアム, ワイ. コンウェル,
Original Assignee
ディジマーク コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディジマーク コーポレイション filed Critical ディジマーク コーポレイション
Publication of JP2013509654A publication Critical patent/JP2013509654A/ja
Application granted granted Critical
Publication of JP6011938B2 publication Critical patent/JP6011938B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/14Measuring arrangements characterised by the use of optical techniques for measuring distance or clearance between spaced objects or spaced apertures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

スマートフォンが、ユーザの環境からの音声、画像及び/又は他の刺激を検知し、自律的に作動して、推論又は予想されたユーザの要望をかなえる。
一態様では、詳述される技術は、電話のカメラによって見られたシーンの、電話ベースの認知に関する。そのシーンに適用される画像処理タスクを、リソースコスト、リソース制約、他の刺激情報(例えば、音声)、タスク代替性などを参照することによって、様々な代替物の中から選択することができる。電話は、画像処理タスクに対し、そのタスクがいかにうまく進行中であるかに応じて、又は、そのタスクへのユーザの明らかな関心に基づいて、より多いか又はより少ないリソースを適用することができる。いくつかの構成では、データが、解析のため、又は、収集のために、クラウドに任されてもよい。
【選択図】 図1

Description

関連出願データ
米国において、本出願は、2009年10月28日出願の米国特許仮出願第61/255817号、2009年11月13日出願の米国特許仮出願第61/261028号、2009年11月20日出願の米国特許仮出願第61/263318号、2009年11月25日出願の米国特許仮出願第61/264639号、2009年12月4日出願の米国特許仮出願第61/266965号、及び、2009年12月11日出願の米国特許仮出願第61/285726号の優先権を主張し、2009年12月17日出願の米国実用特許出願第12/640386号の継続出願である。
本明細書は、米国特許第6947571号、2008年11月14日出願の米国特許出願第12/271772号(米国特許出願公開第2010/0119208号として公開)、2009年6月24日出願の米国特許出願第12/490980号(米国特許出願公開第2010/0205628号として公開)、及び、2009年8月19日出願の国際出願PCT/US09/54358(国際公開第2010/022185号パンフレットとして公開)を含む、譲受人の以前の特許及び特許出願に詳述された技術に対する様々な拡張及び改良を詳述する。読者は、このような公報に詳述された主題に精通していると推定される。
その以前の研究による原理及び教示は、ここで詳述される構成(arrangements)に関連して適用されるように意図され、逆の場合も同じである。
本明細書は、様々な技術に関し、スマートフォン及び他のモバイルデバイスが、例えば、直観的な聴覚及び視覚デバイスとしての機能を果たすことによって、ユーザの環境に応答することを可能にすることに最も関係する。
序論
携帯電話は、単一目的の通信ツールから多機能コンピュータプラットフォームへと進化を遂げている。「There’s an ap for that」は、よく知られている言葉である。
10万を超えるアプリケーションがスマートフォン用に入手可能であり−圧倒的に様々なサービスを提供している。しかし、これらのサービスの各々は、ユーザによって明示的に識別され、起動されなければならない。
これは、コンピュータに対して我々がより多くの注意を払う必要があるのではなく、より少ない注意を払えばよいという、20年以上前に遡るユビキタスコンピューティングのビジョンからは、程遠いものである。真に「スマート」な電話とは、アクションを−自律的に−起こして、推論又は予想されたユーザの要望をかなえる電話であるだろう。
この方向における飛躍は、携帯電話に、インテリジェントな視覚/聴覚デバイス−ユーザの環境を監視させ、視覚及び/又は他の刺激に応答して動作を自動的に選択させ、その動作に着手させる−技術を、携帯電話に装備することであるだろう。
このようなデバイスの実現には、多くの課題がある。これらの課題には、デバイスへの入力刺激が何を表すかを理解し、その理解に基づいてユーザの要望を推論し、それらの要望を充足する際にユーザとインタラクトするための技術が含まれる。おそらく、これらの課題のうち最大の課題は最初の課題であり、本質的に機械認知の長年の問題である。
携帯電話カメラを考えられたい。キャプチャされるフレーム毎に、携帯電話カメラは、100万ほどの数(ピクセル値)を出力する。これらの数は、車、バーコード、ユーザの子供、又は100万もの他の物のうち1つを表すのか?
仮定として、この問題には直接的なソリューションがありうる。それらのピクセルを「クラウド」へ転送し、莫大な数の匿名のコンピュータに、描かれた被写体を1台のコンピュータがついに識別するまで、あらゆる知られている画像認識アルゴリズムをそのデータに適用させることである。(1つの特定の手法は、その知られていない画像を、フリッカー(Flickr)及びフェイスブック(Facebook)など、ウェブベースの公共の写真リポジトリに投稿された数十億もの画像の各々と比較することであるだろう。最も類似した投稿写真を発見した後、マッチするピクチャに関連付けられた記述語又は「メタデータ」が示され、その知られていない画像の被写体を識別するために記述子として使用されうる。)クラウドコンピューティング能力を数日又は数カ月(及び、数メガワットの電力を)費やした後、答えが出されるだろう。
そのようなソリューションは、しかし−時間の点からもリソースの点からも−実用的ではない。
幾分より実用的な手法は、アマゾン(Amazon)のメカニカルターク(Mechanical Turk)など、クラウドソーシングサービスにその画像を投稿することである。このサービスは、その画像を1人又は複数人のレビュアーに任せ、レビュアーが記述用語をサービスに戻すように提供し、その記述用語が次いでデバイスに戻すように転送される。他のソリューションが無効であると判明するとき、これは可能な代替手段であるが、多くの状況で時間遅延が甚だしい。
一態様では、本明細書は、この認知の問題によりよく取り組むために用いることができる技術に関する。一実施形態では、入力刺激についてのより多くのよりよい情報を連続して得るために、画像処理構成が適用される。画像のコンテンツの大まかな感じは、1秒で入手可能でありうる。より多くの情報は、2秒後に入手可能でありうる。さらなる処理により、さらにより精緻化された査定が3〜4秒後に入手可能でありうる、などとなる。この処理は、そのような処理が継続することをユーザが必要としないという−明示された、暗示された、又は推論された−指示によって、任意の時点で中断することができる。
そのような処理が迅速で満足の行く結果を生じず、画像の被写体がユーザにとって関心のあるものであり続ける場合(又は、ユーザがそうでないと示さない場合)、画像は、より網羅的で非常に長い解析のために、クラウドに任せられてもよい。ブックマークなどをスマートフォンに格納して、ユーザがそのようなさらなる解析の結果を遡ってチェックし、知ることができるようにしてもよい。又は、そのようなさらなる解析がアクション可能な結論に達する場合、ユーザにアラートを出すことができる。
適切なデバイス応答(複数可)の認知及び識別を、コンテキストなど、付帯情報によって支援することができる。スマートフォンが、格納されたプロファイル情報から、ユーザが35歳の男性であることを知り、GPSデータ及び関連付けられた地図情報から、ユーザがポートランドのスターバックス(Starbucks)に位置することを知り、時間及び気象情報から、仕事日で暗く雪の降る朝であることを知り、デバイスの履歴から、この場所に以前に何回か訪れた際、ユーザが電話の電子ウォレットを用いて、コーヒー及び新聞を買い、電話のブラウザを使用して、フットボールの結果をレポートするウェブサイトを見たことを呼び戻す場合、スマートフォンのタスクは、かなり簡素化される。もはや、限りなく多数の可能性のある入力刺激はない。むしろ、入力の光景及びざわめきは、暗く雪の降る朝のコーヒー店で普通に遭遇するタイプのものである可能性が高い(又は、逆に言えば、例えば、東京の日当たりのよい公園で見られる光景及びざわめきである可能性が低い)。そのような光景及びざわめきに応答して適切である、限りなく多数の可能性のあるアクションもない。その代わりに、候補アクションは、35歳の、フットボールに関心のある、ポートランドで仕事に出かける途中にコーヒーを飲んでいるユーザに関連するアクションである可能性が高い(又は、逆に言えば、例えば、東京の公園で座っている年配の女性に関連のあるアクションである可能性が低い)。
通常、最も重要なコンテキスト情報は、場所である。2番目に関連性が高いのは、典型的には(現在の曜日、季節などまでに知らされた)アクションの履歴である。同様に重要なものは、ユーザの社会的グループ又はユーザの人口統計学的グループ内の他の人々が、類似の状況で何を行ったかについての情報である。(メイシーズ〔Macys〕の特定の場所で最後に立ち止まった9人の十代の少女が、通路端のディスプレイにある一足のブーツの画像をキャプチャし、全員が値段を知ることに関心を持ち、そのうち2人が、どのサイズの在庫があるかを知ることにも関心を持った場合、その場所で立ち止まる10人目の十代の少女がキャプチャする画像もまた、多分、同じブーツの画像であり、そのユーザは、値段、及び、おそらく在庫があるサイズを知ることに関心がある可能性が高い。)そのような付帯情報に基づいて、スマートフォンは、統計的に可能性が高い刺激に適した認識ソフトウェアをロードすることができ、それに応答して、統計的に関連のあるアクションに着手する用意をすることができる。
1つの特定の実施形態では、スマートフォンは、入手可能な何百もの代替ソフトウェアエージェントを有することができ−その代替ソフトウェアエージェントの各々は、複数の異なる機能を行うことができてもよく、各機能は、例えば、応答時間、CPU使用率、メモリ使用量、及び/又は、他の関連のある制約の点から異なる「コスト」を有する。電話は次いで、プランニング課題に着手し、例えば、様々な入手可能なエージェント及び機能からなるN分木を定義し、その木を通るパスをナビゲートして、最低コストで所望の組み合わせの動作を行う方法を見極めることができる。
時として、このプランニング課題は、適切なソリューションを発見しないことがあり、又は、そのコストがひどく高いことを発見することがある。そのような場合、電話は、ある動作に−少なくともこの瞬間には−着手しないように決定することがある。電話は、そのようなタスクについてそれ以上何も行わないことがあり、又は、ソリューションを実用的にする追加の情報が入手可能になった場合に備えて、少ししてから、再度試みることがある。又は、電話は、単に、データを−より有能なクラウドリソースによる処理のために−クラウドに任せてもよく、又は、入力刺激を格納して、再び戻り、場合によっては後に処理してもよい。
システムの処理(例えば、画像処理)の多くは、推論的な性質であることがあり−現在のコンテキストにおいて有用である可能性があることを予期して試みられうる。本技術の別の態様によれば、そのような処理は、様々な要因に従って、スロットルアップ又はスロットルダウンされる。1つの要因は、成功である。ある処理が決定的な結果を出しつつあるように思われる場合、その処理により多くのリソース(例えば、メモリ、ネットワーク帯域幅など)を割り振ることができ、動作のさらなる段階へと継続することを許可することができる。その結果が思わしくないように見える場合、その処理により少ないリソースを割り振るか−又は完全に停止することができる。もう1つの要因は、特定の処理の結果に対するユーザの関心又はその欠如であり、この要因は、処理の継続が可能にされるかどうか、及び、どのリソースにより処理の継続が可能にされるかに、同様に影響を与えることができる。(ユーザの関心は−例えば、ユーザが画面上のある場所をタッチすることによって−明示されてもよく、又は、ユーザのアクション若しくはコンテキストから−例えば、ユーザがカメラを動かして、画像フレームの中心にある特定の被写体の位置決めをやり直すことによって−推論されてもよい。ユーザの関心の欠如は、ユーザのアクションによって、又は、そのようなアクションがないことによって、同様に明示又は推論されてもよい。)さらにもう1つの要因は、スロットルアップ又はスロットルダウンされている別の処理に対する、その処理の結果の重要性である。
認知が達成された後(例えば、画像の被写体が識別された後)、携帯電話プロセッサ−又はクラウドリソース−は、ユーザに提供されるべきである適切な応答を示唆することがある。描かれた被写体がバーコードである場合、ある応答が示されうる(例えば、製品情報を調べる)。描かれた被写体が家族の一員である場合、異なる応答が示されうる(例えば、オンラインフォトアルバムに投稿する)。時として、しかし、適切な応答は、直ちに明らかではない。もし、描かれた被写体が街路シーン又はパーキングメーターであるとしたらどうなるだろうか−その後どうなるだろうか?ここでもまた、コンテキストなど、付帯情報ソース、及び、自然言語処理からの情報を問題に適用して、適切な応答を決定する助けとすることができる。
スマートフォンのセンサは、刺激−マイクロフォンに対する音、画像センサに対する光、加速度計に対する動き、磁力計に対する磁場、サーミスタに対する周辺温度等々−を絶えず与えられる。これらの刺激のいくつかは、重要であることがある。多くは雑音であり、無視することが最良である。電話は、もちろん、例えば、CPU、バッテリ、無線帯域幅、金銭の予算など、様々なリソースが制限されている。
したがって、さらなる態様では、本技術は、集中するデータのを処理すべきかを識別すること、並びに、視覚的検索のためのデータ処理構成とプラットフォームの制約及びシステムの他のニーズとのバランスを取ることを伴う。
さらにもう1つの態様では、本技術は、例えば、視覚的オブジェクト(又は可聴ストリーム)に対応した、モバイルデバイス画面上の「ボーブル(baubles)」の提示を伴う。ボーブルのユーザ選択(例えば、タッチスクリーンのタップによる)は、オブジェクトに関係付けられた体験につながる。デバイスが次第に、オブジェクトについて理解を深めるか、又は、より多くの情報を取得するにつれて、ボーブルの明瞭さ又はサイズが進化することが可能である。
初期の実装では、上記の種類のシステムは比較的に初歩的となり、多くの洞察を示すことはない。しかし、少量の(又は連発する)データを、(そのようなデータに基づいたユーザアクションについての情報と共に)アーカイブ及び解析するために、クラウドにフィードバックすることによって、それらの初期のシステムは、そこからテンプレート及び他のトレーニングモデルを構築することができるデータの基礎を確立することができ−そのようなシステムの後続の世代が、刺激を与えられるとき、高度に直観的となり、且つ、応答することを可能にする。
以下で明らかになるように、本明細書は、多数の他の、発明の特徴及び組み合わせをも詳述する。
主として視覚的検索に関連して記載されるが、本明細書で詳述される原理は、他のセンサから、又は、複数のセンサの組み合わせからの刺激の処理など、他の関連で適用可能であることを理解されたい。詳述される原理の多くは、さらにはるかにより幅広い適用可能性を有する。
同様に、以下の説明は、少数の例示的実施形態に焦点を合わせるが、発明の原理は、これらの特定の形式の実装に限定されないことを理解されたい。そのため、例えば、ブラックボードデータ構造、ステートマシン構成物、認識エージェント、遅延実行等々、詳細が具体的に述べられるが、いずれも(発行された特許請求の範囲によって特に明記されうる場合を除いて)必須ではない。
本技術のある態様を用いる実施形態をアーキテクチャ図で示す図である。 ローカルデバイスの、クラウド処理への関与を例示する図である。 認知処理の機能を、−システムモジュール及びデータ構造に関して−異なる態様の機能性とマッピングする図である。 異なるレベルの空間的編成及び理解を例示する図である。 サービスの構成の意思決定において使用することができるデータ構造を示す図である。 サービスの構成の意思決定において使用することができるデータ構造を示す図である。 サービスの構成の意思決定において使用することができるデータ構造を示す図である。 人工知能から知られ、本技術のある実施形態で用いられるプランニングモデルの態様を示す図である。 人工知能から知られ、本技術のある実施形態で用いられるプランニングモデルの態様を示す図である。 オペレーティングシステムによって行うことができる、4つのレベルの同時処理を識別する図である。 例示的実装のためのこれらの4つのレベルの処理をさらに詳述する図である。 ユーザの意図を見極めることに関与する、ある態様を示す図である。 ある実装で使用することができる循環的処理構成を描く図である。 図12の構成の別の図である。 システム動作のある態様を描く概念図である。 認識エージェント及びリソース追跡にそれぞれ関するデータを例示する図である。 認識エージェント及びリソース追跡にそれぞれ関するデータを例示する図である。 視空間のマシン理解を支援するために使用することができる、グラフィカルターゲットを示す図である。 音声ベースの実装の態様を示す図である。
詳細な説明
多くの点で、本開示の主題は、コンピュータデバイスを使用して、ユーザが自分の環境とインタラクトすることを可能にする際に、有用な技術と見なされうる。この幅広い範囲により、開示された技術は、無数の応用例によく適するようになる。
本開示で詳述される広い範囲及び様々な主題のため、順序正しい提示を達成することは困難である。以下で明らかになるように、以下で提示される題目別のセクションの多くは、他のセクションに基づき、また、他のセクションの基礎をなす。やむを得ず、そのため、様々なセクションが幾分任意の順序で提示される。各セクションからの一般的原理及び特定の詳細は共に、他のセクションにおいても応用されることを理解されたい。本開示の長さが収拾のつかないほどに膨れ上がることを防ぐため(簡潔さは、特に特許明細書において、常に有益である)、異なるセクションの特徴の様々な並べ換え及び組み合わせは、網羅的に詳述されるとは限らない。本発明者は、そのような組み合わせ/並べ換えを明示的に教示することを意図するが、実際には、詳述された総合が、そのような教示に従ってシステムを最終的に実装する者に委ねられることを必要とする。
また、ここで詳述される技術は、以前に引用された特許出願で開示された技術に基づき、これらの技術を拡張することにも留意されたい。読者はしたがって、これらの文書へと導かれ、これらの文書は、本技術が適用されることを出願人が意図する構成を詳述し、本開示を技術的に補うものである。
認知、中抜き検索(Disintermediated Search)
携帯電話など、モバイルデバイスは、単なる通信ツールというより、認知ツールになりつつある。一態様では、認知を、人にその人の環境について知らせるアクティビティと見なすことができる。認知アクションには、以下が含まれうる。
・・感覚入力に基づいて特徴を感知すること、
・・形式を感知すること(例えば、オーケストレートされた構造を決定すること)、
・・外部構造及び関係を決定するなど、関連付け、
・・問題を定義すること、
・・問題解決状況を定義すること(例えば、そのテキスト:自分に何ができるか?答え.それを読む)、
・・ソリューションのオプションを決定すること、
・・アクション及び応答を開始すること、
・・・識別は一般に、適切な応答の決定における最初の必須のステップである。
視覚及び聴覚モバイルデバイスは、人にそれらの環境について知らせることに関与するそれらの処理を支援するツールである。
モバイルデバイスは、驚くべき速さで急増している。多くの国々では(フィンランド、スウェーデン、ノルウェイ、ロシア、イタリア及び英国を含む)、伝えられるところによれば、人々よりも携帯電話の方が多い。GSMアソシエーション(GSM Association)によれば、およそ40億台ものGSM及び3G電話が現在使われている。アップグレードサイクルはとても短く、デバイスは、平均して24カ月に一度交換される。
したがって、モバイルデバイスは、巨額の投資の中心となっている。グーグル(Google)、マイクロソフト(Microsoft)、アップル(Apple)及びノキア(Nokia)など、業界の巨大企業は、その巨大市場がこれらのデバイスの機能性の拡張にかかっていると認識しており、研究開発に相応の多額の投資を行っている。そのような広範囲に及ぶ、熱心な取組みを考えると、本明細書で詳述された技術を業界の巨大企業が開発できないことは、そのような技術の発明性の証しである。
ビジュアルクエリなど、「中抜き検索」は、次世代のモバイルデバイスのための、最も人を引き付けるアプリケーションの1つであると考えられる。
一態様では、中抜き検索を、検索の開始における人間の役割を減らす(又は、なくすことさえある)検索と見なすことができる。例えば、スマートフォンは常に、視覚的環境を解析中であり、明示的にクエリを受けることなく、解釈及び関連情報を提供中であることがある。
別の態様では、中抜き検索を、グーグルを超えた次のステップと見なすことができる。グーグルは、公共のウェブ上のテキスト情報のすべてを編成するために、モノリシックな大規模システムを構築した。しかし、ビジュアルの世界は、グーグルにとってさえ大き過ぎ、複雑過ぎて、支配できるものではない。無数の関係者が、−より大きい役割であれ、より小さい役割であれ、特化された役割を各々が果たしながら−関与しなければならない。「すべてを支配するための1つの検索エンジン」は、存在しないことになるであろう。(無数の関係者の潜在的な関与を考えると、おそらく、代わりの名前は「超介在型検索(hyperintermediated search)」となるであろう。)
アーキテクチャ図
図1は、本技術のある原理を用いる実施形態を、アーキテクチャ図で示す。(機能性の、ブロックへの分割は、幾分任意であることを理解されたい。実際の実装は、描かれ、記載された特定の編成に従わないことがある。)
ICPボーブル&空間モデル(ICP Baubles & Spatial Model)コンポーネントは、視空間、表示及びそれらの関係を伴うタスクを扱う。関連のある機能の一部には、ボーブルを視覚的シーンの上にオーバーレイすることに関連した、姿勢評価、追跡、及び、オルソ補正マッピングが含まれる。
ボーブルは、一態様では、キャプチャされた画像の特徴と関連して画面上に表示される拡張現実アイコンと見なされうる。これらのボーブルは、インタラクティブになることができ、ユーザにより調整可能である(すなわち、同一のシーンを見る異なるユーザの画面上に、異なるボーブルが現れることが可能である)。
いくつかの構成では、ボーブルは、システムによる最初のかすかな認識を示すように見える。ディスプレイ上のある場所に潜在的な関心のある何か−視覚的特徴−があることを、システムが見極め始めるとき、システムはボーブルを提示する。システムがその特徴についてより多くを推定するにつれて、ボーブルのサイズ、形状、色又は明るさが変化し−ボーブルをより目立つようにし、及び/又は、より多くの情報を与えるものにすることができる。ユーザがボーブルをタップし−その視覚的特徴への関心を表す場合、システムのリソースマネージャ(例えば、ICPステートマシン〔ICP State Machine〕)は、他の領域よりも画像のその特徴の解析に、より多くの処理リソースを不均衡に充てることができる。(ユーザのタップについての情報はまた、特徴又はボーブルについての情報と共にデータストアに格納されるので、その特徴へのユーザの関心を、次回はより速く又は自動的に認識することができるようになる。)
ボーブルが最初に現れるとき、視覚的特徴が、例えば、やや明るい点、又はエッジの輪郭を伴う何かなど、視覚的に個別のエンティティを構成するように見えることを除いて、視覚的特徴について何も知られていないことがある。このレベルの理解では、小さい星又は円など、汎用ボーブル(おそらく「プロトボーブル〔proto−bauble〕」と呼ばれる)を表示することができる。より多くの情報がその特徴について推定される(その特徴が、顔又はバーコード又は葉のように見える)につれて、次いで、その理解が増したことを反映するボーブルグラフィックを表示することができる。
ボーブルは、性質的に商用であってもよい。いくつかの環境では、表示画面は、ユーザの注目をめぐって競い合う、複数の異なるボーブルであふれうる。この表示画面に取り組むため、どのくらい多くの情報が画面上に提示されるかをスロットルする、ユーザにより設定可能なコントロール−視覚的冗長コントロール−がありうる。加えて、又は別法として、ユーザが商用ボーブル対非商用ボーブルの最大比を確立することを可能にする、コントロールを設けることができる。(グーグルのように、システムからの生データの集まりは、広告をユーザに提示するよりも、長期的により価値があると判明することがある。)
表示のために選択されるボーブルは、コンテキストの様々な次元に基づいて、ユーザに最高の価値を供給するものであることが望ましい。場合によっては、−商用及び非商用の双方の−ボーブルが、クラウド内で実施されるオークション処理に基づいて選択されてもよい。
別のGUIコントロールを、ユーザの現在の関心(例えば、観光、買い物、ハイキング、懇親会、ナビゲート、食べることなど)を示すために設けることができ、ボーブルの提示をそれに応じて調整することができる。
例示されたICPボーブル&空間モデルコンポーネントは、関連機能を供給する既存のソフトウェアツールから借りるか、又はそれに基づいて構築されてもよい。1つは、ARToolKit−Human Interface Technology Lab at the University of Washington(hitl<dot>Washington<dot>edu/artoolkit/)の研究から生まれた、自由に使用可能なソフトウェアのセットであり、現在はシアトルのAR Toolworks,Inc.(artoolworks<dot>com)によってさらに開発されている。もう1つの関連するツールのセットは、MV Tools−普及しているマシンビジョン機能のライブラリである。
図1は、少数のみの認識エージェント(RA)を示し、数十又は数百ものRAが存在することがある。これらのRAは、ピクセル又は他のコンテンツを認識し、そこから意味を抽出する助けとなるコンポーネントである。一態様では、いくつかのRAを、特化された検索エンジンになぞらえることができる。あるRAはバーコードを検索することができ、あるRAは顔を検索することができる、などとなる。
ボーブルのように、RAを伴う競合の態様があることがある。すなわち、重複する機能性が、いくつかの異なるプロバイダからのいくつかの異なるRAによって提供されうる。特定のコンテキストで特定のデバイスにおいてどのRAを使用するべきかの選択は、ユーザ選択、サードパーティ再検討、コスト、システム制約、出力データの再利用可能性、及び/又は、他の基準の相関的要素でありうる。最終的に、ダーウィン的なふるい分け(Darwinian winnowing)が起こることがあり、ユーザのニーズを最もよく満たすRAが優勢となる。
スマートフォンベンダは最初に、電話にデフォルトセットのRAを備えることができる。いくつかのベンダは、RA選択の制御の維持−囲い込み手法−を行うことがあるが、他のベンダは、ユーザによる異なるRAの発見を促すことがある。アップルApp Storeなど、オンライン市場は、RA市場を供給するように進化することができる。異なる顧客グループ及びニーズを満たすRAのパッケージが出現することがあり、例えば、いくつかのパッケージは、視力が不十分な人々を支援するためのものであり(例えば、テキストから音声への認識など、視力補助RAがロードされる)、いくつかのパッケージは、最も単純なユーザインタフェースを望む人々に応えるものであり(例えば、大きいボタンコントロール、専門用語でない説明文)、いくつかのパッケージは、アウトドアのファンに応えるものであり(例えば、鳥の鳴き声識別RA、木の葉識別RAを含む)、いくつかのパッケージは、世界を旅する人々に応えるものである(例えば、言語翻訳機能、及び、場所に基づいた旅行者サービスを含む)、などとなる。システムは、ユーザがデバイスに、異なるそのようなRAのセットを異なる時間にロードさせることができる、メニューを提供してもよい。
RAの一部又は全部は、状況に応じて、クラウドに機能性をプッシュしてもよい。例えば、クラウドへの高速データ接続が使用可能であり、デバイスバッテリが完全な消耗に近付きつつある場合(又は、ユーザがゲームをプレイ中であり−デバイスのCPU/GPUリソースの大部分を消費中である場合)、ローカルRAは、ほんのわずかのタスクをローカルで行うのみにして(例えば、アドミニストレーション)、残りをクラウドの対応物へ、クラウドで実行するために送ってもよい。
本開示の他のところで詳述するように、RAにとって使用可能なプロセッサ時間及び他のリソースを動的な方法で制御し−より多くのリソースを、それに値するように思われるRAに割り振ることができる。ICPステートマシンのディスパッチャコンポーネントは、そのような監督を処理することができる。ICPステートマシンはまた、RA動作をローカルRAコンポーネントとクラウド対応物の間で分割することを管理することもできる。
ICPステートマシンは、アンドロイド(Android)オープンソースオペレーティングシステム(例えば、developer<dot>android<dot>com/guide/topics/fundamentals.html)から、並びに、アイフォン(iPhone)及びシンビアン(Symbian)SDKからモデリングされた態様を用いることができる。
図1の右の方は、クラウド&ビジネスルール(Cloud & Business Rules)コンポーネントであり、このコンポーネントは、クラウド関連処理へのインタフェースとしての機能を果たす。このコンポーネントはまた、クラウドオークションのためのアドミニストレーションを行い−複数のクラウドサービスプロバイダのうちどれがあるタスクを行うかを決定することもできる。このコンポーネントは、サービスプロバイダインタフェース(SPI)を介してクラウドへ通信し、SPIは、本質的に任意の通信チャネル及びプロトコルを利用することができる。
個々のルールは異なるようになるが、この態様のアーキテクチャのためのモデルとして使用可能である例示的ルールベースシステムには、Movielabsコンテントルールズアンドライツ(Content Rules and Rights)構成(例えば、movielabs<dot>com/CRR/)、及び、CNRIハンドルシステム(Handle System)(例えば、handle<dot>net/)が含まれる。
左の方は、コンテキストエンジンであり、システムによって使用されるコンテキスト情報(例えば、現在地はどこか?ユーザが何のアクションを過去1分間に行ったか?過去1時間では?など)を提供し、処理するものである。コンテキストコンポーネントは、インタフェースを介してリモートデータにリンクすることができる。リモートデータには、任意の外部情報、例えば、類似の休暇の目的地など、関係するアクティビティ、同等者、ソーシャルネットワーク、消費されたコンテンツ、地理−本ユーザを他者に関係付けることができるいかなるものも−が含まれうる。(デバイスが音楽認識エージェントを含む場合、デバイスは、ユーザのフェイスブック友達のプレイリストを調べてもよい。デバイスは、この情報を使用して、ユーザが聴く音楽のモデルを精緻化し−また、例えば、何のオンラインラジオ局にユーザがサブスクライブされているか、などについての知識を考慮してもよい)。
コンテキストエンジン及びクラウド&ビジネスルールコンポーネントは、残存的なクラウド側の対応物を有することができる。すなわち、この機能性を、ローカルの部分、及び、クラウド内の対応物に分散させることができる。
クラウドベースのインタラクションは、グーグルのAppエンジン(App Engine)(例えば、code<dot>Google<dot>com/appengine/)、及び、アマゾンのエラスティックコンピュートクラウド(Elastic Compute Cloud)(例えば、aws<dot>amazon<dot>com/ec2/)による、関連クラウドコンピューティングのために既に発行されているツール及びソフトウェアの多くを利用することができる。
図1の下部は、ブラックボード及びクラスタリングエンジン(Blackboard and Clustering Engine)である。ブラックボードシステムは、以前に参照されたものである。
クラスタリングエンジンは、コンテンツデータの項目(例えば、ピクセル)を共に、キーベクトル(KeyVectors)でグループ化する。キーベクトルは、テキストキーワードに対する視聴覚的な対応物−関連結果を取得するために処理へ入力される要素のグループ化−に、おおよそなぞらえることができる。
ここでもまた、以前に参照されたARToolKitは、この機能性のうち一定のものの基礎を提供することができる。ブラックボード機能性は、オープンソースブラックボードソフトウェアGBBopen(gbbopen<dot>org)を利用することができる。Java仮想マシン上で実行する(且つ、JavaScriptによるスクリプティングをサポートする)、もう1つのオープンソース実装は、ブラックボードイベントプロセッサ(Blackboard Event Processor)(code<dot>Google<dot>com/p/blackboardeventprocessor/)である。
前述の態様は、本明細書の以下及び他のセクションでさらに詳述される。
ローカルデバイス&クラウド処理
図2によって概念的に表されるように、中抜き検索は、ローカルデバイス及びクラウドの強度/属性に依拠するべきである。(クラウド「パイプ」もまた、例えば、帯域幅及びコストを含む制約によって、混合の要素として入る。)
ローカルデバイスとクラウドの間の機能性の特定の配分は、実装毎に変わる。1つの特定の実装では、機能性は以下のように分割される。
・ローカル機能性:
・・コンテキスト:
・・・ユーザのアイデンティティ、プリファレンス、履歴
・・・コンテキストメタデータ処理(例えば、自分はどこにいるか?自分はどの方向を向いているか?)
・・UI:
・・・画面上のレンダリング&フィードバック(タッチ、ボタン、可聴、近接など)
・・全体的な向き:
・・・グローバルサンプリング、多くの構文解析のないカテゴリ化
・・・データ配置及び特徴抽出
・・・列挙された特徴のパッチワーク
・・・フレーム間の集まり、時間的特徴のシーケンス
・・クラウドセッション管理:
・・・認識エージェント(RA)による登録、関連付け&二重セッション動作
・・認識エージェント(RA)管理:
・・・特定の機能性を有するDLLと同種−特定のアイデンティティ及び形式を認識する
・・・リソース状態及び検出状態スケーラビリティ
・・・認識エージェントによって提供されたサービスの構成
・・・開発及びライセンシングプラットフォーム
・クラウド機能性:
・・ビジネスルール、セッション管理、認識エージェント制御など
・・ベリサイン(Verisign)などを含む、多数の企業がここで寄与することができる
・ここで詳述される技術は、以下を含む多様なソースからインスピレーションを受ける。
・・生物学的:人間の視覚系&より高いレベルの認知モデルとの相似
・・信号処理:センサフュージョン
・・コンピュータビジョン:画像処理演算(空間&周波数ドメイン)
・・コンピュータ科学:サービスの構成&リソース管理、パラレルコンピューティング
・・ロボット工学:自律的インタラクションのためのソフトウェアモデル(プラン(PLAN)、ガゼボ(Gazebo)など)
・・AI:評価/マッチ/実行モデル、ブラックボード、プランニングモデルなど
・・経済学:オークションモデル(セカンドプライスが勝つ...)
・・DRM:権利表現言語&ビジネスルールエンジン
・・人的要因:UI、拡張現実、
・・モバイル価値連鎖構造:ステークホルダ、ビジネスモデル、ポリシーなど
・・行動科学:ソーシャルネットワーク、クラウドソーシング/フォークソノミー、
・・センサ設計:磁力計、近接、GPS、音声、光学(拡張被写界深度など)
図3は、例示的認知処理の様々な機能を、−システムモジュール及びデータ構造に関して−異なる態様の機能性とマッピングする。したがって、例えば、直観的コンピューティングプラットフォーム(Intuitive Computing Platform)(ICP)コンテキストエンジン(Context Engine)は、関連付け、問題解決状況、ソリューションの決定、アクション/応答の開始、及び、管理の認知処理を、システムのコンテキスト態様に適用する。すなわち、ICPコンテキストエンジンは、履歴などに基づいてユーザの意図を決定し、そのような情報を使用して、システム動作の態様に情報を与えるように試みる。同様に、ICPボーブル&空間モデルコンポーネントは、情報をユーザに提示すること、及び、ユーザから入力を受信することに関連して、同じ処理の多くを供給する。
ICPブラックボード及びキーベクトルは、他の目的の中でも、システムの向き適応の態様と関連して使用されるデータ構造である。ブラックボードは、Daniel Corkillによって普及されたコンピュータ構成物への参照である。例えば、Corkill、Collaborating Software−Blackboard and Multi−Agent Systems & the Future、Proceedings of the International Lisp Conference、2003年を参照されたい。
ICPステートマシン&認識エージェント管理(Recognition Agent Management)は、認識エージェントと共に、認識処理、及び、認識に関連付けられたサービスの構成を処理する。ステートマシンは典型的には、リアルタイムオペレーティングシステムである。(そのような処理はまた、例えば、ICPブラックボード及びキーベクトルをも伴う。)
クラウド管理&ビジネスルール(Cloud Management & Business Rules)は、クラウド登録、関連付け、及び、セッション動作を扱い−認識エージェント及び他のシステムコンポーネントと、クラウドの間のインタフェースを提供する。
ボーブルをサポートするためのローカル機能性
ボーブルに関するソフトウェアコンポーネントのうち1つ又は複数によって提供される機能のいくつかには、以下が含まれうる。
・・ユーザのプロファイル、ユーザの一般的関心、ユーザの現在のコンテキスト内のユーザの現在の特定の関心を理解する。
・・ユーザ入力に応答する。
・・グローバルな画像処理ライブラリの選択されたモジュールを使用して、ストリーミングフレームの重複するシーン領域を、空間的に構文解析且つ「オブジェクト化(object−ify)」する
・・・シンボル(ピクセル解析結果、ID、属性など)の階層の層を、プロト領域に添付する、プロトクエリの「キーベクトル」としてパッケージ化する。
・・ユーザにより設定された視覚的冗長レベル及びグローバルシーン理解に基づいて、ボーブルプリミティブ表示機能/正射影をセットアップする。
・・キーベクトルを適切なローカル/クラウドアドレスに経路指定する
・・・一番上にリストされた黒点からの「フルコンテキスト」メタデータが添付される。
・・・ローカルの場合:キーベクトルを処理し、クエリ結果を出す。
・・キーベクトルクエリ結果を収集し、適切なボーブルをユーザ画面へ活性化/ブリット(blit)する
・・・ボーブルは、「完全且つ十分にアクション可能」であることができ、又は、「中間的な状態」を例示し、よって、より深いクエリのドリリング又はクエリ精緻化のためのユーザインタラクションを予期することができる。
直観的コンピューティングプラットフォーム(ICP)ボーブル
サービス及び高価値ボーブル結果を提供するためのクラウド内の競合は、サプライヤにとって優越及びビジネスの成功を促進するべきである。基本的品質の非商用サービスによりクラウドオークションの場所を確立することは、この市場を促進する助けとなることがある。
ユーザは、ユーザの意図及び実際のクエリに応じて調整された商用侵入による、最高品質及び最も関連のあるボーブルを望む(且つ、求めるはずである)。
一方では、スクリーンリアルエステート(screen real estate)の買い手を2つのクラスに分割することができ、すなわち、非商用ボーブル及びセッションを進んで提供する買い手(例えば、ブランディングのために顧客を獲得することを目標とする)、及び、スクリーンリアルエステートを「制限」し、そのスクリーンリアルエステートが表す商業的な機会に単に入札することを望む買い手である。
グーグルは、もちろん、その「オークション処理へ、スポンサー付きハイパーリンク提示への、キーワード」構成を収益化することに基づいて、巨大なビジネスを構築している。しかし、視覚的検索では、単一のエンティティが処理のすべての態様を同様に支配するようになるということは、起こりそうもないように思われる。むしろ、中間層の企業がユーザクエリ/スクリーンリアルエステートの買い手のマッチメイキングを支援するようになることは、起こりそうに思われる。
ユーザインタフェースは、ユーザが関心のないボーブルを捨てる−関心のないボーブルを画面から除去する(且つ、その視覚的特徴に関するさらなる情報の開発に充てられた、あらゆる進行中の認識エージェント処理を終了する)−ことができる、コントロールを含んでもよい。捨てられるボーブルについての情報を、データストアに記録することができ、この情報を使用して、ユーザのプロファイル情報を拡張することができる。ユーザがスターバックスコーヒー店及び別個のコーヒー店のボーブルを捨てる場合、システムは、すべてのコーヒー店へのユーザの関心の欠如を推論するようになりうる。ユーザがスターバックスコーヒー店のみのボーブルを捨てる場合、ユーザの関心のより狭い欠如を見極めることができる。今後のボーブルの表示は、データストアを調べることができ、以前に捨てられた(又は、繰り返し捨てられた)ボーブルは、再び正常には表示されないことがある。
同様に、ユーザがボーブルをタップする−関心を示す−場合、そのタイプ又はクラスのボーブル(例えば、スターバックス又はコーヒー店)には、どのボーブルを(多数の候補の中で)表示するべきかを評価する際に、今後はより高いスコアを与えることができる。
ボーブルとのユーザインタラクションについての過去にあった情報を、現在のコンテキスト情報と共に使用することができる。例えば、ユーザが午後のコーヒー店に関するボーブルを捨てるが、午前のものは捨てない場合、システムは、午前のコーヒー関連ボーブルを提示し続けてもよい。
ビジュアルクエリ問題に固有の複雑性は、多数のボーブルが中間的なもの、又は、プロトボーブルクラスとなり−ユーザを促し、導いて、人間レベルのフィルタリング、及び、クエリ処理へのより深いナビゲーションを提供することを暗示する。あるシーンにおけるボーブル表示の進行は、したがって、リアルタイムの人間の入力、並びに、他の要因の相関的要素となりうる。
ユーザがボーブルをタップするか、又は、他の方法でボーブルへの関心を表すとき(予備のプロトボーブルをタップすることとは対照的に)、このアクションは通常、ボーブルの主題に関するセッションを開始する。セッションの詳細は、個々のボーブルによって決まるようになる。いくつかのセッションは、性質的に商用であってもよい(例えば、スターバックスボーブルをタップすると、スターバックス製品の1ドル値引きの電子クーポンが生じてもよい)。他のセッションは、情報を提供するものであってもよい(例えば、ある像に関連付けられたボーブルをタップすると、その像又は彫刻家についてのウィキペディア(Wikipedia)エントリの提示につながってもよい)。キャプチャされた画像内の顔の認識を示すボーブルは、様々な動作(例えば、リンクトイン(LinkedIn)など、ソーシャルネットワークからその人のプロファイルを提示する、そのピクチャの顔の注釈付きのコピーを、認識された人又はユーザのフェイスブックページに投稿する、など)につながるかもしれない。時として、ボーブルをタップすると、いくつかの動作のメニューが呼び出され、そこからユーザが所望のアクションを選択することができる。
ボーブルをタップすることは、そのボーブルにとって、他のボーブルを超えたある種の勝利を表す。タップされたボーブルが性質的に商用である場合、そのボーブルは、ユーザの注目をめぐる、且つ、ビューアの画面上のリアルエステートの一時的な使用をめぐる争いに勝っている。場合によっては、関連付けられた支払いが−おそらくユーザに対して、ことによると別の相手(例えば、顧客をめぐる「勝利」を確保したエンティティ)に対して−行われてもよい。
タップされたボーブルはまた、プリファレンスの投票−他のボーブルを超えた、そのボーブルへの、可能なダーウィン的な承諾(Darwinian nod)−をも表す。今後、本ユーザに表示するためのボーブルの選択に影響を与えることに加えて、このような肯定はまた、他のユーザに表示するためのボーブルの選択にも影響を与えることができる。これは、うまくいけば、ボーブルプロバイダを、ユーザサービスでの優越に向かう好循環に導くようになる。(ユーザのお気に入りのみが進行中の放送時間を得た場合、いくつの現在のテレビコマーシャルが生き残るだろうか?)
上記に示したように、所与の画像シーンは、多数のボーブル−画面が有用に含むことができる、より多数のボーブルであることが多い−の表示の機会を提供することがある。この多数の可能性を、扱いやすいセットに絞り込む処理は、ユーザから開始することができる。
以前に示されたような冗長コントロール−単に、どのくらい盛んに画面がボーブルでオーバーレイされることをユーザが望むかについての基礎を設定する−を始めとして、様々な異なるユーザ入力を用いることができる。他のコントロールは、話題別のプリファレンス、及び、指定された商用−非商用の混合を示してもよい。
もう1つの次元の制御は、画面の個々のエリアへのユーザの関心のリアルタイム表現であり、例えば、それについてユーザがさらに知るか、又は他の方法でインタラクトすることを望む、特徴を示す。この関心は、そのような特徴上にオーバーレイされたプロトボーブルをタップすることによって示すことができるが、プロトボーブルは必須ではない(例えば、ユーザは単に、画面の区別されていないエリアをタップして、プロセッサの注意を画像フレームのその部分に集中させてもよい)。
追加のユーザ入力は、コンテキスト的であり−他のところで詳述される多数の色々な情報(例えば、計算コンテキスト、物理的コンテキスト、ユーザコンテキスト、物理的コンテキスト、時間的コンテキスト、及び、過去にあったコンテキスト)が含まれる。
ボーブル選択処理に入力される外部データには、サードパーティインタラクションに関する情報−何のボーブルとインタラクトすることを他者が選んだか?−が含まれうる。この要因を与えられた重みは、他のユーザ(複数可)と本ユーザの間の距離測定、及び、それらのコンテキストと本コンテキストの間の距離によって決まる可能性がある。例えば、類似のコンテキストの状況で、本ユーザの社会的な友達のアクションによって明示されたボーブルプリファレンスに、異なる状況での他人のアクションよりもはるかに大きい重みを与えることができる。
もう1つの外部要因は、商業的に考慮すべき点である可能性があり、例えば、サードパーティが、少しのユーザのスクリーンリアルエステートを少しの間に借りるために、いくら(及び、場合によっては誰に)進んで支払うか、である。上述のように、そのような問題は、クラウドベースのオークション構成に要素として入ることが可能である。オークションはまた、他のユーザからの個々のボーブルの人気を考慮に入れることもできる。この態様の処理の実装では、オンライン広告リアルエステートをオークションするためのグーグル技術(例えば、Levy、Secret of Googlenomics:Data−Fueled Recipe Brews Profitability、Wired Magazine、2009年5月22日を参照)−一般化されたセカンドプライスオークションの変形形態−を参照することができる。出願人は、クラウドベースのオークション構成を、国際出願PCT/US09/54358において詳述した。
1つの特定の実装では、少数のボーブル(例えば、1〜8個)が商用プロモーションに割り振られてもよく(例えば、グーグルのようなオークション手順によって決定されるように、且つ、商用対非商用ボーブルのユーザ調整を受ける)、他のボーブルが、以前に述べたものなど、非商用要因に基づいて選択されてもよい。これらの後者のボーブルは、ルールベースの方法で、例えば、以前に述べた異なる要因に重み付けして、ボーブル毎にスコアを取得するアルゴリズムを適用して、選ばれてもよい。競合スコアが次いでランク付けされ、最高スコアのN個のボーブル(ただし、Nは、冗長コントロールを使用してユーザにより設定されてもよい)が画面上に提示される。
もう1つの実装では、商用ボーブルのための推測的な割り振りはない。その代わりに、これらの商用ボーブルは、非商用ボーブルと類似の方法でスコア化される(典型的には、異なる基準を使用するが、類似のスコアの範囲に合わせてスケールされる)。上位スコアのN個のボーブルが次いで提示され−これらのボーブルは、すべて商用であっても、すべて非商用であっても、又は混合であってもよい。
さらにもう1つの実装では、商用−非商用ボーブルの混合は、ユーザのサブスクリプションサービスの相関的要素である。エントリレベルのユーザは、導入料金を支払うと、サイズが大きい、及び/又は、数が多い商用ボーブルが提示される。サービスプロバイダにプレミアムサービスの支払いをするユーザには、より小さい、及び/又は、より少数のボーブルが提示されるか、又は、商用ボーブルの表示についてのユーザ自身のパラメータを設定する自由が与えられる。
ボーブルを表すグラフィカルなしるしを、その特徴関連付けを示すように視覚的に調整することができ、このしるしには、ユーザの注目を引き付けるためにアニメーションの要素が含まれてもよい。ボーブルプロバイダは、様々なサイズのしるしをシステムに提供し、−ユーザが、表示された画像のそのエリアにズームインするか、又は、他の方法でそのようなボーブルへの潜在的な関心を表す場合−システムがボーブルサイズ−及び解像度−を増すことができるようにしてもよい。場合によっては、システムは、警官の役を果たさなければならず−例えば、そのサイズが、格納されたルールによって確立された寸法を超える、その外観がわいせつであると見なされる、などのために、提供されたボーブルを提示しないことに決定する。(システムは、ボーブルを適切なサイズに自動的にスケールダウンし、汎用のしるし−星など−を、不適切又は他の状態で使用不可能であるしるしの代わりに用いてもよい。)
ボーブルを、画像から見極められた視覚的特徴に関連する以外で提示することができる。例えば、ボーブルは、デバイスがそのジオロケーションを知っていること、又は、デバイスがそのユーザのアイデンティティを知っていることを示すために、提示されてもよい。様々な動作のフィードバックを、したがって、−画像コンテンツにかかわらず−ユーザに提供することができる。ある画像フィードバックもまた、−特定の特徴識別は別として−ボーブルを介して提供されてもよく、例えば、キャプチャされた画像が、焦点又はコントラストなど、基本的な品質標準を満たすことである。
各ボーブルは、ビットマップ表現を含むことができ、又は、グラフィカルプリミティブの集まりに関して定義することができる。典型的には、ボーブルのしるしは、平面ビューで定義される。ソフトウェアの空間モデルコンポーネントは、キャプチャされた画像内で見極められた表面に従って、その投影を画面上へマッピングすること、例えば、斜めに見られた店先に関連付けられたボーブルを外見的に傾け、おそらく遠近法によって曲げることを処理する。そのような論点については、以下のセクションでさらに論じる。
空間モデル/エンジン
3D世界を2D画面上へ、満足の行くように投影且つ表示することは、楽しいユーザ体験の確立において重要でありうる。したがって、好ましいシステムは、そのような目的を果たすために、ソフトウェアコンポーネント(例えば、空間モデル又は空間エンジンなど、様々に呼ばれる)を含む。
3D世界を2Dでレンダリングすることは、3D世界について何かを理解することによって開始する。空のピクセルのフレーム−あらゆるジオロケーションデータ又は他の空間理解が欠けている−から、どこで始めればよいのか?どのようにオブジェクトを見極めて、カテゴリ化すればよいのか?幸いにも、この問題には、何度も多くの状況で直面されてきた。マシンビジョン及びビデオ動き符号化は、多くの中でも、当業者が精通していると推定され、当業者が本出願に関連してそこから引き出すことができる、有用な従来技術を提供する2つの分野である。
・第一原理として:
・・カメラ及び表示された画面は、古典的な2D空間的構造である
・・カメラは、2D平面への3D世界の空間的投影を通じて機能する
・・ボーブル及びプロトボーブルは、空間的フレームワーク内で「オブジェクト化」される。
以下に、空間理解を直交処理ストリームとして、並びに、コンテキスト項目及び属性項目として体系化するための提案が続く。この提案は、3つの「空間レベル」−空間理解の段階−の構成物を利用する。
空間レベル1は、基本シーン解析及び構文解析を含む。ピクセルは、最初のグループにクランプ化(clumped)される。キャプチャされたシーンリアルエステート、並びに、表示スクリーンリアルエステートの、ある基本理解が存在する。また、複数のフレームにわたるシーンリアルエステートの流れについての、ある初歩的な知識も存在する。
空間レベル2は、シーンリアルエステートにさらに焦点を合わせる。空間レベル2は、シーン及びシーンシーケンスのGISのような編成を課し、例えば、識別されたクランプ、オブジェクト、又は関心領域の各々に、それ自体の論理データ層を−場合によっては、重複するエリアを有して−割り当てる。各層は、関連付けられたメタデータのストアを有してもよい。このレベルで、−フレーム間の−オブジェクト連続性が見極められる。消失点、水平線、及び、「上/下」の観念など、初歩的な「世界の空間的手がかり」を示すこともできる。
空間レベル3は、以前の理解のレベルに基づき、世界の相関にまで広がる。ユーザは、所与の投影及び時空の軌跡を有する世界モデル内の観察者であると理解される。シーンから世界、及び、世界からシーンのマッピングを行う変換方程式を適用して、システムが空間内のどこにあるのか、及び、オブジェクトが空間内のどこにあるのかをシステムが共に理解するように、且つ、どのように物事が関係するかについてのあるフレームワークをシステムが有するようにすることができる。これらの解析のフェーズは、ゲーム業界及び拡張現実エンジン(augmented reality engines)における作業から引き出す。
これらの態様のうちいくつかを図4に示し、図4は、空間レベル1から、2へ、3へと増していく空間理解の洗練を概念的に例示する。
例示的応用例では、異なるソフトウェアコンポーネントが、異なる空間レベルに関連付けられた異なるタイプの情報を見極めることを担う。クランプ化エンジン(clumping engine)は、例えば、空間レベル1の理解の生成に使用される。
クランプ化は、(一般に連続的な)ピクセルのグループを、関連するものとして識別するための処理を指す。この関係は、例えば、色又はテクスチャの類似性でありうる。又は、この関係は、流れの類似性でありうる(例えば、フレームからフレームへと静的な背景にわたってシフトする顔のピクセルの類似パターン)。
1つの構成では、システムがピクセルのクランプを識別した後、システムは、シンボロジー(例えば、ID番号と同様に単純)を、クランプに関連付けられるように割り当てる。これは、クランプのさらなる管理及び解析に関連して(及び、そうでない場合も、例えば、リンクトデータ(linked data)構成に関連して)有用である。プロトボーブルがクランプに割り当てられ、識別シンボルを参照することによって追跡されてもよい。システムがクランプの位置を2D及び3Dにおけるカメラの位置に関係付けることによって行われた、構文解析及び向き調節動作の結果生じる情報が、クランプのシンボルを参照することによって編成されてもよい。同様に、クランプに関連付けられた画像処理演算の結果生じるデータを、クランプのシンボルを参照することによって識別することができる。同様に、ユーザのタップがシンボルと関連して記録されてもよい。それによりクランプ関連情報を格納且つ管理することができるハンドルとしてのシンボルのこの使用は、クランプに関するクラウドベースの処理、クランプ−オブジェクトの完全認識及びそれに基づいた応答全体を通じての、クランプに関連付けられたボーブルの進化にまで及ぶ可能性がある。(例えば、セッションIDを含む、より詳細な命名構成物は、以下で紹介される。)
これらの空間理解コンポーネントは、他のシステムソフトウェアコンポーネントと並列に動作し、例えば、共通/グローバルな空間理解を維持し、エージェント及びオブジェクトが利用することができる空間的フレームワークをセットアップすることができる。そのような動作には、空間的環境についての現在の情報を共有可能データ構造(例えば、ブラックボード)に投稿することが含まれる可能性があり、認識エージェントは、この共有可能データ構造を参照して、何を見ているかを理解する助けとすることができ、グラフィックシステムは、現在の景色の上にどのようにボーブルをペイントするかを決定する際に、この共有可能データ構造を調べることができる。異なるオブジェクト及びエージェントは、この3つのレベルに関連付けられた空間レベルフィールド及び属性項目をセットアップすることができる。
これらのシステムの継続的な世代を通じて、空間理解コンポーネントは、デバイスのほとんど反射的、機械的な反復機能になると予期される。
直観的コンピューティングプラットフォーム(ICP)ステートマシン−サービスの構成、サービス指向コンピューティング
以前に述べたように、ICPステートマシンは、本質的に、リアルタイムオペレーティングシステムを備えることができる。ICPステートマシンは、スケジューリング、マルチタスキング、エラー回復、リソース管理、メッセージング及びセキュリティなど、従来のタスク、並びに、現在のアプリケーションにより特有であるいくつかの他のタスクを処理することができる。これらの追加のタスクには、監査証跡機能性の提供、安全なセッション管理の処理、及び、サービスの構成の決定が含まれうる。
監査証跡機能性は、商用エンティティに対し、彼らがスポンサーになるために支払いをしたボーブルが実際にユーザに提示されたという保証を提供する。
安全なセッション管理は、(例えば、暗号化により)盗聴などに対してロバストであるクラウドサービス及び他のデバイスとの、接続の確立及び維持を伴う。
サービスの構成は、ある機能(及び、これらのコンポーネント動作の関連オーケストレーション/コレオグラフィ)を行うための動作の選択を指す。ディスパッチ処理は、例えば、リソースをアプリケーションにうまく調和させるなど、これらの態様のステートマシンの動作に関与することができる。
ある高レベルの機能が、様々なより低いレベルの動作の異なる組み合わせからのデータを使用して、実装されてもよい。どの機能を利用すべきか、及び、いつかの選択は、いくつかの要因に基づく可能性がある。1つは、何の他の動作が既に進行中であるか、又は完了しているかであり−その結果もまた、このニーズを満たすことがある。
例示のため、バーコードの位置測定は通常、位置測定される水平コントラストの計算、及び、位置測定される垂直コントラストの計算、及び、そのようなコントラストデータの比較に依拠することがある。しかし、画像中の16×16ピクセルのタイルの2DのFFTデータが別の処理から既に入手可能である場合、代わりにこの情報を使用して、候補バーコードエリアが位置指定されるかもしれない。
同様に、ある機能が、画像内の長いエッジの場所についての情報を必要とすることがあり、長いエッジデータを作り出すための専用の動作が開始されうる。しかし、別の処理が、フレーム内の様々な長さのエッジを既に識別していることがあり、これらの既存の結果が単にフィルタリングされて、長いエッジが識別され、再使用されてもよい。
もう1つの例は、ハフ(Hough)変換ベースの特徴認識である。OpenCVビジョンライブラリは、この機能が、間引かれたエッジ画像データを入力データとして使用することが望ましいことを示す。OpenCVビジョンライブラリは、キャニー演算(Canny operation)をエッジデータに適用することによって、間引かれたエッジ画像データを生成することを、さらに推奨する。エッジデータは、さらに、ソーベルフィルタを画像データに適用することによって、一般に生成される。そのため、ハフ手順の「型通り」の実装は、ソーベルフィルタから開始し、その後にキャニー演算が続き、次いでハフ法を呼び出すことになる。
しかし、エッジを、ソーベルフィルタ以外の方法によって決定することができる。また、間引かれたエッジを、キャニー以外の方法によって決定することができる。システムがエッジデータ−ソーベルフィルタ以外の方法によって生成されたものであろうとも−を既に有する場合、このエッジデータが使用されてもよい。同様に、別の処理が、改良されたエッジデータを既に作り出している場合−たとえキャニー演算によるものでない場合でも、この改良されたエッジデータが使用されてもよい。
1つの特定の実装では、システム(例えば、ディスパッチ処理)は、異なるタイプのキーベクトル間の大まかな度合いの機能的対応を確立する情報を有する、データ構造を参照することができる。キャニーによって作り出されたキーベクトルエッジデータは、無限対称指数フィルタ(Infinite Symmetric Exponential Filter)技術によって作り出されたエッジデータとの高度の機能的対応、及び、Marr−Hildreth手順によって見極められたエッジデータとの幾分より低い対応を有するように示されうる。ハリス演算子によって検出されたコーナーは、Shi及びTomasi方法によって検出されたコーナーと交換可能でありうる、などとなる。
このデータ構造は、1つの大きいテーブルを含むことができ、又は、いくつかのテーブルに分解可能であり−各々のテーブルは特定のタイプの動作に特化される。図5は、例えば、エッジ発見に関連付けられたテーブルの一部を概略的に示し−対応の度合い(100にスケールされたもの)を示す。
特定の高レベルの機能(例えば、バーコードの復号)は、キャニーエッジフィルタなど、特定の処理によって生成されたデータを必要とすることがある。キャニーフィルタ機能は、システムにとって使用可能なソフトウェア処理アルゴリズムのライブラリで使用可能であることがあるが、その動作を呼び出す前に、システムは、図5のデータ構造を調べて、適切な代替データが既に入手可能又は処理中であるかどうかを確かめてもよい(好ましいキャニーデータが既に入手可能ではないと仮定する)。
このチェックは、一番左の列に名目的に所望の機能がある行を発見することによって、開始する。この手順は次いで、最高値を求めてその行中を走査する。キャニーの場合、最高値は、無限対称指数フィルタの95である。システムは、共有データ構造(例えば、ブラックボード)をチェックして、そのようなデータが対象の画像フレーム(又は適切な代用物)のために入手可能であるかどうかを判定することができる。発見される場合、そのようなデータが、名目的に指定されたキャニーデータの代わりに使用されてもよく、バーコード復号動作は、それに基づいて継続することができる。何も発見されない場合、ステートマシン処理は継続し−次に高い値(複数可)(例えば、Marr−Hildrethの90)を探す。ここでもまた、システムは、このタイプのいずれかのデータが入手可能であるかどうかをチェックする。処理は、テーブル内の代替物のすべてがチェックされ尽くすまで、進行する。
ここで好ましい実施形態では、このチェックは、ディスパッチ処理によって着手される。このような実施形態では、大抵の認識処理は、カスケードされた動作のシーケンスとして行われ−各々が指定された入力を有する。ディスパッチ処理の使用により、付随するサービスの構成の意思決定が集中化されることが可能となる。これにより、また、動作可能なソフトウェアコンポーネントを、例えば、適切な入力リソースを求めてテーブルをチェックすること、及び、他の処理の動作の意識を維持すること−そのようなコンポーネントをより複雑にし、維持を困難にするであろう負荷−にも関与するのではなく、画像処理に集中させることもできる。
いくつかの構成では、閾値が−バーコード復号機能によって、又は、システムによってグローバルに−指定され、例えば、75など、データ代用のために受け入れ可能である最小対応値を示す。そのような場合、直前に記載された処理は、ソーベル及びキルヒフィルタからのデータを考慮することはなく−その理由は、それらのフィルタの、キャニーフィルタとの対応の度合いが、70でしかないためである。
他の実装は異なることがあるが、図5のテーブルは、対称ではないことに留意されたい。例えば、キャニーが望ましい場合、ソーベルには70のみの対応が示される。しかし、ソーベルが望ましい場合、キャニーには90の対応が示される。したがって、キャニーをソーベルの代わりに用いることはできるが、75の閾値が設定される場合、逆もまた同様ではない。
図5のテーブルは、汎用である。いくつかの特定の応用例では、しかし、このテーブルは適切ではないことがある。ある機能は、例えば、エッジがキャニー(好ましい)、又は、キルヒ若しくはラプラシアンにより発見されることを、必要とすることがある。その機能の性質により、他のエッジファインダは満足の行くものになりえない。
システムは、個々の機能が1つ又は複数の動作のためのそれら自体の対応テーブルを提供し−汎用テーブル(複数可)の適用を防止することを可能にすることができる。ある機能のための特化された対応テーブルの存在は、その機能に関連付けられたフラグビットによって、又は他の方法で示すことができる。直前に挙げた例では、フラグビットは、図5Aのテーブルが代わりに使用されるべきであることを示してもよい。このテーブルは、−その機能で使用するために名目的に指定されるキャニー演算のための−ただ1行のみを含む。また、このテーブルは、−無限対称指数フィルタ及びラプラシアンのための−ただ2列のみを有する。(他のデータは適切ではない。)対応値(すなわち、95、80)は省かれてもよく−このテーブルが単純な代替処理のリストを含むことができるようにしてもよい。
共有データ構造内の代用可能なデータの発見を容易にするため、特定のキーベクトルが何の情報を含むかを示す、命名規則を使用することができる。このような命名規則は、機能のクラス(例えば、エッジ発見)、機能の特定の種(例えばキャニー)、データが基づく画像フレーム(複数可)、及び、データに特有の任意の他のパラメータ(例えば、キャニーフィルタのためのカーネルのサイズ)を示すことができる。この情報は、逐語的に、省略形による、全詳細を取得するために別のデータ構造を通じて解決可能である1つ又は複数のインデックス値による、その他など、様々な方法で表すことができる。例えば、フレーム1357のためのキャニーエッジデータを含み、5×5のぼけカーネル(blurring kernel)により作り出されたキーベクトルは、「KV_Edge_Canny_1357_5×5」と命名されてもよい。
他の処理に、処理中であるデータのアラートを出すために、ある機能が初期化されるとき、空のエントリを共有データ構造に書き込むことができ−その機能の最終結果に従って命名することができる。したがって、システムが、キャニー演算をフレーム1357で、5×5のぼけカーネルにより行うことを開始する場合、空のファイルが、上述の名前で共有データ構造に書き込まれてもよい。(この書き込みは、その機能によって、又は、ステートマシン−例えば、ディスパッチ処理によって行われうる。)別の処理がその情報を必要とし、空のエントリを有する適切に命名されたファイルを発見する場合、別の処理は、このような処理が起動されていることを知る。別の処理は次いで、共有データ構造を監視し、又は、共有データ構造に戻ってチェックし、必要とされた情報が入手可能になるとき、取得することができる。
より詳細には、その情報を必要とする処理段階は、その入力パラメータの中に、所望のエッジ画像の仕様−その必要とされた品質を与える記述子を含む−を含むようになる。システム(例えば、ディスパッチ処理)は、現在メモリ内(例えば、ブラックボード上)にあるデータのタイプ、及び、上述のような記述テーブルを調べて、適切なデータが現在入手可能であるか、処理中であるかを判定するようになる。可能なアクションには、このとき、受け入れ可能、入手可能なデータによりその段階を開始すること、データが入手可能であると予期されるとき、後の時間まで開始を遅延させること、開始を遅延させ、必要とされたデータを生成するようになる処理(例えば、キャニー)の開始をスケジュールすること、又は、必要とされたデータ及びそのデータを生成するために必要とされるであろうリソースの不足により、その段階を遅延又は終了させることが含まれうる。
代わりのデータが特定の動作による使用に適切であるかどうかを検討する際、他のフレームからのデータが検討されてもよい。カメラがフリーランニングモードである場合、そのカメラは毎秒多数(例えば、30)のフレームをキャプチャ中であることがある。(上記で挙げた例で)ある解析処理がフレーム1357を特に検討することがあるが、この解析処理は、フレーム1356から、又は、フレーム1200若しくは1500からさえも導出された情報を利用可能であってもよい。
この点で、コンテンツが比較可能である画像を包含するフレームのグループを識別することが、助けとなる。2つの画像フレームが比較可能であるかどうかは、当然、例えば、画像コンテンツ及び行われている動作(複数可)など、個々の状況によって決まるようになる。
1つの例示的構成では、(1)関連のある関心領域が双方のフレーム内に現れる(例えば、同じ顔の被写体、又は、バーコードの被写体)場合、及び(2)AとBの間のフレームの各々もまた、その同じ関心領域を含む(これは、カメラが被写体を最初に見たときと、カメラが被写体に戻ったときの間に、変化する被写体に対する、ある程度の保護をもたらす)場合、フレームAはフレームBと比較可能であると見なされてもよい。
もう1つの構成では、2つのフレームの色ヒストグラムが、指定された閾値内までに類似している(例えば、それらの色ヒストグラムが、0.95又は0.98より大きい相関を有する)場合、それらの2つのフレームは比較可能であると見なされる。
さらにもう1つの構成では、MPEGのような技術を画像ストリームに適用して、2つのフレーム間の差異情報を決定することができる。差異が閾値を超える場合、これらの2つのフレームは比較不可能であると見なされる。
上述の基準に加えて課すことができる、さらなるテストは、フレーム内の関心特徴又は関心領域の位置が比較的固定されることである(「比較的」とは、例えば、10ピクセル、フレーム幅の10%など、許可された動きの閾値を可能にする)。
多くの様々な他の技術を、別法として使用することができ、これらの構成は例示的でしかない。
1つの特定の実施形態では、モバイルデバイスは、比較可能な画像フレームを識別するデータ構造を維持する。このデータ構造は、例えば、以下のように、各グループの先頭及び終了フレームを識別するテーブルのように単純でありうる。
いくつかの構成では、第3のフィールドが設けられてもよく−示された範囲内で、いくつかの理由で比較可能ではない(例えば、焦点が合っていない)フレームを示す。
以前に述べられた例に戻ると、ある機能が入力データ「KV_Edge_Canny_1357_5×5」を望み、何も発見されない場合、その機能は、前述のテーブルによって示された比較可能性(おおよそ等価)に基づいて、検索を拡大して、「KV_Edge_Canny_1200_5×5」ないし「KV_Edge_Canny_1500_5×5」を探すことができる。また、上記で示したように、その機能はここでも、他の方法によってフレーム1200〜1500のいずれかから作り出されたエッジデータを利用可能であってもよい。
したがって、例えば、フレーム1250内の高い水平コントラストの領域、及び、フレーム1300内の低い垂直コントラストの領域を発見することによって、バーコードが位置指定されてもよい。位置指定の後、このバーコードは、フレーム1350内で発見された境界線構造(エッジ)、並びに、フレーム1360、1362及び1364内で発見されたシンボルパターンの相関を参照することによって、復号されてもよい。すべてのこれらのフレームは共通グループ内にあるので、デバイスは、それらのフレームの各々から導出されたデータを、他のフレームの各々から導出されたデータと共に使用可能であると見なす。
より高度な実施形態では、フレーム間の特徴追跡(流れ)を見極め、使用して、フレーム間の動きを識別することができる。したがって、例えば、デバイスは、フレームA内のピクセル(100,100)で開始する線が、フレームB内のピクセル(101,107)で開始する同じ線に対応することを理解することができる。(ここでもまた、MPEG技術を、例えば、フレーム間オブジェクト追跡のために使用することができる。)データを再登録するために適切な調整を行うことができ、又は、他の方法で調整を導入することができる。
より単純な実施形態では、画像フレーム間の等価は、単に時間的近接に基づく。対象フレームの所与の期間(又はフレーム期間)内のフレームは、比較可能であると見なされる。そのため、フレーム1357を求めて、キャニーエッジ情報を探す際、システムは、フレーム1352〜1362(すなわち、プラス及びマイナス5フレーム)のうちいずれからのエッジ情報をも等価であるように受け入れることができる。この手法は、時として失敗につながるようになるが、その単純さにより、ある状況では望ましくなりうる。
時として、代用された入力データを使用する動作は、代替処理からの入力データが動作の名目的な所望の入力データの正確な特性のものではなかったために、失敗する(例えば、その動作はバーコードを発見できない、又は、顔を認識できない)。例えば、まれではあるが、ハフ変換ベースの特徴認識は、入力データがキャニー演算子によって作り出されたものではなく、代替処理によって作り出されたために、失敗するかもしれない。ある動作が失敗する場合、−今度は異なる入力データのソースにより−再試行されてもよい。例えば、キャニー演算子が、代替物の代わりに利用されてもよい。しかし、動作を繰り返すコスト、及び、2回目の試行の成功への期待が一般に低いことにより、そのような再試行は一般に、ルーチン的に着手されない。再試行が試みられうる1つの場合は、ユーザアクションに応答してなど、トップダウンの方法で動作が開始された場合である。)
いくつかの構成では、最初のサービスの構成の決定は、ある程度、動作がトップダウンで開始されたか、ボトムアップで開始されたか(これらの概念については、後述される)によって決まる。ボトムアップの場合、トップダウンの場合よりも、例えば、異なる入力データのソース(例えば、名目データソースへの対応がより少なく示されるソース)を代わりに用いるために、より多くの自由が認められてもよい。
サービスの構成を決定する際に検討することができる他の要因には、電力及び計算の制約、あるクラウドベースの動作にかかる金銭的なコスト、オークション結果、ユーザ満足度ランキングなどが含まれうる。
ここでもまた、サービスの構成の決定の助けとするために、代わりの動作の各々のための相対的情報を与えるテーブルを調べてもよい。一例が、図6に示される。
図6のテーブルは、異なるエッジ発見機能を実行するために必要とされるCPU及びメモリについてのメトリックを与える。これらのメトリックは、何らかの実際の値(例えば、記載された演算を所与のサイズ、例えば、1024×1024の画像で行うためのCPUサイクル、及び、このような演算を実行するために必要とされるRAMのKB)であってもよく、又は、例えば、0〜100のスケールで任意にスケールされてもよい。
ある機能が−好ましくはキャニー演算からの−エッジデータを必要とし、適切なデータが既に入手可能ではない場合、ステートマシンは、要求されたキャニー演算を呼び出すか、別の演算を呼び出すかを決定しなければならない。システムメモリの供給が不十分である場合、図6のテーブルは(図5のテーブルと共に)、無限対称指数フィルタが代わりに使用されてもよいこと、すなわち、このフィルタは、CPU負荷がわずかに大きいだけであるが、25%少ないメモリを要することを示唆する。(図5は、無限対称指数フィルタの、キャニーとの対応が95であり、そのため、機能的に代用可能であるはずであると示す。)ソーベル及びキルヒは、はるかにより小さいメモリフットプリントを要するが、図5は、これらが適切ではない場合があること(70のスコア)を示す。
リアルタイムステートマシンは、様々なパラメータを検討することができ−これらのパラメータは、図5及び図6のスコアに加えて、代替エッジ発見演算の各々についてのコスト、ユーザ満足度、現在のシステム制約(例えば、CPU及びメモリ利用)についての他のスコア、及び、他の基準などである。これらのパラメータは、多項式に従って異なる組み合わせのパラメータの重み付け及び合計を行う処理へ、入力されてもよい。この処理の出力は、呼び出される可能性のある異なる演算の各々についてのスコアを生じる。最高スコア(又は、式に応じて、最低)を有する演算が、本状況で最良であると見なされ、次いで、システムによって開始される。
図5及び図6のテーブルは、このような機能のローカルデバイス実行のみを検討したが、クラウドベースの実行もまた検討されてもよい。この場合、機能のプロセッサ及びメモリコストは本質的にゼロであるが、例えば、結果を受信するための時間の増大、ネットワーク帯域幅の消費、及び、場合によっては金銭的なマイクロペイメントにおいて、他のコストが負担されうる。これらのコストの各々は、代替サービスプロバイダ及び機能によって異なることがある。これらの要因を査定するために、追加のスコアを、例えば、サービスプロバイダ及び代わりの機能毎に計算することができる。これらのスコアには、入力として、結果を取り戻す緊急性の指示、及び、クラウドベースの機能から予期されるターンアラウンド時間の増大と、ネットワーク帯域幅の現在の使用、及び、機能をクラウドベースのサービスへ委託することによって消費されるであろう追加の帯域幅と、企図された機能(例えば、無限対称指数フィルタ)対、名目的に所望の機能(例えば、キャニー)の代替性と、値段に対するユーザの敏感さの指示、及び、何の料金が(もしあれば)機能のリモート実行について査定されるようになるかとが含まれうる。様々な他の要因もまた関与する可能性があり、ユーザプリファレンス、オークション結果などが含まれる。そのような計算の結果生じるスコアを使用して、検討される異なるリモートプロバイダ/機能の中で好ましいオプションを識別することができる。システムは次いで、この課題からの勝利スコアを、ローカルデバイスによる機能の性能に関連付けられたものからの勝利スコアと比較することができる。(スコアリングスケールは、比較可能であることが望ましい。)次いで、そのような査定に基づいて、アクションを起こすことができる。
サービスの選択は、他の要因にも基づくことができる。コンテキスト、ユーザの意図の指示などから、本状況に関連のある認識エージェントのセットを識別することができる。これらの認識エージェントから、システムは、それらの所望の入力からなるセットを識別することができる。これらの入力には、他の異なる入力を有する他の処理が含まれてもよい。関連のある入力のすべてを識別した後、システムは、示された入力並びに代替物を含む、ソリューションツリーを定義することができる。システムは次いで、ツリー中で異なるパスを識別し、(例えば、関連のある制約に基づいて)最適であると見なされるパスを選択する。ここでもまた、ローカル及びクラウドベースの処理の双方を検討することができる。
この点において、この技術は、例えば、「スマート環境」に関連して、人工知能(AI)の分野において知られる「プランニングモデル」から引き出すことができる。
(以下のプランニングモデルの考察は、部分的には、Marquardt、「Evaluating AI Planning for Service Composition in Smart Environments」、ACM Conf.on Mobile and Ubiquitous Media、2008年、48〜55ページから引き出す。)
スマート環境は、Xerox PARCのMark Weiserによって考え出されたように、「センサ、アクチュエータ、ディスプレイ及び計算要素に豊かに、且つ、目に見えないように織り込まれ、我々の生活の日常的なものにシームレスに埋め込まれ、連続的なネットワークを通じて接続される」環境である。そのような環境は、個別化されたサービス(例えば、照明、暖房、冷房、加湿、画像の投影、アラートを出すこと、画像の記録など)を控えめな方法でユーザに提供するデバイスの動的な全体的調和によって、特徴付けられる。
図7は例示的である。ユーザの意図は、例えば、観察によって、且つ、コンテキストを参照することによって識別される。この情報から、システムは、ユーザの推定された目標を導出する。方策統合のステップは、これらの目標を満たすアクションのシーケンスを発見しようと試みる。最後に、これらのアクションは、環境内で入手可能なデバイスを使用して実行される。
環境は変わりやすいので、方策統合−サービスの構成を処理する−は、例えば、目標及び入手可能なデバイスが変化するにつれて適合可能でなければならない。サービスの構成タスクは、AI「プランニング」問題と見なされる。
AIプランニングは、特定の目標を達成するために、自律的エージェントが実行しなければならないアクションシーケンスを識別する問題に関する。エージェントが行うことができる各機能(サービス)は、演算子として表される。(前提及び事後条件(post−conditions)を、これらの演算子に関連付けることができる。前提条件は、演算子(機能)を実行するために存在しなければならない必要条件を記述する。事後条件は、演算子の実行によってトリガされた環境内の変化−スマート環境が応答する必要がある場合のある変化−を記述する。)プランニングに関して、図7の「方策統合」はプラン生成に対応し、「アクション」はプラン実行に対応する。プラン生成は、スマート環境のためのサービス構成を伴う。
多数のプランナが、AI分野から知られている。例えば、Howe、「A Critical Assessment of Benchmark Comparison in Planning」、Journal of Artificial Intelligence Research、17:1〜33、2002年を参照されたい。実際には、AIプランナ間の競合に専念する年次会議がある(ipc<dot>icaps−conference<dot>orgを参照)。スマート環境内でサービスを合成するための少数のプランナが、Amigoni、「What Planner for Ambient Intelligence Applications?」IEEE Systems、Man and Cybernetics、35(1):7〜21、2005年において評価されている。スマート環境内のサービス構成のための他のプランナは、以前に述べられたMarquardt論文で特に考察されており、UCPOP、SGP、及びブラックボックス(Blackbox)が含まれる。すべては一般に、PDDL(プランニングドメイン定義言語)−プランニングドメイン及び問題のための普及している記述言語−の変形を使用する。
Marquardtは、異なるプランナを単純なスマート環境シミュレーションで評価しており−その一部が図8によって表され、図8は、5個から20個の間のデバイスを用い−各々は、2つのランダムに選択されたサービス、及び、ランダムに選択された目標を有する。データは、モデルコンポーネント間で、示された線に沿ってメッセージの形式で交換される。シミュレーション内のサービスは、それぞれ最大12個の前提条件(例えば、「light_on」、「have_document_A」など)を有する。各サービスはまた、様々な事後条件をも有する。
この研究は、すべての3つのプランナが満足の行くものであるが、ブラックボックス(Kautz、「Blackbox:A New Approach to the Application of Theorem Proving to Problem Solving」、AIPS、1998年)が最良に機能した、という結論を出した。目標が解決可能でない場合、プランナは概して、目標を満たすためにプランを考案しようと試みて不成功に終わるまでに過度の時間を要した、と、Marquardtは言及した。著者は、処理が1秒以内にソリューションを生じない場合、リソースを無駄にしないために、プランニング処理を終了(又は、異なるプランナを開始)した方がよい、という結論を出した。
異なる分野の取組みからではあるが、出願人は、この後者の洞察が、ビジュアルクエリの分野において特定の目標を達成するためのサービスの構成を試行するときに、同様に適用されるべきであり、すなわち、ソリューションツリー(又は他のプランニング手順)中の満足の行くパスを迅速に考案することができない場合、ステートマシンは多分、この機能を、入手可能なデータでは解決できないと見なすべきであり、ソリューションを発見しようと試みながらさらに多くのリソースを費やすべきではない、と考える。閾値間隔がソフトウェアで確立されてもよく(例えば、0.1秒、0.5秒など)、タイマをこの閾値に対して比較することができ、閾値に達する前に適切な方策が発見されない場合、タイマは、ソリューションの試みを中断することができる。
本技術の実施形態はまた、ウェブサービスの分野の研究から引き出すこともでき、ウェブサービスはますます、複雑なウェブサイトの機能的コンポーネントとして含まれつつある。例えば、旅行ウェブサイトは、あるウェブサービスを使用して航空券の予約を行い、別のウェブサービスを使用して飛行機の座席を選択し、別のウェブサービスを使用してユーザのクレジットカードに請求することがある。旅行ウェブサイトは、これらの機能的コンポーネントを作り出す必要はなく、他者によって作り出され、提供された、複雑な機構のウェブサービスを使用する。このモジュール手法−他者によって以前になされた作業を利用する−は、システム設計及び引き渡しを速める。
この特定の形式のシステム設計は、様々な名称で通っており、これらの名称には、サービス指向アーキテクチャ(SOA)及びサービス指向コンピューティングが含まれる。このスタイルの設計では、開発者は、個々のコンポーネント動作を行うためにソフトウェアを記述しなくても済むが、どのウェブサービスを使用するべきかを決定し、そのようなサービスへのデータの提出−及び、そのようなサービスからの結果の収集−をオーケストレートするタスクが、依然として存在する。これらの問題に対する様々な手法が知られている。例えば、Papazoglou、「Service−Oriented Computing Research Roadmap」、Dagstuhl Seminar Proceedings 05462、2006年、及び、Bichler、「Service Oriented Computing」、IEEE Computer、39:3、2006年3月、88〜90ページを参照されたい。
サービスプロバイダは当然、サービスを提供するための能力が有限であり、時として、その能力を超える要求に優先順位を付けるという問題に対処しなければならない。この分野の研究には、競合する要求の中で選び、需要に従って、サービスの料金を適合させるためのアルゴリズムが含まれる。例えば、Esmaeilsabzali他、「Online Pricing for Web Service Providers」、ACM Proc.of the 2006 Int’l Workshop on Economics Driven Software Engineering Researchを参照されたい。
本技術のステートマシンは、サービス指向コンピューティング構成を用いて、処理負荷の一部をリモートサーバ及びエージェントに配置することによって、(視覚的検索及びその他のための)モバイルデバイスの機能性を拡張することができる。関連のあるウェブサービスが、1つ又は複数のクラウドベースのブローカ処理に登録されてもよく、例えば、それらのサービス、入力及び出力が、標準化された、例えば、XMLの形式で指定されてもよい。ステートマシンは、システムのニーズをかなえるためのサービスを識別する際、そのようなブローカ(複数可)を調べることができる。(ステートマシンは、複数のブローカのうち1つのブローカを調べて、個々のタイプのサービスを扱うブローカを識別することができる。例えば、第1のクラスのサービス、例えば、顔認識に関連付けられたクラウドベースサービスプロバイダは、第1のブローカによってカタログ化されてもよいが、異なるクラスのサービス、例えば、OCRに関連付けられたクラウドベースサービスプロバイダは、第2のブローカによってカタログ化されてもよい。)
ユニバーサル・ディスクリプション・ディスカバリー・アンド・インテグレーション(UDDI)仕様は、ウェブサービスについての情報をウェブサービスが発行するため、且つ、ステートマシンが発見するための、1つの方法を定義する。他の適切な標準には、拡張マークアップ言語(ebXML)を使用する電子ビジネス、及び、ISO/IEC 11179メタデータレジストリ(MDR)に基づくものが含まれる。WSDL−S及びOWL−S(後述)など、セマンティックベースの標準は、ステートマシンがセマンティックモデルからの用語を使用して、所望のサービスを記述することを可能にする。記述論理推論(description logic inferences)など、推理技術を次いで使用して、ステートマシンによって提供された記述と、異なるウェブサービスのサービス能力の間のセマンティック類似性を発見し、ステートマシンが自動的に適切なウェブサービスを選択可能にすることができる。(他のところで上述したように、リバースオークションモデルを使用して、例えば、いくつかの適切なウェブサービスの中から選択することができる。)
直観的コンピューティングプラットフォーム(ICP)ステートマシン−同時処理
システムを、応答する状態に維持するため、ICPステートマシンは、図9に概念的に例示された様々なレベルの同時処理(認知に類似)を監督してもよい。4つのこのようなレベル、及び、それらの各範囲の大まかな要約は、以下の通りである。
・・反射的−ユーザ又はクラウドインタラクションなし
・・条件付き−意図に基づく、最小のユーザインタラクション、クラウドを従事させる
・・直観型(Intuited)又は「浅いソリューション(Shallow solution)」−ユーザインタラクションによって支援され、意図及び履歴の解釈によって情報を与えられた、デバイス上で達したソリューションに基づく
・・「深いソリューション(Deep Solution)」−ユーザ及びクラウドとのセッションを通じて達した完全なソリューション。
図10は、システムの異なる態様によって編成されたビジュアルクエリを行うこと、及び、各々に関連付けられた要素を識別することに関連付けられた、これらの4つのレベルの処理をさらに詳述する。
反射的処理を行うには、典型的には、ほんの一瞬のみを要する。いくつかの処理は、めったにリフレッシュされることはない(例えば、カメラ解像度であるもの)。他の処理−カメラ焦点の査定など−は、1秒に数回(例えば、1回又は2回から数十回まで−フレームキャプチャ毎に、など)繰り返されうる。通信コンポーネントは単に、ネットワーク接続の存在をチェックしてもよい。プロトボーブル(アナログボーブル)が、画像分割の全体の査定(例えば、明るいスポットがあるか?)に基づいて配置されてもよい。基本画像分割の時間的態様には、例えば、赤いブロブの、3ピクセル右への−あるフレームから次のフレームへの−流れなどが通知されてもよい。キャプチャされた2D画像は、画面上に提示される。ユーザは典型的には、このレベルでは関与しないが、ただし、例えば、ユーザ入力−タップされたボーブルのような−が承認される。
条件付き処理を行うには、より長い時間がかかり(しかし、典型的には1秒未満)、例えば、約0.5秒毎にリフレッシュされうる。これらの処理の多くは、コンテキストデータ及びユーザ入力への作用に関する。これらには、類似のコンテキスト状況で前回、ユーザが何のアクションに着手したか(例えば、ユーザが歩いて仕事に行く途中でしばしばスターバックスに入る)を呼び戻すこと、所望の冗長についてのユーザ命令に応答すること、現在のデバイス状態(例えば、飛行機モード、省電力モード)に基づいて動作を構成すること、初歩的な向き調節動作を行うこと、ジオロケーションを決定することなどが含まれる。現在の画像及び他のコンテキストに関連のあるように見える認識エージェントがアクティベートされ、又は、アクティベートのために準備される(例えば、画像が少々テキストのように見えるので、可能なOCR認識のための処理を準備する)。認識エージェントは、同じく実行中である他のエージェントに気付くことができ、他のエージェントによる使用のために、結果をブラックボードに投稿することができる。ある動作からの出力を示すボーブルが、画面上に現れる。クラウドベースのリソースとのハンドシェイキングが行われて、使用するためのデータチャネルが準備され、チャネルの品質がチェックされる。クラウドベースのオークションを伴う処理では、そのようなオークションが、関連のある背景情報(例えば、ユーザに関する)と共に公表され、異なるクラウドベースのエージェントが参加するかどうかを決定し、且つ、あらゆる必要な準備を行うことができるようにしてもよい。
直観型の処理を行うには、さらにより長い時間がかかるが、大部分はデバイス自体においてである。これらの処理は一般に、認識エージェントをそれらの作業でサポートすること−必要とされたキーベクトルを合成すること、関連付けられたUIを提示すること、関連機能を呼び出すこと、リソースに対する競合する要求に応答し、そのバランスを取ることなどを伴う。システムは、何のセマンティック情報が望まれるか、又は、ユーザによって望まれる可能性が高い場合があるかを見極める。(スターバックスにいるユーザが典型的に、ニューヨークタイムズ紙(New York Times)の表紙を撮像する場合、OCRに関連付けられた動作が−ユーザの要求なしに−開始されてもよい。同様に、テキストのような画像の提示が、OCR及びスペイン語への翻訳を要求するようにユーザに促したことが過去にあった場合、これらの動作を開始することができ−クラウドベースの翻訳エンジンを用意することが含まれる。)関連のあるオントロジー(Ontologies)が識別され、用いられてもよい。認識エージェントによって投稿された出力ボーブルを、デバイスによる、キャプチャされたシーンの理解に従って、幾何学的に再マッピングすることができ、他の態様の3D理解を適用することができる。ルールエンジンは、外部データチャネル上のトラフィックを監視し、それに応じて応答することができる。迅速なクラウドベースの応答が、−しばしば、メニュー、ウィンドウ、及び、他のインタラクティブなグラフィカルコントロールと共に−ユーザに戻され、提示されてもよい。機能のサードパーティライブラリもまた、このレベルで関与することがある。
最終的な深いソリューションにはタイミングの制約がなく−数秒から数分、又はそれより長く延びることがあり、典型的には、クラウド及び/又はユーザを関与させる。直観型の処理は典型的には、個々の認識エージェントを伴うのに対して、深いソリューションは、例えば、関連付けによってインタラクトする、いくつかのそのようなエージェントからの出力に基づいてもよい。ソーシャルネットワーク入力もまた、例えば、同等者グループ、ユーザが尊敬する、流行を作る人々、彼らの経歴などについての情報を使用して、この処理に関与することがある。クラウドに出ると、例えば、複数のリモートエージェントがサービスをデバイスに提供しようとして競合するとき、複雑な処理が展開中であることがある。クラウドに以前に提出されたあるデータは、より多くの又はよりよいデータの要求を促すことがある。以前にリソースの不足に苦しんだ認識エージェントはこのとき、他の状況が出力のニーズをクリアしたために、それらの認識エージェントが望むすべてのリソースを許可されうる。自由の女神(Statue of Libert)の近くの、誰もがほしがる10×20ピクセルの部分は、ハッピーボーブルプロバイダに与えられ、このプロバイダは、その部分をタップするユーザ向けに楽しいインタラクティブ体験を配置している。クラウドへのデータの定期的な流れが確立されて、進行中のクラウドベースの、ユーザの要望の充足がもたらされてもよい。他の処理−多くはインタラクティブ−が、視覚的検索の結果として、このフェーズの動作で起動されてもよく、例えば、スカイプ(Skype)セッションを確立すること、ユーチューブ(YouTube)デモンストレーションビデオを見ること、OCRされたフランス語のメニューを英語に翻訳することなどである。
デバイスの起動時(又は、その動作の他のフェーズで)、デバイスは、入手可能であり、適用する準備ができている認識エージェントの一部又は全部に対応するボーブルを表示してもよい。これは、車が最初にスタートされるとき、ダッシュボードのすべての警告灯が明るくなり、警告灯が必要に応じて機能することができることを実際に示すことに類似している(又は、マルチプレイヤオンラインゲームで、集まった宝物及び武器−ユーザがドラゴンとの戦いでそこから引き出すことがあるツール及びリソースなど−を、プレイヤが見せることに類似している)。
この構成は例示的でしかないことは理解されよう。他の実装では、他の構成を当然使用することができる。
トップダウン及びボトムアップ、遅延アクティベーション(Lazy Activation)構造
アプリケーションは、様々な方法で開始されてもよい。1つは、ユーザ命令によるもの(「トップダウン」)である。
大抵のアプリケーションは、あるセットの入力データ(例えば、キーベクトル)を必要とし、出力データ(例えば、キーベクトル)のセットを作り出す。ユーザが(例えば、ボーブルをタップする、メニューとインタラクトする、ジェスチャーする、又は、その他のことによって)、アプリケーションを起動するようにシステムに命令する場合、システムは、「必要とされたキーベクトル」リスト又はツリーを構築することによってなど、何の入力が必要とされるかを識別することによって、開始することができる。必要とされたキーベクトルのすべてが(例えば、ブラックボード上に、又は「存在するキーベクトル」リスト又はツリー内に)存在する場合、アプリケーションは実行し(おそらく、明るいボーブルを提示し)、対応する出力データを生成することができる。
必要とされたキーベクトルのすべてが存在するのではない場合、アプリケーションに対応するボーブルが表示されてもよいが、薄暗い表示のみである。キーベクトル出力の逆ディレクトリを調べて、ユーザにより開始されたアプリケーションのための入力として必要とされたキーベクトルを提供するために実行されうる、他のアプリケーションを識別することができる。それらの他のアプリケーションによって必要とされたキーベクトルのすべてを、「必要とされたキーベクトル」に追加することができる。この処理は、これらの他のアプリケーションによって必要とされたキーベクトルのすべてが「存在するキーベクトル」内に入るまで、継続する。これらの他のアプリケーションが、次いで実行される。それらの結果として生じる出力キーベクトルのすべてが、「存在するキーベクトル」リストに入力される。トップレベルのアプリケーションのために必要とされた別のキーベクトルが入手可能になるたびに、そのアプリケーションのボーブルが明るくされてもよい。最終的に、必要な入力データのすべてが入手可能であり、ユーザによって開始されたアプリケーションが実行される(且つ、明るいボーブルは、その事実を公表してもよい)。
アプリケーションを実行させることができるもう1つの方法は、「ボトムアップ」であり−その入力データの可用性によってトリガされる。ユーザがアプリケーションを呼び出し、次いで、必要なデータを待つのではなく、処理が予約される。データの可用性は、アプリケーションのアクティベーション(及び、しばしば、次いで選択)を促進する。関連する作業は、「遅延評価」という名前で知られている。
遅延アクティベーション構造の1つの特定の実装は、人工知能の分野から引き出し、すなわち、マッチ/熟慮(又は評価)/実行構成を使用する生産システムアーキテクチャである。(「マッチ」ステップは、ユーザがボタンを押すことによって、又は、システムがボトムアップのモダリティにあることによって、満たされてもよく、又は、省かれてもよい。)
条件付きルールは、処理を開始することができ−評価されなければならない基準である。本状況では、条件付きルールは、ある入力データの可用性に関係することがある。例えば、現在の「存在するキーベクトル」ツリーを、システムにインストールされたトップレベルアプリケーションの全リストと比較することによって、「ボトムアップ」処理を定期的にアクティベートすることができる。アプリケーションの入力要件のいずれかが既に存在する場合、アプリケーションは実行を開始することができる。
アプリケーションの入力要件の一部(しかし、全部ではない)が既に存在する場合、対応するボーブルが、適切な表示領域内に、すべてのその入力が満たされることがどのくらい近いかを示す明るさで表示されてもよい。すべてのその入力が満たされた後、アプリケーションは、ユーザ入力なしで起動してもよい。しかし、多くのアプリケーションは、「ユーザアクティベーション」入力を有することがある。ボーブルがユーザによってタップされる場合(又は、別のUIデバイスがユーザアクションを受信する場合)、アプリケーションはトップダウン起動モードに切り替えられて−他のアプリケーションを開始し−上述のように−、残りの述語(predicate)入力データが収集されるので、トップレベルアプリケーションが次いで実行することができるようになる。
同様に、そのための一部の(全部ではない)入力が入手可能であるアプリケーションは、コンテキストなど、状況によって、トップダウンのアクティベーションに与えられてもよい。例えば、ある条件である機能をアクティベートするという、ユーザの過去にあったパターンは、推論されたユーザの意図としての機能を果たすことができ、それらの条件が繰り返されるとき、その機能がアクティベートされるべきであることを知らせることができる。(このようなアクティベーションは、推論されたユーザの意図が十分に強制的である場合、必要な入力が入手可能でなくても、起こることがある。)
そのような構成では、リソースは、実行の準備ができている−又は、ほぼそうである−機能にのみ適用される。機能は、日和見的に−適切な入力データの可用性が値するとき−アクションを開始させられる。
定期的に行われる画像処理
いくつかのユーザが望む動作は常に複雑過ぎて、ポータブルシステム単体では行うことができないものであり、クラウドリソースが関与しなければならない。逆に、ポータブルシステムが、クラウドリソースを全く使用することなく行うことができるべきである、いくつかの画像関連動作がある。
後者を可能にし、前者を容易にするために、システム設計者は、機能によって又はユーザによって要求されることなく、キャプチャされた画像上でルーチン的に行われる、基本的な画像処理演算のセットを指定してもよい。このような定期的に行われるバックグラウンド機能は、他のアプリケーションが入力として使用することができる素材(fodder)(キーベクトルとして表された出力データ)を提供してもよい。これらのバックグラウンド機能のうちいくつかはまた、別の目的を果たすこともでき、すなわち、他のデバイス及びクラウドリソースへの効率的な転送、及び、他のデバイス及びクラウドリソースによる利用ための、画像関連情報の標準化/抜き出しである。
第1のクラスのそのような定期的に行われる動作は一般に、1つ又は複数の画像フレーム(又はその一部)を入力として取り、画像フレーム(又は部分フレーム)キーベクトルを出力として作り出す。例示的動作には、以下が含まれる。
・・画像的(又は関心領域的)サンプリング又は補間:出力画像はソースと同じ寸法を有していないことがあり、ピクセル深度も必ずしも同じではない
・・ピクセル再マッピング:出力画像はソースと同じ寸法を有しているが、ピクセル深度は同じである必要はない。各ソースピクセルは独立してマッピングされる
・・・例:閾値化、「疑似色」、ピクセル値を典型値に置き換える
・・局所演算:出力画像はソースと同じ寸法を有しているか、又は、標準の方法で(例えば、黒い画像境界を追加して)拡張される。各宛先ピクセルは、対応するソースピクセルの周囲の固定サイズの局所近傍によって定義される
・・・例:6×6のソーベル垂直エッジ、5×5のライン−エッジの大きさ、3×3の極大など
・・空間的再マッピング:例えば、遠近法によるか、又は、曲率の「歪み」を補正する
・・新しい空間内の「画像」へのFFT又は他のマッピング
・・画像計算:出力画像は、入力画像の和、最大などである
・・・シーケンス平均:各出力画像は、平均してk個の連続する入力画像となる
・・・シーケンス(op)ing:各出力画像は、k個の連続する入力画像の相関的要素である
第2のクラスのそのようなバックグラウンド動作は、1つ又は複数の入力画像(又はその一部)を処理して、1D又は2D領域又は構造のリストからなる出力キーベクトルを生じる。この第2のクラスの例示的動作には、以下が含まれる。
・・長い直線の抽出:抽出された直線の線分(例えば、終点及び長さと共に、傾き−切片の形式で表される)のリストを返す
・・長い直線が交差する点のリスト(例えば、行/列の形式で表される)
・・楕円ファインダ:抽出された楕円のリストを返す(この場合及び他の場合、注目された特徴の場所及びパラメータがリストに含まれる)
・・円柱ファインダ:可能性のある3D円柱のリストを返す(長い直線を使用)
・・ヒストグラムベースのブロブ抽出:それらのローカルヒストグラムによって区別される画像領域のリストを返す
・・境界ベースのブロブ抽出:それらの境界特性によって区別される画像領域のリストを返す
・・各コンポーネントブロブ(完全画像を含む)が、その中に完全に含まれる互いに素のサブブロブを有する、ブロブ「ツリー」。有用なスケール不変の(又は、少なくともスケール耐性の)情報を保持することができる
・・・例:画像を複数の閾値で閾値化した結果
・・厳密な境界、例えば、閾値化されたブロブ領域の厳密な境界
・・不明瞭な境界、例えば、閾値化されたブロブの境界とは異なり、適度に密な領域境界をもたらすが、小さい間隙又は不一致を有することがある、エッジ又は点のリスト
第3のクラスのそのようなルーチンの、進行中の処理は、出力キーベクトルデータとして、テーブル又はヒストグラムを作り出す。この第3のクラスの例示的動作には、以下が含まれる。
・・色相、彩度、色、明るさ、エッジ値、テクスチャなどのヒストグラム
・・例えば、1D値の、特徴共起を示す、2Dヒストグラム又はテーブル:(色相、彩度)、(x−彩度、y−彩度)、又は、ある他の組み合わせ
第4のクラスのそのようなデフォルトの画像処理演算は、共通の非画像オブジェクトにおける動作からなる。この第4のクラスの例示的動作には、以下が含まれる。
・・分割/マージ:入力ブロブリストは、新しい異なるブロブリストを生じる
・・境界修復:入力ブロブリストは、より滑らかな境界を有するブロブのリストを生じる
・・ブロブ追跡:入力ブロブリストのシーケンスは、ブロブシーケンスのリストを生じる
・・正規化:画像ヒストグラム、及び、ヒストグラムベースのブロブのリストは、画像を(おそらく、「領域タイプ」値及び「バックグラウンド」値(複数可)へ)再マッピングするためのテーブルを返す
前述の動作は当然、例示的でしかない。ルーチン的に行うことができる、大変多くの他の低レベルの動作がある。上記のタイプのかなり大きいセットは、しかし、一般に有用であり、かなり小さいライブラリを必要とし、一般に入手可能なCPU/GPU要件内で実装可能である。
コンテキスト的にトリガされた画像処理:バーコード復号
これまでの考察は、システムが、様々なより特化された機能のための入力としての機能を果たすことができるキーベクトルデータを提供するために、ルーチン的に行ってもよい様々な動作について述べた。これらのより特化された機能は、トップダウンの方法で(例えば、ユーザ命令によって)、又は、ボトムアップの方法で(例えば、すべてのデータ述語の可用性によって)開始することができる。
直前に詳述された動作に加えて、システムはまた、処理を起動して、コンテキストに基づいて他のキーベクトルを生成してもよい。
例示のため、場所を考えられたい。ジオロケーションデータを参照することによって、デバイスは、ユーザが食料雑貨店にいると決定してもよい。この場合、システムは、食料雑貨店に一般に関連のあるアプリケーションにとって有用でありうるキーベクトルデータを生成する、追加の画像処理演算の実行を自動的に開始してもよい。(これらの自動的にトリガされたアプリケーションは、さらに、そのトリガされたアプリケーションのための入力を提供するために必要とされる、他のアプリケーションを呼び出してもよい。)
例えば、食料雑貨店で、ユーザはバーコードに遭遇すると予期されうる。バーコード復号には、2つの異なる態様が含まれる。第1は、視野内でバーコード領域を発見することである。第2は、識別された領域内でラインシンボロジーを復号することである。前者の態様に関連付けられた動作は、ユーザが食料雑貨店(又は他の小売店)にいると決定されるとき、ルーチン的に着手することができる。すなわち、以前に詳述された、ルーチン的に行われる画像処理演算のセットは、−食料雑貨店内のユーザの場所によってトリガされた−コンテキスト的にトリガされた動作のさらなるセットの追加によって、一時的に拡大される。
バーコードの発見は、画像のグレースケールバージョンを解析して、水平方向に高い画像コントラスト、及び、垂直方向に低い画像コントラストを有する領域を識別することによって、行うことができる。したがって、食料雑貨店内であるとき、システムは、ルーチン的に行われる画像処理演算のカタログを拡大して、例えば、対象ピクセルの両側2〜8ピクセルなど、位置測定される水平グレースケール画像コントラストの測定の計算をも含めてもよい。(1つのこのような測定は、複数の近接したピクセルの値の差異の絶対値を合計することである。)コントラスト情報のこのフレーム(すなわち、ダウンサンプリングされたフレーム)は、キーベクトル−そのコンテンツについてラベルが付けられ、他の処理が見て使用するために投稿される−を含むことができる。同様に、システムは、位置測定される垂直グレースケール画像コントラストを計算し、これらの結果を別のキーベクトルとして投稿することができる。
システムは、画像内の点毎に、ローカル垂直画像コントラストの計算された測定を、ローカル水平画像コントラストの計算された測定から減算することによって、これらの2つのキーベクトルをさらに処理してもよい。通常、この動作は、雑然としたデータのフレームを−強度に正の点で、且つ、強度に負の点で−生じる。しかし、バーコード領域では、雑然さがはるかに少なく−バーコード領域にわたって強度に正の値を有する。このデータもまた、他の処理が、ユーザが食料雑貨店内にいる間にルーチン的に作り出されるさらにもう1つの(第3の)キーベクトルとして見るために、投稿することができる。
第4のキーベクトルを、閾値化動作を適用すること−ターゲット値を超える値を有する点のみを識別すること−によって、第3のキーベクトルから作り出してもよい。この動作はしたがって、画像内で、特性において潜在的にバーコードのように、すなわち、水平コントラストが強く、垂直コントラストが弱いように見える点を識別する。
第5のキーベクトルを、連結成分解析を適用すること−特性において潜在的にバーコードのように見える点の領域(ブロブ)を定義すること−によって、第4のキーベクトルから作り出してもよい。
第6のキーベクトルを、第5のキーベクトルによって作り出してもよく−3つの値からなり、すなわち、最大ブロブ内の点の数、並びに、そのブロブの左上隅及び右下隅の場所(画像フレームの左上隅のピクセルからの行及び列オフセットで定義される)である。
これらの6つのキーベクトルは、将来を見越して作り出される−ユーザが明示的にこれらのキーベクトルを要求することなく、ただ、ユーザが、食料雑貨店に関連付けられた場所にいるからである。他のコンテキストでは、これらのキーベクトルは通常、作り出されることはない。
これらの6つの動作は、単一の認識エージェント(すなわち、バーコード位置指定エージェント)を含んでもよい。又は、これらの6つの動作は、より大きい認識エージェント(例えば、バーコード位置指定/読み取りエージェント)の一部であってもよく、又は、個々に若しくは組み合わせてそれら自体の認識エージェントである下位機能であってもよい。
(バーコード読み取り処理における、より少数又はさらなる動作が同様に行われてもよいが、これらの6つは要点を例示する。)
バーコードリーダアプリケーションは、デバイス上にロードされたものの中にあってもよい。食料雑貨店内であるとき、バーコードリーダアプリケーションは、とても低いレベルの動作−例えば、15,000を超える値を求めて、上述の第6のキーベクトルの第1のパラメータを調べるに過ぎないことを行う−で、うまくいくことがある。このテストが満たされる場合、バーコードリーダは、システムに対し、ぼんやりとしたバーコードを示すボーブルを、この第6のキーベクトルの第2及び第3のパラメータによって識別されたブロブの隅の点の場所の間の中間にあるフレーム内の場所で提示するように、命令してもよい。このボーブルは、バーコードかもしれない何か、及び、フレーム内でそれが現れる場所をデバイスが検知したことを、ユーザに伝える。
ユーザがそのぼんやりとしたボーブルをタップする場合、これは、バーコードを復号するために必要とされた他の動作を(トップダウンで)起動する。例えば、第6のキーベクトル内で識別された2つの隅の点の間の画像の領域が抽出され−第7のキーベクトルが形成される。
一連のさらなる動作が次いで、続いて起こる。これらの動作には、抽出された領域を低周波エッジ検出器によりフィルタリングすること、及び、ハフ変換を使用して、ほぼ垂直な線を検索することが含まれうる。
次いで、フィルタリングされた画像内の行毎に、開始、中央及び終了バーコードパターンの位置が、バーコードの評価済みの右及び左のエッジをガイドとして使用して、相関を通じて識別される。次いで、バーコードの数字毎に、行内の数字の位置が決定され、行のその位置のピクセルが可能性のある数字コードと相関させられて、最良のマッチが決定される。これがバーコードの数字毎に繰り返され、候補バーコードペイロードが生じる。パリティテスト及びチェックディジットテストが次いで、その行からの結果に対して実行され、そのペイロードの発生カウントがインクリメントされる。これらの動作が次いで、フィルタリングされた画像内でさらにいくつかの行に対して繰り返される。最高発生カウントを有するペイロードが次いで、正しいバーコードペイロードと見なされる。
この時点で、システムは、バーコードのボーブルを明るく照らすことができ−データが満足に抽出されたことを示すことができる。ユーザが明るいボーブルをタップする場合、デバイスは、アクションのメニューを提示することができ、又は、復号されたバーコードに関連付けられたデフォルトのアクションを起動することができる。
直前に記載された構成では、システムは、第6のキーベクトルを生成した後、そのルーチン動作を停止するが、さらに進行した可能性がある。しかし、リソース制約のため、機会がある毎に、例えば、第6のキーベクトルの第1のパラメータが15,000を超えるとき、さらに進行することは実用的でないことがある。
1つの代替構成では、システムは、例えば、3秒に一回、さらに進行してもよい。各3秒間隔の間、システムは、第6のキーベクトルの第1のパラメータを監視し−(1)15,000を超える値、及び(2)その3秒間隔内ですべての以前の値を超える値を探す。これらの条件が満たされるとき、システムは、このフレームをバッファし、おそらく、いずれかの予めバッファされたフレームに上書きすることができる。3秒間隔の終わりに、フレームがバッファされる場合、そのフレームは、その3秒間隔内のいずれかの第1のパラメータの最大値を有するフレームである。そのフレームから、システムは次いで、−有効なバーコードペイロードがうまく復号される場合、ボーブルを明るく照らす間ずっと−関心領域を抽出し、低周波エッジ検出器を適用し、ハフ手順を使用して線を発見すること等々を行うことができる。
機械的に3秒毎にバーコード読み取り動作を完了しようとするのではなく、システムは、日和見的に−中間結果が特に見込みがあるとき−そのようにすることができる。
例えば、関心領域内の点の数が15,000を超えるときは常に、バーコード読み取り処理が進行してもよいが、その値は、バーコード読み取りの試行が実りの多い可能性がある最小閾値である。バーコードをうまく読み取る可能性は、この点の領域がより大きくなるにつれて増す。そのため、3秒に1回、復号処理でさらに進行するのではなく、さらなる処理が、第6のキーベクトルの第1のパラメータで50,000(又は、100,000若しくは500,000など)を超える値の発生によってトリガされてもよい。
このような大きい値は、はっきりと見えるバーコードがカメラのビューイングフレームのかなりの要部を占めることを示す。これは、ユーザによる意図的なアクション−バーコードのよいビューをキャプチャすること−を示唆する。この場合、バーコード読み取り動作の残りを起動することができる。これは、直観的感覚をデバイスの振る舞いにもたらし、すなわち、ユーザはバーコードを撮像することを明らかに意図し、システムは−いかなる他の命令もなしに−バーコード読み取り動作を完了するために必要とされたさらなる動作を起動したということである。
同様に、システムは−あるタイプの動作に特に適した画像情報の可用性から−そのあるタイプの動作をユーザが意図するか、又はそれによって利益を得るであろうと推論することができる。システムは次いで、その動作のために必要とされた処理に着手し、直観的応答を生じることができる。(テキストのような画像は、OCR処理に関連付けられた動作をトリガすることができ、顔のような特徴は、顔認識に関連付けられた動作をトリガすることができる、などである。)
これは、コンテキストにかかわらず、行うことができる。例えば、デバイスは、現在の環境についてのある手がかりを周期的にチェックすることができ、例えば、−バーコードがビュー内にあるかもしれない場合に備えて−画像フレーム内の水平対垂直グレースケールコントラストを時々チェックする。そのような動作は、ルーチン的にロードされ、又は、コンテキストのためにロードされたものの中にはないことがあるが、例えば、いずれにしても5秒に1回ほど着手することができ、その理由は、計算コストが小さく、視覚的に有用な情報の発見がユーザによって評価されうるからである。
コンテキストに戻ると、ユーザの場所が食料雑貨店内であったため、システムが異なるセットのバックグラウンド画像処理演算に自動的に着手したと同時に、システムは、他の状況又はコンテキストに基づいて、そのセットのルーチン的に発生する処理動作を同様に適合させることができる。
1つは、履歴(すなわち、ユーザの、又は、ユーザの社会的な同等者の)である。通常、我々は、自宅でバーコードリーダを使用することはない。しかし、本のコレクターは、家庭の書庫にある新しい本を、それらの本のISBNバーコードを読み取ることによってカタログ化することがある。最初にユーザが自宅でこの機能性のためにデバイスを用いるとき、上述の第1から第6のキーベクトルを生成する動作がトップダウンの方法で起動される−ユーザがデバイスのUIを通じて、バーコードの読み取りに関心があることを示すので、起動される−ことが必要である場合がある。2回目も同様である。しかし、システムは、(1)特定の場所、すなわち自宅にいるユーザ、及び(2)バーコード読み取り機能性のアクティベーションの、繰り返された共起に気付くことが望ましい。そのような過去にあったパターンが確立された後、システムは、ユーザが自宅の場所にいるときは常に、上述の第1から第6のキーベクトルの生成をルーチン的に可能にしてもよい。
システムは、ユーザがバーコード読み取り機能性を自宅で夕方にのみアクティベートすることを、さらに見極めてもよい。このように、時間もまた、ある画像処理演算の自動起動をトリガする、別のコンテキスト的要因であることが可能であり、すなわち、これらのキーベクトルは、ユーザが夕方に自宅にいるとき、生成される。
社会的な情報もまた、トリガリングデータを提供することが可能である。ユーザは、一人で行う趣味としてのみ、本をカタログ化することがある。配偶者が家にいるとき、ユーザは本をカタログ化しないことがある。配偶者が家にいることは、様々な方法で検知されてもよい。1つは、配偶者の携帯電話からのブルートゥース(Bluetooth)無線信号ブロードキャストによるものである。このように、バーコード位置指定キーベクトルは、(1)ユーザが自宅にいる、(2)夕方に、(3)ユーザの配偶者の近くではないとき、自動的に生成されてもよい。配偶者がいる場合、又は、昼間である場合、又は、ユーザが家(及び、食料雑貨店)から離れている場合、システムは、バーコード位置指定に関連付けられたキーベクトルをルーチン的に生成しないことがある。
このような繰り返される状況の共起を検出するために、ユーザの振る舞いのベイズ又は他の統計モデルをコンパイル且つ利用し、次いで、それに基づいてアクションをトリガするために使用することができる。
(これに関連して、マイクロプロセッサ設計における分岐予測の科学は、情報を与えるものでありうる。現代のプロセッサは、数十段階を含むことがあるパイプラインを含み−15又は20ステップ先で使用されるべき命令をフェッチするロジックを必要とする。誤った推測があると、パイプラインのフラッシュが必要となり−性能面で著しい不利益を被る可能性がある。マイクロプロセッサはしたがって、分岐予測レジスタを含み、このレジスタは、例えば、過去255回で条件付き分岐がどのように解決されたかを追跡する。このような履歴情報に基づいて、プロセッサの性能は大幅に強化される。同様に、−ユーザ及び代理人(例えば、ユーザの社会的な同等者、又は、人口統計学的な同等者)の双方による−デバイス使用の過去にあったパターンを追跡すること、及び、そのような情報に基づいてシステムの振る舞いを調整することで、重要な性能改善をもたらすことができる。)
音声の手がかり(さらに後述する)もまた、ある画像処理演算の自動トリガリングに関与してもよい。聴覚の手がかりが、ユーザが屋外にいることを示唆する場合、あるセットの追加のバックグラウンド処理動作を起動することができ、この手がかりが、ユーザが運転中であることを示唆する場合、異なるセットの動作を起動することができる。音声がテレビのサウンドトラックの顕著な特徴を有する場合、又は、この音声が、ユーザが職場環境にいることを示唆する場合、同様である。システムにロードされ、実行中のソフトウェアコンポーネントは、このように、その特定の環境内で−遭遇することがある刺激−又は、ユーザが要求することがある動作−を予想して、自動的に適合することができる。(同様に、異なる音声処理動作を適用して、異なる音声機能によって必要とされたキーベクトルを生成する聴覚デバイスでは、視覚的環境から検知された情報は、通常は実行されることがないある音声処理動作が可能であることを指図するコンテキストを示すことができる。)
環境の手がかりもまた、ある機能が選択され、起動され、又は調整されることを可能にする。デバイスが、周辺温度が摂氏マイナス10度であることを検知する場合、ユーザは、推定上、冬の屋外にいる。顔認識が(例えば、ユーザ命令によって、又は、他の手がかりによって)指示される場合、画像内に描かれたどの顔も帽子及び/又はスカーフにくるまっていることがある。したがって、異なるセットの顔認識動作が用いられる−顔のある部分のマスキングを考慮に入れる−ことは、例えば、コンテキストが、人々の髪及び耳が露出されると予期される暑い夏の日である場合よりも、ありうることである。
システムとの他のユーザインタラクションが気付かれ、−気付かれたユーザインタラクションがそのような動作を含まない場合であっても−通常は実行されないある画像処理演算の開始につながる可能性がある。(例えば、テキスト又は発話入力によって)デバイスのウェブブラウザに、近所のレストランを識別するためのクエリを出すユーザを考えられたい。このクエリは、カメラ又は画像を含むものではない。しかし、そのようなインタラクションから、システムは、ユーザが間もなく(1)場所を変更し、(2)レストラン環境にいるようになると、推論してもよい。したがって、システムは、例えば、(1)新しい場所にナビゲートすること、及び(2)レストランメニューに対処することにおいて、助けとなることがある画像処理演算を起動してもよい。
ナビゲーションは、カメラからの画像を、(例えば、SIFTを使用して、グーグルストリートビュー(Streetview)又は他の画像リポジトリからの)ユーザの予期されたルートに沿った縁石側の画像とパターンマッチングすることによって、支援されてもよい。関連のある画像をグーグルから獲得することに加えて、デバイスは、スケール不変の特徴変換動作に関連付けられた画像処理演算を開始することができる。
例えば、デバイスは、カメラによって異なるスケール状態でキャプチャされた画像フレームを再サンプリングし、各々についてのキーベクトルを作り出すことができる。これらの各々に対して、ガウス関数の差分(Difference of Gaussians function)が適用され、さらなるキーベクトルを生じてもよい。処理制約が許す場合、これらのキーベクトルをブラーフィルタにより畳み込み、またさらなるキーベクトルなどを作り出すことが−すべて、SIFTパターンマッチングの使用の可能性を予想して−できる。
レストランメニューを見ることを予想して、OCR機能性に付随する動作を起動することができる。
例えば、デフォルトのセットのバックグラウンド画像処理演算は、長いエッジのための検出器を含むが、OCRでは、短いエッジを識別することが必要となる。したがって、短いエッジを識別するアルゴリズムが起動されてもよく、この出力をキーベクトルにおいて表すことができる。
閉輪郭を定義するエッジを使用して、文字−候補ブロブを識別することができる。文字の線を、これらのブロブの位置から導出することができ、スキュー補正を適用することができる。文字ブロブのスキュー補正された線から、候補語領域を見極めることができる。パターンマッチングを次いで適用して、それらの語領域のための候補テキストを識別することができる。等々となる。
前述のように、これらの動作のすべてがあらゆる処理された画像フレームで行われうるとは限らない。ある初期の動作がルーチン的に行われてもよく、(1)タイミングトリガ、(2)これまでに処理されたデータの見込みがある属性、(3)ユーザ指示、又は(4)他の基準に基づいて、さらなる動作に着手することができる。
食料雑貨店の例に戻ると、コンテキストは、着手される画像処理演算のタイプに影響を与えることができるのみでなく、異なるタイプの情報(画像情報、並びに、例えばジオロケーションなど、他の情報の双方)に起因するように、意味に影響を与えることもできる。
食料雑貨店で画像のフレームをキャプチャする、ユーザの電話を考えられたい。電話は、直ちに応答し−ユーザがスープの缶の方に向いていることを示唆してもよい。電話は、ジオロケーションデータ及び磁力計(コンパス)データを、その特定の店のレイアウトについての格納された情報−カメラがスープの棚の方を向いていることを示す−と共に参照することによって、これを行うことができる。ボーブルは、その初期段階で、この最初の推測をユーザへ、例えば、食料雑貨店の品目を表すアイコンによって、又はテキストによって、又はリンクされた情報によって伝えてもよい。
一瞬の後、キャプチャされたフレーム内のピクセルの初期処理中に、デバイスは、白いピクセルのブロブの隣にある赤いピクセルのブロブを見極めてもよい。食料雑貨店コンテキストに関連付けられた参照データソースを参照することによって(且つ、ここでもまた、おそらく、ジオロケーション及びコンパスデータにも依拠して)、デバイスは、その品目がキャンベル(Campbell’s)スープの缶(その可能性が最も高い)又はケチャップのボトル(その可能性がより低い)であると、迅速に(例えば、1秒未満で)推測してもよい。長方形を表示画面上に重ね合わせ−デバイスによって検討中であるオブジェクト(複数可)の輪郭を描いてもよい。
1秒後、デバイスは、白い背景上の、トマトスープと書かれた−キャンベルスープの仮説にさらなる信頼性を与える−大きい文字に対する、OCR動作を完了していてもよい。さらに、短い間隔の後、電話は、画像の赤いエリア内の様式化されたスクリプト「キャンベル」をなんとか認識し−そのオブジェクトが、キャンベルの配色をまねているストアブランドのスープではないことを確認していてもよい。さらにすぐに、電話は、すぐ近くの缶で見えるバーコードを復号し、サイズ、ロット番号、製造日、及び/又は、キャンベルトマトスープに関する他の情報を詳述していてもよい。各段階で、ボーブル−又はリンクされた情報−は、カメラが向いている方のオブジェクトの、デバイスによる精緻化された理解に従って、進化する。(任意の時点で、ユーザは、デバイスに対し、−おそらく、素早く振ることによって−その認識作業を停止するように命令し、バッテリ及び他のリソースを他のタスクのために保つことができる。)
対照的に、ユーザが屋外にいる(例えば、GPS及び/又は明るい日差しによって検知される)場合、白いピクセルのブロブの隣にある赤いピクセルのブロブに関する、電話の最初の推測は、キャンベルスープ缶ではない可能性が高くなる。むしろ、電話は、そのブロブを、米国の国旗、又は花、又は衣料品、又はギンガムのテーブルクロスであると推測する可能性の方が高いことがあり−ここでもまた、屋外コンテキストに対応する情報のデータストアを参照することによる。
直観的コンピューティングプラットフォーム(ICP)コンテキストエンジン、識別子
アーサー C.クラークは、「十分に進歩したいかなる技術も、魔法と区別がつかない」と述べたと伝えられている。「進歩した」は、多くの意味を有する可能性があるが、魔法に似た何かをモバイルデバイスに吹き込むために、本明細書ではこの用語を「直観的」又は「スマート」と解釈する。
直観的振る舞いの重要な部分は、ユーザのありそうな意図を検知する−且つ、次いでそれに応答する−能力である。図11に示すように、意図は、ユーザのみではなく、ユーザの過去の相関的要素でもある。加えて、意図は、ユーザの同等者のアクティビティ、及び、彼らの過去の相関的要素と見なすこともできる。
意図の決定においては、コンテキストが鍵となる。すなわち、例えば、どこにユーザがいるか、この場所で前回、何のアクティビティにユーザ及び他者が携わったかなどを知ることが、現時点でユーザの可能性の高いアクティビティ、ニーズ及び要望を見極める上で価値があるという意味で、コンテキストは意図の推定に情報を与える。ユーザの振る舞いについてのこのような自動化された推理は、人工知能の中心的な目標であり、この主題について多くのことが書かれてきた。(例えば、Choudhury他、「Towards Activity Databases:Using Sensors and Statistical Models to Summarize People’s Lives」、IEEE Data Eng.Bull、29(1):49〜58、2006年3月を参照。)
画像、音声、動き情報、場所、及びブルートゥース信号など、センサデータは、ユーザの可能性が高いアクティビティを推論する際(又は、起こりそうもないアクティビティを除外する際)に有用である。Choudhuryで述べられたように、センサ情報を、複数のアクティビティの間で弁別する助けとすることができる特徴へと処理する、ソフトウェアモジュールに、そのようなデータを提供することができる。特徴には、高レベルの情報(周囲におけるオブジェクトの識別、又は、すぐ近くの人々の数、その他など)、又は、低レベルの情報(可聴周波数コンテンツ又は振幅、画像の形状、相関係数、その他など)が含まれうる。そのような特徴から、計算モデルは、起こりそうなアクティビティ(例えば、歩く、話す、コーヒーを買う、など)を推定することができる。
モバイルデバイスセンサによって提供された豊富なデータに加えて、コンテキスト(及び、したがって意図)を理解する際に有用な他の特徴を、すぐ近くのオブジェクトから導出することができる。木は、屋外コンテキストを示唆し、テレビは、屋内コンテキストを示唆する。いくつかのオブジェクトは、関連付けられたメタデータを有しており−コンテキスト上の理解を大幅に促進する。例えば、ユーザの環境内のいくつかのオブジェクトは、RFIDなどを有することがある。RFIDは、一意のオブジェクトIDを搬送する。これらの一意のオブジェクトIDに関連付けられ、典型的にはリモートデータストア内にあるものは、RFIDが添付されるオブジェクトについての固定メタデータ(例えば、色、重さ、所有権、出所など)である。そのため、関連情報をピクセルのみから推定しようとするよりも、モバイルデバイス内−又は、モバイルデバイスがリンクする環境内−のセンサは、これらの情報のキャリアを検知し、関連メタデータを取得し、本コンテキストを理解する際にこの情報を使用することができる。
(RFIDは例示的でしかなく、他の構成もまた用いることができ、例えば、デジタルウォーターマーキング、フィンガープリンティングなどである。)
ユーザのアクティビティは複雑であり、オブジェクトデータもセンサデータも、曖昧でない結論に向いていないので、ユーザの可能性が高いアクティビティ及び意図を推論するための計算モデルは、一般に確率的である。生成技術を使用することができる(例えば、ベイズ、隠れマルコフなど)。クラス境界のための弁別技術(例えば、事後確率)もまた、用いることができる。関係確率的及びマルコフネットワークモデルでも、同様である。これらの手法では、確率は、ユーザの社会的グループ(複数可)内の他者のプロパティによって決まる可能性もある。
1つの特定の構成では、意図の決定は、ローカルデバイス観察に基づき、クラウドに格納されうるテンプレートに対してマッピングされる。
意図を見極めることによって、本技術は、刺激に対する可能な応答の探索空間を縮小し、本技術を使用して、入力データをセグメント化し、アクティビティ、オブジェクトを見極め、識別子を作り出すことができる。識別子を、明示的な導出されたメタデータにより構築することができる。
少々バックアップするため、あらゆるコンテンツオブジェクトが識別されることが望ましい。理想的には、オブジェクトの識別子は、グローバル一意且つ永続的となる。しかし、モバイルデバイスのビジュアルクエリでは、この理想は達成不可能であることが多い(ただし、例えば、デジタルウォーターマーク付きのしるしを有するオブジェクトの場合を除く)。それにもかかわらず、ビジュアルクエリセッション内では、見極められた各オブジェクトが、セッション内で一意である識別子を有することが望ましい。
一意識別子(UID)の1つの可能な構成物には、2つ又は3つの(又はそれより多い)コンポーネントが含まれる。1つは、トランザクションIDであり、セッションIDであってもよい。(1つの適切なセッションIDは、疑似乱数であり、例えば、MAC識別子など、デバイス識別子がシードされたPRNジェネレータによって作り出されるものである。他の構成では、セッションIDは、センサが直前にオフ又はスリープ状態からアクティベートされたUNIX時間など、セマンティック情報を搬送することができる)。このようなトランザクションIDは、他の識別コンポーネントのために必要とされる範囲を縮小する役目を果たし、識別子を一意にする助けとなる。このようなトランザクションIDはまた、オブジェクト識別を特定のセッション又はアクションのコンテキスト内に入れる。
識別子のもう1つのコンポーネントは、明示的オブジェクトIDであることが可能であり、以前に参照されたクランプIDであってもよい。これは典型的には、割り当てられた識別子である。(いくつかの明確に識別可能な特徴又はオブジェクトを含めるようにクランプが決定される場合、さらなるビットをクランプIDに付加して、同じものを区別することができる。)
さらにもう1つのコンポーネントを、オブジェクト又は状況から、何らかの方法で導出することができる。1つの簡単な例は、「フィンガープリント」−オブジェクト自体の特徴から導出された、統計的に一意の識別情報(例えば、SIFT、画像署名など)である。加えて、又は別法として、このコンポーネントは、コンテキスト、意図、推定された特徴−後続の処理によってアイデンティティの決定を支援するために使用することができる、本質的に任意のもの−に関する情報からなることがある。この第3のコンポーネントは、導出されたメタデータ、又は、オブジェクトに関連付けられた「オーラ」であると見なすことができる。
オブジェクト識別子は、そのようなコンポーネントの連結又は他の組み合わせでありうる。
パイスライスなど
システムによって呼び出された異なる認識処理は、並行して、又は、循環的な連続した方法で動作することができる。後者の場合、クロック信号などが、別々のパイスライスがアクティベートされる律動を提供してもよい。
図12は、このような循環的処理構成を、パイスライスの循環として示す。各スライスは、認識エージェント処理又は別の処理を表す。矢印は、あるスライスから次のスライスへの進行を示す。右の拡大されたスライスによって示されるように、各スライスは、いくつかの別個の段階又は状態を含むことができる。
本技術が直面する問題は、リソース制約である。制約がなかったならば、視覚/聴覚デバイスは、無数のリソース集中的認識アルゴリズムを、入ってくるデータの各フレーム及びシーケンスに絶えず適用し−ユーザにとって潜在的な関心があるあらゆる項目について、各々をチェックすることができるであろう。
現実世界では、処理にはコストがかかる。この問題は、入ってくるデータに適用されるべきであり、且つ、各々に充てるためのリソースのタイプ及び量を動的に決定しているべきである、動的識別処理の1つとして表現することができる。
図12では、パイスライス(認識エージェント処理)の異なる段階は、リソース消費のさらなるレベルに対応する。最も内部の(指し示された)段階は一般に、最も少ないリソースを使用する。累積リソース負荷は、スライスの連続する段階による処理により増大する。(各段階は、それに先行した段階よりもリソース集中的となることが多いが、このことは必須ではない。)
考察の目的で、顔認識エージェントを考えられたい。顔を識別するため、一連のテストが適用される。いずれかが失敗する場合、顔が存在することはありそうもないことである。
最初のテスト(多数の処理に共通する)は、カメラによって作り出された画像が、(例えば、暗いハンドバッグ又はポケット内にあるときのカメラ出力と対比して)いずれかの種類の特徴を有するかどうかをチェックすることである。これは、画像中のピクセルの場所のまばらなサンプリングのための、グレースケールピクセル値の単純なヒストグラム解析によって行われてもよい。ヒストグラム解析が、サンプリングされたピクセルのすべてが実質的に同じグレースケール出力を有することを示す場合、さらなる処理をスキップすることができる。
ヒストグラムが、ピクセルグレースケール値においてある多様性を示す場合、画像を次にエッジについてチェックすることができる。見極めることができるエッジのない画像は、使用不可能な画像、例えば、大変ぼけているか、焦点が合っていない画像である可能性が高い。上記に示したように、様々なエッジ検出フィルタが当業者によく知られている。
エッジが発見される場合、顔の検出手順は次に、いずれかのエッジが曲がっており、閉領域を定義するかどうかをチェックしてもよい。(ある実装ではルーチンのバックグラウンド動作として実行する楕円ファインダは、処理がこのステップで開始できるようにしてもよい。)
そうである場合、色ヒストグラムが行われて、閉領域内のかなりの割合のピクセルの色相が互いに類似するかどうかが判定されてもよい(肌は、顔の大部分を構成する)。「かなりの」は、30%、50%、70%などより大きいことを意味してもよい。「類似」は、CIELABの意味で距離閾値内又は角回転内を意味してもよい。事前定義された肌の色合いの範囲内の色のテストが、オプションで適用されてもよい。
次に、閾値化動作が適用されて、閉領域内の最も暗い5%のピクセルが識別されてもよい。これらのピクセルを解析して、これらのピクセルが、2つの目と調和するグループを形成するかどうかを判定することができる。
このようなステップは、同様に、顔の候補(複数可)のための固有ベクトルの生成中ずっと継続する。(顔の固有ベクトルは、顔の高次元ベクトル空間表現の確率分布の共分散行列から計算される。)そうである場合、−ローカル又はリモートの−参照データ構造内のマッチを求めて、固有ベクトルが検索されてもよい。
動作のいずれかが負の結果を生じる場合、システムは、見極めることができる顔が存在しないという結論を下し、そのフレームに対するさらなる顔発見の取組みを終了することができる。
これらのステップのすべてが、単一のパイスライス処理内の段階を形成することができる。別法として、1つ又は複数のステップは、基本的であり、且つ、いくつかの異なる処理にとって有用であると見なされてもよい。そのような場合、そのようなステップ(複数可)は、専用のパイスライス処理の一部を形成することはないが、代わりに別個でありうる。そのようなステップ(複数可)を、1つ又は複数のパイスライス処理で実装し−他のエージェント処理と共に循環的に実行し、それらの結果をブラックボードに投稿することができる(他のエージェントがそれらの結果を発見することができるかどうかにかかわらず)。又は、そのようなステップ(複数可)を、他の方法で実装することができる。
システムの制限されたリソースを、異なる進行中の処理に適用する際、検出状態は、有用な概念になりうる。各瞬間に、各エージェントによって求められる目標(例えば、顔を認識すること)に達する可能性がより多いか又はより少ないと思われうる。すなわち、各エージェントは、「大変見込みがある」から「中間的」を通じて「大変思わしくない」へと至る連続体における、瞬時検出状態を有してもよい。検出状態が「見込みがある」の場合、より多くのリソースがその取組みに割り振られてもよい。その検出状態が「思わしくない」に向かう傾向がある場合、より少ないリソースを割り振ることができる。(ある時点で、システムにそのエージェントの取組みを終了させる、思わしくない状態の閾値に達してもよい。)検出状態は、エージェント処理が関係する特定のパラメータに合わせて調整される(別個の、又は、エージェント処理に含まれる)ソフトウェアルーチンによって、循環的に定量化することができる。
あるリソースの割り振りの増大は、エージェント処理の次に続く段階が呼び出されるとき、発生する傾向がある(例えば、FFT演算−7番目の段階で発生するかもしれない−は、ヒストグラム演算−4番目の段階で発生するかもしれない−よりも、本質的に複雑である)。しかし、システムはまた、リソースの割り振りを基本動作の複雑性とは別に計ることもできる。例えば、所与の画像処理演算は、システムのCPU又はGPUで行われるかもしれない。FFTは、計算用の1MBのスクラッチパッドメモリ、又は10MBで実行されるかもしれない。ある処理は、いくつかの状況では(より高速に応答する)キャッシュデータストレージを使用することを許可されるかもしれないが、他の状況では、(より遅く応答する)システムメモリのみを使用することを許可されるかもしれない。ある段階は、ある場合には4Gネットワーク接続へのアクセスが付与されうるが、別の場合にはより遅い3G又はWiFiネットワーク接続へアクセスが付与されうる。最も見込みがある結果を生じる処理には、システムリソースの消費において特権的ステータスを付与することができる。
さらなる構成では、リソースの割り振りは、エージェントのその目標達成における状態によって決まるだけでなく、そのためのエージェントの速度又は加速度によっても決まる。例えば、最初のリソース取組みレベルに応答して、見込みがある結果が速く現れつつある場合、追加のリソースを適用することができるだけでなく、見込みがある結果がそれほど速く現れなかった場合より、より多くの追加のリソースを適用することができる。リソースの割り振りは、このように、検出状態(又は、性能若しくは結果の他のメトリック)のみによって決まる可能性があるのではなく、このような測定の1次又は高次導関数によっても決まる可能性がある。
関連して、ある検出エージェント処理のある段階によって作り出されたデータは、大変見込みがあるので、その処理が1つ又は複数の段階より先にジャンプして−間にある段階をスキップすることができることがある。これは、例えば、スキップされた段階(複数可)が処理に必須の結果を出さないが、単に、またさらなる段階による処理の価値があるという、より大きい信頼を得るために着手される場合でありうる。例えば、認識エージェントは、段階1、2及び3を行い、次いで−段階3の出力からの信頼メトリックに基づいて−段階4をスキップし、段階5を実行(又は、段階4及び5をスキップし、段階6を実行するなど)してもよい。
リソース割り振り及び段階スキップは、検出状態によって促されうることと全く同様に、ユーザ入力によっても促すことができる。ユーザが特定の処理を奨励する場合、その処理に特別のリソースを割り振ることができ、及び/又は、そうでなければ、見込みがある結果が足りないためにその動作が自動的に縮小されていたかもしれない時点を超えて、その処理が継続してもよい。(例えば、前述の検出状態の連続体が、スコア0<全く思わしくない>から100<全く有望な>に及び、そのスコアが35の閾値を下回る場合に処理が通常は動作を終了する場合、ユーザがその処理を奨励する場合はその閾値を25又は15まで下げてもよい。閾値の変化の量を、受けた奨励の量に関係付けることができる。)
ユーザの奨励は、明示又は暗示されうる。明示された奨励の一例は、ユーザが入力信号(例えば、画面のタップなど)を提供し、特定の動作が行われることを命令すること(例えば、システムに対して、描かれた人を識別するために画像を処理するように命令するUIコマンド)である。
いくつかの実施形態では、カメラは画像を連続してキャプチャしており−特定のユーザ命令なしに視覚的環境を監視している。そのような場合、ユーザがシャッターボタンなどをアクティベートする場合、そのアクションを、その瞬間にフレーミングされた画像を処理するようにと、明示されたユーザの奨励の証拠として解釈することができる。
暗示された奨励の一例は、ユーザが、画像内に描かれた人をタップすることである。これは、その人についてもっと知るための合図として意図され、又は、ランダムな行為であることがある。とにかく、システムに、画像のその部分に関する処理、例えば、顔認識へのリソース割り振りを増大させれば、十分である。(他の処理もまた優先されてもよく、例えば、その人が身につけたハンドバッグ又は靴を識別すること、及び、顔認識による識別の後にその人についての事実を調査すること−ソーシャルネットワーク、例えば、リンクトイン又はフェイスブックの使用を通じて、グーグル、pipl<dot>com、又は他のリソースの使用を通じてなど−である。)
タップの場所を、どのくらいの量のリソース増大が異なるタスクに適用されるべきであるか(例えば、奨励の量)を決定する際に、使用することができる。人が画像内の顔をタップする場合、ユーザが画像内の人の靴をタップする場合よりも、より多くの特別のリソースが顔認識処理に適用されてもよい。この後者の場合、靴識別処理に、顔認識処理よりも大きいリソース増大が割り振られてもよい。(靴をタップすることで、靴認識処理が既に進行中ではない場合、開始することもできる。)
暗示されたユーザ奨励のもう1つの例は、ユーザがカメラを位置決めして、特定の被写体が画像フレームの中心点にあるようにすることである。これは、システムがフレームの時系列に留意する場合に特に有望であり、この際、カメラは新しい方向に向けられ−特定の被写体が中心点に移動される。
前述のように、被写体は、いくつかの部分(靴、ハンドバッグ、顔など)からなることがある。そのような各部分とフレームの中心の間の距離は、奨励の量と逆相関すると見なすことができる。すなわち、中心フレームの部分は、暗示的に最も奨励され、他の部分は、距離と共に連続的により少なく奨励される。(数学関数は、距離を奨励に関係付けることができる。例えば、フレームの中心とされる部分は、0〜100のスケールで、100の奨励値を有することができる。画像フレームの遠い周辺の任意の部分は、0の奨励値を有することができる。中間の位置は、直線関係、力関係、三角関数、又は他の方法による奨励値に対応してもよい。)
カメラがズームレンズ(又はデジタルズーム機能)を装備しており、カメラが特定の被写体(又は一部)にズームインされるフレームの時系列に留意する場合、そのようなアクションを、その特定の被写体/部分のための暗示されたユーザ奨励として見なすことができる。フレームの時系列なしであっても、ズームの度合いを示すデータを、フレーミングされた被写体へのユーザの関心の測定として見なすことができ、奨励の測定へと数学的に変換することができる。
例えば、カメラが1Xから5Xのズーム範囲を有する場合、5Xのズームは、100の奨励係数に対応してもよく、1Xのズームは、1の奨励係数に対応してもよい。中間ズーム値は、直線関係、力関係、三角関数などによる奨励係数に対応してもよい。
意図の推論はまた、画像フレーム内の特徴の向きに基づいてもよい。ユーザは一般に、所期の被写体を垂直にフレーミングする向きで、イメージングデバイスを押さえると考えられる。加速度計データを参照することによって、又は他の方法で、デバイスは、ユーザがイメージャを「風景」モード画像をキャプチャするための位置で押さえているか、「ポートレート」モード画像をキャプチャするための位置で押さえているかを見極めることができ、そこから「垂直」を決定することができる。垂直に向けられた主軸(例えば、大体対称の軸)を有する、画像フレーム内のオブジェクトは、垂直から傾いているオブジェクトよりも、ユーザの意図の被写体である可能性がより高い。
(画像フレーム内でユーザの意図の被写体を推論するための他の手がかりは、米国特許第6947571号で論じられている。)
これまでの考察は、負でない奨励値を企図したが、他の実施形態では、負の値を、例えば、特定の刺激に対する明示又は暗示されたユーザの無関心、フレームの中心から画像特徴が遠く離れていることなどに関連して、利用することができる。
奨励−正及び負の種類の双方−を、他の処理によって提供することができる。バーコード検出器が、フレームの中心のオブジェクトがバーコードであると検知することを開始する場合、その検出状態メトリックは増加する。このような結論は、しかし、フレームの中心の被写体が顔である可能性に、異議を唱える傾向がある。したがって、第1の認識エージェントによる検出状態メトリックの増加は、その第1のエージェントと相互排他的である可能性が高い他の認識エージェントにとって、負の奨励としての機能を果たすことができる。
複数の認識エージェントのための奨励及び検出状態メトリックを、様々な数学的アルゴリズムによって組み合わせて、ハイブリッド制御メトリックを生じることができる。1つは、それらの和であり−2つのエージェント(奨励についての負の値がない)の場合、0〜200に及ぶ出力を生じる。もう1つは、それらの積であり、0〜10,000に及ぶ出力を生じる。それらのそれぞれのハイブリッド制御メトリックが変化するとき、リソースを異なる認識エージェントに再割り振りすることができる。
認識エージェントは、アプリケーションに応じて、異なる粒度及び機能のものでありうる。例えば、直前に論じた顔認識処理は、多数の段階の単一のパイスライスであってもよい。又は、いくつかの、又は数十の、関連のより単純な処理−各々それ自体のスライス−として実装することができる。
図12のパイスライス認識エージェントが、DLL−所望のクラスのサービスを提供するために選択的にロード/呼び出されるコード−に類似していることは、理解されよう。(実際に、いくつかの実装では、DLLに関連付けられたソフトウェア構成物を、例えば、オペレーティングシステムで使用して、エージェントコードのロード/アンロードを管理すること、そのような機能性の可用性を他のソフトウェアに発行することなどができる。DLLベースのサービスもまた、認識エージェントと共に使用することができる。)しかし、好ましい認識エージェントは、DLLとは異なる振る舞いを有する。一態様では、この異なる振る舞いは、スロットリング又は状態ホッピングとして記述されうる。すなわち、それらの実行−及び、リソースのサポート−は、1つ又は複数の要因、例えば、検出状態、奨励などに基づいて変わる。
図13は、図12の構成の別の図を示す。この図は、異なる処理が異なる量のプロセッサ時間及び/又は他のリソースを消費する場合があることを明確にする。(実装は、もちろん、単一のプロセッサシステム又はマルチプロセッサシステム上でありうる。今後は、マルチプロセッサシステムの異なるプロセッサ又は「コア」は、別々のタスクを行うように割り当てられてもよい。)
時として、認識エージェントは、処理リソース、入力データ、又はそうでないものかにかかわらず、満足の行くリソースの不足のために、その目標(複数可)を達成することができない。追加又はよりよいリソースがあれば、その目標は達成されるかもしれない。
例えば、顔認識エージェントは、画像がキャプチャされたとき、カメラが45度傾いたために、画像内に描かれた人の顔を認識することができない場合がある。その角度では、鼻は口の上−顔が存在するかどうかを見極める際に、エージェントが適用した可能性のある基準−にはない。より多くの処理リソースがあれば、その基準が緩められるか、又は除去されるかもしれない。或いは、別のエージェント−例えば、向き調節エージェント−からの、例えば、画像内の実際の水平線の傾きを識別する結果が入手可能であったならば、顔が検出されたかもしれない。水平線の傾きを知ることで、顔認識エージェントが−顔を識別することを可能にしたであろう−異なる角度から、「上」を理解することを可能にしたかもしれない。(同様に、以前に又は後にキャプチャされたフレームが解析された場合、顔が見極められたかもしれない。)
いくつかの構成では、他のリソースが入手可能になるとき、システムは、入力刺激(例えば、画像)のさらなる解析を行う。簡単な例を挙げると、ユーザが電話をハンドバッグに入れ、カメラセンサが暗くなるか、又はどうしようもないほど焦点が合わなくなるとき(又は、ユーザが電話をテーブルの上に置いたので、電話が固定されたシーン−おそらく、テーブル又は天井−を凝視するとき)、ソフトウェアは、それらの目標を以前に達成することができなかったエージェント処理を再アクティベートし、データを再検討してもよい。次々と入ってくる動画を処理する混乱、及び、関連付けられたリソース負荷がなければ、これらのエージェントはこのとき、例えば、以前に逃した顔を認識するという、それらの本来の目標を達成することができる場合がある。これを行う際、システムは、他のエージェント処理からの出力データ−対象エージェントが最初に実行中であったときに入手可能なもの、及び、また、対象エージェントが終了したまで入手可能ではなかったそれらの結果の双方−を呼び戻してもよい。この他のデータは、以前に不成功であった処理がその目標を達成する助けとなることがある。(電話の以前の動作中に収集された、収集された「ごみ」が、手がかり、及び、エージェントが実行された最初の処理環境で見落とされた−又は、まだ入手可能ではなかった−助けとなる情報を求めて、見直されてもよい。)このような「事後の熟考」動作中のバッテリの消耗を低減するため、電話は省電力状態に切り替わってもよく、例えば、ある処理回路を無効にすること、プロセッサクロック速度を下げることなどを行ってもよい。
関連構成では、電話でそれらの目標を達成することなく終了した処理の一部又は全部が、クラウドで継続されてもよい。電話は、不成功のエージェント処理についての状態データをクラウドへ送信し、電話が終わったところで、クラウドプロセッサが解析(例えば、アルゴリズムステップ及びデータ)を再開できるようにしてもよい。電話はまた、他のエージェント処理からの結果−不成功のエージェント処理が終了されたとき、入手可能でなかったものを含む−をクラウドに提供することもできる。ここでもまた、以前に廃棄された情報がクラウドの処理との新しい関連性を持つようになる場合に備えて、データの「ごみ」を可能性のあるリソースとしてクラウドに提供することもできる。クラウドは、−電話システムが見落とした可能性のある、有用な価値ある情報又は意味を発見しようと試みて−すべてのそのようなデータの収集動作を行うことができる。これらの結果が電話に返されるとき、これらの結果は、さらに、電話が過去又は現在に処理している情報を電話に再査定させ、おそらく、そうでなければ逃していたであろう有用な情報を、電話が見極めることができるようにしてもよい。(例えば、そのデータ収集処理において、クラウドは、水平線が45度傾いているように見えることを発見し、電話の顔認識エージェントが、そうでなければ逃していたであろう顔を識別できるようにしてもよい。)
前述の考察は、認識エージェントに焦点を合わせたが、同じ技術をまた、例えば、向き又はコンテキスト、その他の確立など、認識の補助的なものなど、他の処理に適用することもできる。
さらに制約について
図14は、ある実施形態で用いることができる技術のある態様を描く概念図である。図の最上部は、実行されうる認識エージェント(RA)サービスで満ちたホッパーを示し−大部分は、そのサービスのための入力として使用されるべき1つ又は複数のキーベクトルに関連付けられる。しかし、システム制約により、すべてのこれらのサービスの実行が可能にされるわけではない。したがって、ホッパーの底は、制約によってゲートで制御されるものとしてグラフィカルに図示され−バッテリ状態、CPUにおける他の需要などに応じて、より多いか又はより少ないサービスが開始できるようになる。
実行可能にされるこれらのサービスは、ホッパーの下に示される。これらのサービスが実行するとき、これらのサービスは、中間又は最終結果をブラックボードに投稿してもよい。(いくつかの実施形態では、これらのサービスは、UIマネージャへ、別の認識エージェントへ、監査証跡又は他のデータストアへなど、他の処理又はデータ構造へ出力を提供して、オペレーティングシステムへ信号−例えば、ステートマシンを前進させるためなど−を出してもよい。)
知られているガベージコレクション技術がブラックボードで用いられて、もはや関連のないデータが除去される。除去されたデータは、ディスクファイルなど、長期ストアに転送されて、他の解析においてリソースとしての機能を果たすようにしてもよい。(除去されたデータはまた−下記のように−クラウドへ転送又はコピーされてもよい。)
いくつかのサービスは、完了まで実行して終了し(図では、1本の取り消し線によって図示される)−他のサービスを実行可能にするリソースを解放する。他のサービスは、完了より前にキルされる(二重取り消し線によって図示される)。これは、様々な理由で起こる可能性がある。例えば、サービスからの中間結果が、見込みがないことがある(例えば、ある楕円はこのとき、顔よりも車のタイヤである可能性がより高いように見える)。又は、システム制約は変わることがあり−例えば、リソースの不足のため、あるサービスの終了を必要とする。又は、他のより見込みがあるサービスは、実行する準備ができ、リソース再割り振りを要求することがある。図14の例示には描かれないが、キルされる処理からの中間結果は、−それらの動作中、又は、それらがキルされる時点で−ブラックボードに投稿されてもよい。(例えば、ある楕円が顔よりも車のタイヤのように見える場合、顔認識アプリケーションは終了してもよいが、車両認識エージェントは、そのような情報を使用することができる。)
ブラックボードに投稿されたデータは、様々な方法で使用される。1つは、ボーブルの画面表示をトリガして、他のユーザインタフェース要件を満たすことである。
ブラックボードからのデータはまた、認識エージェントサービスへの入力として、例えば、入力キーベクトルとして、入手可能にされてもよい。加えて、ブラックボードデータは、新しいサービスが実行するための理由を知らせてもよい。例えば、楕円の検出は、−ブラックボード上にレポートされるとき−顔認識サービスが実行されるべきであることを知らせてもよい。ブラックボードデータはまた、(概念上の)ホッパー内で既に待機中のサービスの関連性スコアを増し−そのサービスが実行されるようになる可能性をより高くしてもよい。(例えば、その楕円が実際に車のタイヤであるという指示は、そのエージェント処理が実行されるに至るほどに、車両認識処理の関連性スコアを増してもよい。)
関連性スコアの概念が、図15に示される。データ構造は、実行される可能性のあるサービスのリストを維持する(図14のホッパーに類似)。関連性スコアは、各々について示される。これは、そのサービスを実行する重要性の相対的指示である(例えば、1〜100のスケールによる)。このスコアは、ブラックボード、コンテキスト、明示されたユーザの意図、ユーザ履歴などで発見されたデータを含む、−特定のサービス及びアプリケーションに応じた−複数の変数の相関的要素でありうる。関連性スコアは典型的には、より多くのデータが入手可能になる、コンテキストが変化するなどにつれて、時間と共に変化する。進行中の処理は、現在の条件に基づいて、関連性スコアを更新することができる。
いくつかのサービスは、高度に関連があるようなスコアになるが、提供されうるよりも多くのシステムリソースを要求し、そのため実行しないことがある。他のサービスは、関連が弱いものでしかないようなスコアになることがあるが、リソース消費が大変控えめなので、それらの低い関連性スコアにかかわらず、実行されうるということがある。(このクラスでは、以前に詳述された、定期的に行われる画像処理演算である場合がある。)
サービスを実行するためのコストを−リソース要件に関して−示すデータが、例示されたデータ構造内で提供される(図15のコストスコアという見出しの下)。このデータは、関連性−コスト解析が行われることを可能にする。
例示されたコストスコアは、複数の数の配列であり−各々は、特定のリソース要件、例えば、メモリ使用量、CPU使用量、GPU使用量、帯域幅、他のコスト(金銭的費用に関連付けられたサービスのためなど)などに対応する。ここでもまた、例示的構成では、任意の0〜100のスコアが示される。3つの数のみが示される(メモリ使用量、CPU使用量、及びクラウド帯域幅)が、より多くの又はより少ない数がもちろん使用されうる。
関連性−コスト解析は、システム保証と同じように単純又は複雑になりうる。単純な解析は、組み合わせられたコスト成分を関連性スコアから減算することであり、例えば、データ構造内の第1のエントリでは、−70の結果を生じる。もう1つの単純な解析は、関連性を、総計のコスト成分で除算することであり、例えば、第1のエントリでは、0.396の結果を生じる。
類似の計算を、キュー内のすべてのサービスに対して行い、それによりサービスの順序付けを決定することができる最終スコアを生じることができる。最終スコア列は、図15で、上記の第1の解析に基づいて提供される。
単純な実施形態では、サービスは、直観的コンピューティングプラットフォームに付与されたリソース予算に達するまで、開始される。プラットフォームには、例えば、300MBのRAMメモリ、クラウドへの256Kビット/秒のデータチャネル、50ミリワットの電力消費量、並びに、CPU、GPU、及び/又は、他の制約のあるリソースについて同様に定義された予算が付与されうる。(これらの割り振りは、デバイスオペレーティングシステムによって設定されてもよく、他のシステム機能が呼び出されるか、又は終了するとき、変化してもよい。)これらの閾値のいずれかに達するとき、状況が変化するまで、それ以上の認識エージェントサービスは開始されない。
単純ではあるが、この構成は、定義されたリソース予算のうち最初のものに達するとき、すべてのサービスを制限する。一般に好ましいものは、関連のある制約のうちいくつか又は全部を考慮して、呼び出されたサービスを最適化しようとする構成である。したがって、256Kビット/秒のクラウド帯域幅制約に達する場合、システムは、クラウド帯域幅を必要としないさらなるサービスを、なお開始してもよい。
より高度な構成では、各候補サービスには、そのサービスに関連付けられた異なるコスト成分の各々についての性能指数スコアが割り当てられる。これは、最終スコアの計算のための上述の減算又は除算の手法によって、若しくは他の方法で行うことができる。減算の手法を使用すると、図15で最初にリストされたサービスのメモリ使用量についての37のコストスコアは、9のメモリ性能指数(すなわち、46〜37)を生じる。CPU使用量及びクラウド帯域幅についてのサービスの性能指数は、それぞれ−18及び31である。それらの異なるリソース要件に関して候補サービスにスコアを与えることによって、システムリソースをより効率的に利用するサービスの選択を行うことができる。
新しい認識エージェントが起動され、他の認識エージェントが終了し、他のシステム処理が変わるとき、リソースのヘッドルーム(制約)が変化するようになる。これらの動的な制約は追跡され(図16)、認識エージェントを起動(又は終了)する処理に影響を与える。メモリ集中的なRAがその動作を完了し、40MBのメモリを解放する場合、プラットフォームは、1つ又は複数の他のメモリ集中的なアプリケーションを起動して、最近解放されたリソースを利用してもよい。
(異なるサービスの選択による異なるリソースの消費を最適化するタスクは、線形プログラミングにおける課題であり、そのための多数の周知の手法があることは、当業者には理解されよう。本明細書で詳述された構成は、実際に採用されうるものよりも単純であるが、概念を例示する助けとなる。)
図15に戻ると、例示されたデータ構造はまた、「条件」データをも含む。あるサービスは、高度に関連があることがあり、リソースは、そのサービスを実行するために十分であることがある。しかし、実行に先立つ条件がまだ満たされないことがある。例えば、必要なデータを提供する別の登録エージェントサービスが、まだ完了していないことがある。又は、ユーザ(又はエージェントソフトウェア)がまだ、サービスによって要求された支出を承認していないか、又は、サービスのクリックラップの法律上の契約に同意していない、などのことがある。
サービスが実行を開始した後、リソース制約が変化して、総計の直観的コンピューティングプラットフォームがその最大予算を超えるようにする場合であっても、そのサービスが完了まで実行できるようにするために、プログラムされたバイアスが存在してもよい。異なるバイアスを異なるサービスに、且つ、所与のサービスのための異なるリソースに関連付けることができる。図15は、異なる制約、例えば、メモリ、CPU及びクラウド帯域幅のためのバイアスを示す。場合によっては、バイアスは100%未満であってもよく、その場合、そのリソースの可用性がバイアスの数字より低い場合、そのサービスは起動されることはない。
例えば、あるサービスは、総計のICP帯域幅がその最大値の110%になるまで、実行を継続してもよいのに対して、別のサービスは、100%の閾値が越えられるとき、直ちに終了してもよい。
あるサービスが特定のリソースの低ユーザである場合、より高いバイアスが許可されてもよい。又は、あるサービスが高い関連性スコアを有する場合、より高いバイアスが許可されてもよい。(バイアスは、バイアス=90+関連性スコア、又は100、どちらでもより大きい方など、関連性スコアから数学的に導出されてもよい。)
異なるサービス及び異なる制約に割り当てられたバイアスに応じて、リソース需要が指図するとき、このような構成は、プログラマブルな方法でサービスの縮小を可能にする。
いくつかの構成では、スロットルバックされたリソースによってではあるが、サービスが実行可能にされてもよい。例えば、あるサービスは通常、50Kビット/秒の帯域幅要件を有することがある。しかし、特定の状況では、その実行は、40Kビット/秒の使用に制限されてもよい。ここでもまた、これは、最適化における課題であり、その詳細は応用例によって異なるようになる。
ローカルソフトウェア
1つの特定の実施形態では、モバイルデバイス上のローカルソフトウェアを、6つの異なるクラスの機能を行うものとして概念することができる(インストール、及び、オペレーティングシステムへのそれ自体の登録は含まない)。
第1のクラスの機能は、ユーザと通信することに関する。このクラスは、ユーザが入力を提供し、例えば、ユーザが誰であるか、ユーザが何に関心を持っているか、何の認識動作がユーザに関連があるか(木の葉:イエス、車両タイプ:ノー)などを指定することを可能にする。(ユーザは、関心に応じて、異なる認識エンジンを申し込みしてもよい。)ユーザインタフェース機能性もまた、−タッチスクリーン及びキーボード上の入力を検知する、情報を表示画面上に出力するなど−ハードウェアUIデバイスのために必要とされたサポートを提供する。
ユーザと有効に通信するため、ソフトウェアは、ユーザの環境のある3D理解を有することが望ましく、例えば、表現されている3D領域があるという知識によって情報が与えられて、画面上に提示された2D情報を編成する方法、及び、カメラが3D世界を表現することを知りながら、カメラによってキャプチャされた2D情報を理解する方法である。これには、正射影ブリッティングプリミティブ(orthographic blitting primitives)のライブラリが含まれうる。これは、第2のクラスに入る。
第2のクラスの機能は、一般的な向き調節、正射影、及び、オブジェクトシーン構文解析に関する。これらの能力は、オブジェクト認識動作に情報を与える助けとなることができる、コンテキストの共通項(例えば、空は上にある、この画像内の水平線は20度右に傾いている、など)を提供する。
第3のクラスは、実際のピクセル処理に入り、キーベクトル処理及びパッケージングと呼ばれうる。これは、多数の知られているピクセル処理動作−変換、テンプレートマッチング等々−である。ピクセル及びクランチ(crunch)を取る。
8×8ブロックのピクセルは、多くの画像処理演算(例えば、JPEG)でよく知られているが、そのグループは、本コンテキストではそれほど優勢ではない(ただし、ある状況で使用されうる)。その代わりに、5つのタイプのピクセルグループが優勢である。
第1のグループは、全くグループではないが、グローバルである。例えば、レンズキャップが付いているか?焦点の一般的な状態は何か?これは、−あるとしても−多くの構文解析のないカテゴリである。
第2のグループは、長方形のエリアである。長方形のピクセルのブロックが、任意の数の動作のために要求されうる。
第3のグループは、長方形でない連続的なエリアである。
第4は、列挙されたピクセルのパッチワークである。まだ単一のフレーム内であるが、これは、第2の及び第3のグループの組み合わせであり−首尾一貫性のある観念(例えば、特定の認識タスクへの関連性など、含まれたピクセル間の関係を示す、あるメトリック又はあるヒューリスティック)を有することが多い。
第5は、ピクセルのフレーム間の集まりである。これらは、ピクセルデータの時系列を含む(フレームでないことが多い)。他のグループのように、特定の形式は、応用例に応じて大幅に変わるようになる。
このピクセル処理クラスの機能の別の態様は、リソースが有限であり、例えば、顔を認識するなど、それらの目標の達成に向かって進行しつつあるように見える処理に、ますます増える量で割り振られるべきであり、逆の場合も同じであることを認める。
ローカルソフトウェアによって行われるべき第4のクラスの機能は、コンテキストメタデータ処理である。これは、例えば、ユーザによって入力された、センサによって供給された、又は、メモリから呼び戻された、多くの種類の情報を集めることを含む。
「コンテキスト」の1つの形式上の定義は、「エンティティ(ユーザ及びアプリケーション自体を含む、ユーザとアプリケーションの間のインタラクションに関連があると考えられる人、場所又はオブジェクトの状況を特徴付けるために使用することができる、任意の情報」である。
コンテキスト情報には多くの種類がある可能性があり、計算コンテキスト(ネットワーク接続性、メモリ可用性、CPU競合など)、ユーザコンテキスト(ユーザプロファイル、場所、アクション、プリファレンス、近所の友達、ソーシャルネットワーク(複数可)、及び、状況など)、物理的コンテキスト(例えば、照明、雑音レベル、トラフィックなど)、時間的コンテキスト(時刻、日、月、季節など)、上記の履歴などが含まれる。
ローカルソフトウェアのための第5のクラスの機能は、クラウドセッション管理である。ソフトウェアは、異なるクラウドベースサービスプロバイダを、個々のタスクを実行するためのリソースとして登録すること、クラウドとの二重セッションをインスタンス化する(IP接続を確立し、トラフィックの流れを管理する)こと、リモートサービスプロバイダをピングする(例えば、それらのサービスが間もなく必要とされうるというアラートを出す)ことなどを行う必要がある。
ローカルソフトウェアのための第6の最後のクラスの機能は、認識エージェント管理である。これらの機能には、認識エージェント及びサービスプロバイダが、それらの入力要件と、ランタイムでロード(又はアンロード)されなければならない、それらが依拠する共通ライブラリ機能と、他のシステムコンポーネント/処理とのそれらのデータ及び他の依存性と、共通項の処理を行うためのそれらの能力(場合によっては、他のサービスプロバイダに取って代わる)と、それらのシステムリソースの最大使用についての情報と、それらの動作の各段階(図12の考察を参照)及び各々によって課せられたリソース要求についての詳細と、スロットルダウンされたリソースによるそれらの性能/振る舞いについてのデータなどとを、−携帯電話へ−発行するための構成が含まれる。この第6のクラスの機能は次いで、これらのパラメータが与えられると、現在の状況に基づいて、認識エージェントを管理し、例えば、結果及び現在のシステムパラメータに応じて、それぞれのサービスの強度をスロットルアップ又はスロットルダウンする。すなわち、認識エージェント管理ソフトウェアは、エージェントの動作がシステムリソース制約に従って仲介される手段としての機能を果たす。
サンプルの視覚的アプリケーション
1つの例示的アプリケーションは、表面上の複数の硬貨を見て、それらの合計額を計算する役目を果たす。システムは、楕円発見処理(例えば、ハフアルゴリズム)を適用して、硬貨を位置指定する。これらの硬貨は、互いに上に重なり合うことがあり、いくつかは部分的にしか見えないことがあり、アルゴリズムは、検出する楕円の各部分の中心−各々が異なる硬貨に対応する−を決定することができる。これらの楕円の軸は、ほぼ平行であるはずであり(斜めのビュー、すなわち、すべての硬貨が画像内で円として描かれるとは限らないと仮定する)−このことは、この手順をチェックするものとしての機能を果たすことができる。
楕円が位置指定された後、硬貨の直径が査定されて、それぞれの額が識別される。(査定された直径をヒストグラム化して、予期される直径で、又は、予期される直径比率で、クラスタ化するようにすることができる。)
様々ないくつかの硬貨が存在する場合、これらの硬貨が、直径の比率のみによって−色又はしるしを参照することなく−識別されてもよい。10セント硬貨の直径は17.91mmであり、1ペニー硬貨の直径は19.05mmであり、5セント硬貨の直径は21.21mmであり、25セント硬貨の直径は24.26mmである。10セント硬貨に対して、1ペニー硬貨、5セント硬貨及び25セント硬貨は、1.06、1.18及び1.35の直径比率を有する。1ペニー硬貨に対して、5セント硬貨及び25セント硬貨は、1.11及び1.27の直径比率を有する。5セント硬貨に対して、25セント硬貨は、1.14の直径比率を有する。
これらの比率はすべて一意であり、即座の見極めを可能にするために十分広い間隔が空いている。2つの硬貨が1.14の直径比率を有する場合、小さい方は5セント硬貨に違いなく、他方は25セント硬貨に違いない。2つの硬貨が1.06の直径比率を有する場合、小さい方は10セント硬貨に違いなく、他方は1ペニー硬貨に違いない、などとなる。他の比率が発見される場合、何かが誤っている。(硬貨が楕円として描かれる場合であっても、直径の比率を決定することができ、その理由は、同じ視点から見られた楕円の寸法が同様に比例するためであることに留意されたい。)
硬貨のすべてが同じタイプである場合、見えているしるしによって識別されてもよい。
いくつかの実施形態では、色もまた使用することができる(例えば、1ペニー硬貨を10セント硬貨と区別する際に支援するため)。
識別された25セント硬貨の額を、識別された10セント硬貨の額と、識別された5セント硬貨の額と、識別された1ペニー硬貨の額と合計することによって、この表面上の硬貨の合計額が決定される。この額をユーザに、適切なユーザインタフェース構成を通じて提示又は公表することができる。
関連するアプリケーションは、山積みの硬貨を見て、それらの硬貨の発行国を決定する。各国の異なる硬貨は、硬貨間の寸法の比率の一意のセットを有する。したがって、−上記のような−直径比率の決定は、ある硬貨の集まりが米国のものか、カナダのものか、などを示すことができる。(1ペニー硬貨、5セント硬貨、10セント硬貨、25セント硬貨、及び、カナダの50セント硬貨は、例えば、19.05mm、21.2mm、18.03mm、23.88mm及び27.13mmの直径を有するので、その山が5セント硬貨及び1ペニー硬貨のみを含む場合、ある曖昧さがあるが、他の硬貨が含まれる場合、これは解決される)。
拡張環境
いくつかの構成では、シーンのマシンビジョン理解は、視野内で1つ又は複数の特徴又はオブジェクトを位置決めすることによって支援され、それについての参照情報が知られ(例えば、サイズ、位置、角度、色)、それによってシステムは、−関係により−他の特徴を理解することができる。1つの特定の構成では、ターゲットパターンがシーンに含まれ、そこから、例えば、視空間内の表面までの距離及びその向きを見極めることができる。そのようなターゲットはしたがって、距離及び向き情報をカメラシステムへ信号で送る、ビーコンとしての機能を果たす。1つのそのようなターゲットは、トリップコード(TRIPcode)であり、例えば、de Ipina、TRIP:a Low−Cost Vision−Based Location System for Ubiquitous Computing、Personal and Ubiquitous Computing、Vol.6、No.3、2002年5月、206〜219ページに詳述されている。
Ipina論文で詳述されるように、ターゲット(図17に示す)は、ターゲットの半径を含む情報を符号化し、カメラ付きシステムがカメラからターゲットまでの距離、及び、ターゲットの3D姿勢を共に決定することを可能にする。ターゲットが視空間内のある表面上(例えば、壁面)に位置する場合、Ipinaの構成は、カメラ付きシステムが、壁までの距離、及び、カメラに対する壁の空間的な向きを共に理解することを可能にする。
トリップコードは、スポットコード(SpotCode)、次いで、ショットコード(ShotCode)(及び、時として、バンゴ〔Bango〕)として継続的に知られながら、様々な実装を経てきた。現在は、OP3 B.V.によって商品化されていると考えられる。
トリップコードターゲットの美的感覚は、いくつかの応用例には適していないが、他の応用例にはよく適している。例えば、カーペット又はじゅうたんが、例えば、カーペットの幅にわたって規則的又は不規則的な位置に位置する、繰り返されるデザイン特徴として、トリップコードターゲットを組み込んで作られてもよい。そのようなカーペットの上に立っている人を含むシーンを見るカメラは、その人までの距離を決定する際に(且つ、床を包含する平面を定義するためにも)ターゲットを参照することができる。同様に、このターゲットを、壁紙、家具用の布製カバー、衣類、その他など、他の材料の設計に組み込むことができる。
他の構成では、トリップコードターゲットは、人間の視覚系には見えないインクで印刷することによって、それほどはっきり見えないようにされるが、例えば、赤外線スペクトルでは可視である。モバイル電話で使用される多くの画像センサは、赤外線スペクトルへの感度がよい。そのようなターゲットは、したがって、人間の注意から逃れるとしても、キャプチャされた画像データから見極めることができる。
また、さらなる構成では、トリップコードの存在を、他のシーン特徴の中でカモフラージュし、それにもかかわらず、モバイル電話によるその検出を可能にするようにすることができる。
1つのカモフラージュ方法は、カメラセンサによる画像シーンの周期的サンプリングに依拠する。そのようなサンプリングは、ある品目が人間によって直接点検されるときにははっきりと見えない視覚的アーチファクト(例えば、エイリアシング、モアレ効果)を、カメラによりキャプチャされた画像に導入することができる。画像センサの規則的間隔のフォトセンサセルによって撮像されるとき、このようなアーチファクトの影響を通して現れるように、トリップコードターゲットを導入するように設計されたパターンで、オブジェクトを印刷することができるが、そうでなければ、このオブジェクトは見る人にとってはっきりと見えない。(この同じ原理は、コピーに基づく偽造に強い小切手の作成で、有利に使用される。「ボイド(VOID)」という語など、潜像が、オリジナルの文書設計のグラフィカル要素に組み込まれる。この潜像は、見る者にとってはっきりと見えない。しかし、コピー機のイメージングシステムによってサンプリングされるとき、周期的サンプリングは「ボイド(VOID)」という語を浮かび上がらせ、コピーに現れるようにする。)様々なそのような技術は、van Renesse、Hidden and Scrambled Images−a Review、Conference on Optical Security and Counterfeit Deterrence Techniques IV、SPIE Vol.4677、333〜348ページ、2002年に詳述されている。
もう1つのカモフラージュ方法は、カラー印刷が一般に4つのインク、すなわち、シアン、マゼンタ、黄色及び黒(CMYK)で行われるという事実に依拠する。通常、黒の素材は、黒インクで印刷される。しかし、黒はまた、シアン及びマゼンタ及び黄色を刷り重ねることによって模造することもできる。人間にとって、これらの2つの技術は、基本的に区別できない。デジカメでは、しかし、これらの2つの技術を容易に見極めることができる。この理由は、黒インクが典型的には、比較的多い量の赤外光を吸収するのに対して、シアン、マゼンタ及び黄色チャネルは、そうしないからである。
黒に見えるべきである領域では、印刷処理は、(例えば、白い下地の上に)重複するシアン、マゼンタ及び黄色インクのエリアを適用することができる。このエリアを次いで、黒インクを使用して、トリップコードでさらに刷り重ね(又は事前印刷)することができる。見る者にとっては、このエリアはすべて黒く見える。しかし、カメラには、赤外線の振る舞いからその違いが分かる。すなわち、黒インクの付いたトリップコードの領域内のある点で、白い下地を暗くする黒インクがあり、この黒インクは、そうでなければ白い下地から反射されるかもしれない、いかなる入射する赤外線照明をも吸収する。例えば、トリップコードターゲットの外側、又は、その周辺内−であるが、白が正常に現れるところ−の別の点で、赤外線照明は、シアン、マゼンタ及び黄色インクを通過し、白い下地からセンサに戻るように反射される。
カメラの赤センサは、赤外線照明に最も応答するので、トリップコードターゲットが区別されるのは、赤チャネル内である。カメラは、赤外線照明を(例えば、1つ又は複数のIR LEDによって)提供してもよく、又は、周囲照明が十分なIR照明を提供してもよい。(将来のモバイルデバイスでは、第2の画像センサが、例えば、赤外線検出のために特に構成されたセンサにより、設けられてもよい。)
直前に記載された構成を、−黒領域のみでなく−あらゆるカラー印刷画像で使用するために構成することができる。そうするための詳細は、米国特許出願公開第2006/0008112号において提供されている。そのような構成によって、トリップコードターゲットを、印刷が視覚的シーンに現れうるどんなところでも隠し、そのようなターゲットを参照することによって、シーン内のある特徴及びオブジェクトの正確な測定を可能にすることができる。
トリップコードなど、丸いターゲットは、計算を容易にするために望ましいが、例えば、異なる楕円形の姿勢になっているそのような形状の認識では、他の形状のマーカーを使用することができる。表面の3D位置を決定するために適した正方形のマーカーは、ソニー(Sony)のサイバーコード(CyberCode)であり、例えば、Rekimoto、CyberCode:Designing Augmented Reality Environments with Visual Tags、Proc.of Designing Augmented Reality Environments 2000年、1〜10ページに詳述されている。
いくつかの構成では、デジタルウォーターマークデータを搬送するように、トリップコード(又はサイバーコード)をさらに処理することができる。これは、上述され、上記特許出願に詳述されている、CMYK構成によって行うことができる。そのようなマシン可読データキャリアにステガノグラフィックデジタルウォーターマークデータによりマークを付けるための他の構成、及び、そのような構成のための応用例は、米国特許第7152786号及び米国特許出願公開第2001/0037455号に詳述されている。
マルチタッチ入力、画像再マッピング、及び他の画像処理
他のところで上述したように、ユーザは、プロトボーブルをタップして、システムが処理中である特徴又は情報への関心を表してもよい。このユーザの入力は、例えば、システムが追加のリソースをその取組みに適用するべきであると指示することによって、その処理の優先度を上げる。そのようなタップは、プロトボーブルをボーブルへとより速く成熟させることにつながる可能性がある。
ボーブルをタップすることはまた、他の目的を果たすこともできる。例えば、ボーブルは、アップルのアイフォン(すなわち、そのマルチタッチUI)によって普及したものと類似の方法で、ユーザインタフェースの目的のためのタッチのターゲットであってもよい。
以前の画像マルチタッチインタフェースは、画像を、区別されていない全体として扱った。ズームなどが、画像内に描かれた特徴とは関係なく実施された。
本技術のさらなる態様によれば、マルチタッチ及び他のタッチスクリーンユーザインタフェースは、表示された画像の1つ又は複数の部分が何を表すかについてのある知識によって部分的に決まる動作を行う。
簡単な例を挙げるため、机の表面中に散乱したいくつかの品目の斜めの角度のビューを考えられたい。1つは、−画像フレーム内で楕円として描かれた−硬貨である場合がある。
モバイルデバイスは、以前に詳述されたような様々なオブジェクト認識ステップを適用し、潜在的に異なるオブジェクトに対応する画像のエッジ及び領域を識別することが含まれる。ボーブルが現れうる。画像内の硬貨(又は、硬貨に関連付けられたボーブル)の場所をタップして、ユーザは、−机の上を見下ろす平面ビュー内であるかのように−硬貨が円として提示されるように、画像が再マッピングされるべきであることを、デバイスに知らせることができる。(これは、時として、オルソ補正〔ortho−rectification〕と呼ばれる。)
これを行うため、システムは、その形状が円であることを最初に知ることが望ましい。そのような知識は、いくつかの代替ソースに由来することが可能である。例えば、ユーザは、この情報を(例えば、UIを通じて−硬貨をタップし、次いで、画像の縁に提示された円コントロールをタップして、タップされたオブジェクトの本当の形状が円形であると示すことによるなど)明示的に示してもよい。又は、そのような硬貨が、デバイスによって、−例えば、その色及びしるしを参照することによって−ローカルに認識されてもよい(又は、クラウド処理がそのような認識を提供してもよい)。又は、デバイスは、楕円の形状を有するあらゆるセグメント化された画像特徴が実際には斜めの視点から見た円であると仮定してもよい。(いくつかのオブジェクトは、−斜めでさえ−検知可能なマシン可読符号化を含み、オブジェクトの本来の形状を示してもよい。例えば、QRバーコードデータが長方形のオブジェクトから見極められ、オブジェクトの真の形状が正方形であることを示してもよい。)その他もある。
画像内の硬貨の描写(又は対応するボーブル)をタップすることで、−それ以上のことがなくても−画像を再マッピングさせてもよい。他の実施形態では、しかし、そのような命令は、ユーザからの1つ又は複数のさらなる指図を必要とする。例えば、ユーザのタップは、デバイスに、行うことができるいくつかの代替動作を詳述するメニュー(例えば、グラフィカル又は聴覚による)を提示させてもよい。1つは、平面再マッピングでありうる。
そのような命令に応答して、システムは、キャプチャされた画像のスケールを楕円の短軸の寸法に沿って拡大し、その短軸の長さが楕円の主軸の長さに等しくなるようにする。(別法として、類似の効果を有して、画像を主軸に沿って縮小することができる。)そうする際に、システムは、描かれたオブジェクトをその平面ビュー形状により近くなるように再マッピングしており、画像の残りもまた再マッピングされる。
別の構成では、スケーリング係数をただ1つの方向に適用するのではなく、画像が2つの異なる方向に沿ってスケールされてもよい。いくつかの実施形態では、シアリング、又は、差分スケーリング(differential scaling)(例えば、遠近法的効果に取り組むため)を使用することができる。
メモリは、それにより斜めのビューからのオブジェクトの平面形状についての推論を決定することができる、ルールのセットを格納することができる。例えば、あるオブジェクトがほぼまっすぐの4面を有する場合、そのオブジェクトは−反対の面がカメラのビュー内で平行でない場合であっても−長方形であると仮定されてもよい。そのオブジェクトが、はっきりと見える第3次元の範囲を有しておらず、明るい色で広く一様である−おそらく、明るい色に囲まれたいくつかの高周波の暗いマーキングがある−場合、そのオブジェクトは1枚の紙であると仮定されてもよく−多分、GPSが米国内の場所を示す場合、8.5:11(又は、GPSが欧州内の場所を示す場合、1:SQRT(2))のアスペクト比である。再マッピングは、−他の知識が不足する際に−そのような情報を用いて、描かれたオブジェクトの、平面ビューに近似するものへのビュー変換を行うことができる。
いくつかの構成では、画像フレーム内のあるセグメント化されたオブジェクトについての知識を使用して、同じフレーム内の別のオブジェクトについての結論を知らせるか、又は精緻化することができる。最大寸法が30ピクセルである丸いオブジェクト、及び、最大寸法が150ピクセルである別のオブジェクトを描く、画像フレームを考えられたい。後者のオブジェクトは、−ある処理によって−コーヒーカップであると識別されてもよい。参照情報のデータストアは、コーヒーカップの最も長い寸法が典型的には3〜6インチであることを示す。次いで、前者のオブジェクトを、約1インチの寸法を有する(例えば、他の画像内に描かれた丸いオブジェクトの場合にありうるような、1フィート又は1メートルではない)と推定することができる。
単なるサイズ分類以上のものを、このように推論することができる。例えば、データストアには、関連付けられた品目を共にグループ化する情報が含まれうる。タイヤ及び車。空及び木。キーボード及びマウス。シェービングクリーム及びかみそり。塩及びコショウ入れ(時として、ケチャップ及びマスタードのディスペンサーと共に)。硬貨及び鍵及び携帯電話及び財布。その他。
そのような関連付けを、様々なソースから収集することができる。1つは、フリッカー又はグーグルイメージ(Google Images)など、画像アーカイブからのテキストメタデータである(例えば、記述メタデータにおいてかみそりを有するすべての画像を識別し、そのような画像のメタデータからすべての他の用語を収集し、発生に関してランク付けし、例えば、上位25%を保持する)。もう1つは、自然言語処理によるものであり、例えば、米国特許第7383169号で詳述されるように、逆のセマンティック関係を見極めることによって拡張された、1つ又は複数のテキスト(例えば、辞書及び百科事典)の前方連結(forward−linking)解析を実施することによる。
寸法の知識を、類似の方法で推定することができる。例えば、参照データの種の集まりを、データストアに入力することができる(例えば、キーボードの最長寸法は約12〜20インチであり、電話は約8〜12インチであり、車は約200インチである、など)。画像を次いで、既知の品目を含むフリッカーから、他のものと共に収集することができる。例えば、フリッカーは現在、「キーボード」という用語のタグが付いたほぼ200,000もの画像を有する。それらの画像のうち、300を超える画像にはまた、「コーヒーカップ」という用語のタグも付いている。これらの300以上の画像における、類似のキーボードでない形状の解析により、追加されたオブジェクトが、キーボードの最長寸法のおよそ3分の1である最長寸法を有することが明らかになる。(類似の解析によって、機械学習処理は、コーヒーカップの形状が一般に円筒形であると推定することができ、そのような情報を、デバイスによって調べられる−ローカル又はリモートの−知識ベースに追加することもできる。)
上述のもののような推論は典型的には、最終的なオブジェクト識別を行わない。しかし、これらの推論は、ある識別を他の識別より可能性が高い(又は、より可能性が低い)ものにし、したがって、例えば、確率的な分類子において有用である。
時として、画像の再マッピングは、画像自体を超えるものに基づくことができる。例えば、画像は、例えばビデオからの、画像のシーケンスのうち1つであってもよい。他の画像は、他の視点からのものであってもよく、そのシーンの3Dモデルを作成可能にしてもよい。同様に、デバイスがステレオイメージャを有する場合、3Dモデルを形成することができる。再マッピングは、このような3Dモデルを参照することによって進行することができる。
同様に、ジオロケーションデータを参照することによって、同じ概略位置からの他の画像が識別され(例えば、フリッカーなどから)、3Dモデルを作成するために、又は、そうでなければ再マッピング動作に情報を与えるために使用されてもよい。(同様に、フォトシンス〔Photosynths〕が人気及び可用性を獲得し続ける場合、フォトシンスは、そこから再マッピングが進行することができる豊富なデータを提供する。)
そのような再マッピングは、OCRなど、認識アルゴリズムが適用される前に、キャプチャされた画像に適用することができる、助けとなるステップである。例えば、以前の例の机の写真がまた、机から上に傾いた電話をも描いており、LCD画面が電話番号を表示していることを考えられたい。電話の傾き及び見る角度のため、この表示は長方形として見えないが、偏菱形として見える。四辺形の形状を認識すると、デバイスは、この四辺形の形状を長方形に再マッピングしてもよい(例えば、横ずれ変換〔shear transformation〕を適用することによる)。OCRは次いで、再マッピングされた画像において進行し−電話画面上に表示された文字を認識することができる。
マルチタッチユーザインタフェースに戻ると、デバイス画面上に表示された2つ以上の特徴をタッチすることによって、追加の動作を開始することができる。
いくつかの動作は、他の再マッピング動作を行う。以前の机の例が、机の表面から上に傾いた電話/LCDディスプレイの双方、及び、水平に置かれている名刺をも描いていることを考えられたい。机に対する電話ディスプレイの傾きのため、これらの2つのテキストを有する特徴は、異なる平面にある。単一の画像から双方をOCRするには、中間物が必要となる。
ユーザが双方のセグメント化された特徴(又は、双方に対応するボーブル)をタッチする場合、デバイスは、選択された特徴のジオメトリを査定する。デバイスは次いで、電話について、LCDディスプレイのはっきりと見える平面に垂直に伸びるベクトルの方向を計算し、名刺の表面から垂直に伸びるベクトルについて同様に計算する。これらの2つのベクトルを次いで平均して、中間ベクトル方向を生じることができる。画像フレームを次いで再マッピングし、計算された中間ベクトルが垂直に上方へ伸びるようにすることができる。この場合、画像が変換されて、LCDディスプレイの平面と名刺の平面の間の中間の角度になる平面上に、平面ビューが生じている。このような再マッピングされた画像提示は、異なる平面に置かれている2つの対象からテキストをOCRするための最適な中間物であると考えられる(各々におけるテキストが、再マッピングされた画像描写において類似のサイズであると仮定する)。
類似の画像変換は、マルチタッチインタフェースを使用して画像から選択された3つ以上の特徴に基づくことができる。
説明の看板が至るところにある史跡にいるユーザを検討されたい。これらの看板は、異なる平面にある。ユーザのデバイスは、3つの看板を描く画像のフレームをキャプチャし、これらの看板を、それらのエッジ及び/又は他の特徴から、潜在的な関心のある個別のオブジェクトとして識別する。ユーザは、ディスプレイ上ですべての3つの看板に(又は、対応するボーブルに、共に又は順次に)タッチする。直前に記載されたもののような手順を使用して、3つの看板の平面が決定され、それに対して画像が再マッピングされる、中間物を見る視点−平均看板面に垂直な方向からそのシーンを見る−が次いで作成される。
中間物を見る視点から3つの看板を提示する代わりに、代替手法は、各看板を別々に再マッピングして、平面ビューに現れるようにすることである。これは、単一の画像を3つの異なる画像に−それぞれ異なる再マッピングにより−変換することによって、行うことができる。又は、異なる看板を構成するピクセルを、同じ画像フレーム内で異なって再マッピングすることができる(再形成され、多分拡大された看板の描写を合わせるように、すぐ近くの画像を曲げる)。
さらにもう1つの構成では、3つの看板に(同時に、又は順次に)タッチすることで、指定されたオブジェクトの他の画像を、フリッカー又はフォトシンスなど、画像アーカイブから取得することを伴う動作を開始する。(ユーザは、デバイス上のUIとインタラクトして、例えば「フリッカーからの他のピクセルデータで拡張する」など、ユーザの意図を明らかにしてもよい。)これらの他の画像は、キャプチャされた画像との姿勢の類似性(例えば、緯度/経度に加えて、向き)によって、又は他の方法(例えば、他のメタデータ対応、パターンマッチングなど)で識別されてもよい。より高い解像度の、又は、よりしっかりとした焦点の看板の画像が、これらの他のソースから処理されてもよい。これらの看板の抜粋を、適宜スケール及びレベルシフトし、次いで、ユーザによってキャプチャされた画像フレームにブレンド及びペーストし−おそらく、上記で詳述されたように処理することができる(例えば、中間物画像面に再マッピングする、別々に再マッピングする−おそらく、3つの異なる画像に、又は、再形成された看板の抜粋を合わせるように曲げられた合成写真に−など)。
直前に詳述された構成では、キャプチャされた画像内で見える影の解析により、デバイスが、シーンについてのある3D知識(例えば、オブジェクトの深度及び姿勢)を単一のフレームから得ることが可能となる。この知識は、上記で詳述された動作のいずれかに情報を与える助けとなりうる。
画像(又は抜粋)の再マッピングがOCRを支援可能であることと全く同じように、画像(又は抜粋)の再マッピングはまた、何の他の認識エージェント(複数可)が起動されるべきであるかの決定を支援することもできる。
画像内で2つの特徴(又はボーブル)をタップすることで、描かれたオブジェクト間の空間的関係を決定するための処理を開始することができる。NASCARレースのカメラビューでは、ボーブルは、異なるレースカーをオーバーレイし、それらの動きを追跡してもよい。隣り合っている車のためのボーブルをタップする(又は、描かれた車自体をタップする)ことによって、デバイスは、これらの車の各々の場所データを取得してもよい。これは、例えば、(カメラ光学系の詳細、及び、これらの車の本当のサイズを知り)これらの車の場所を、画像フレーム内のそれらのスケール及び位置から推定することによって、ビューアの視点から相対的に決定することができる。又は、デバイスは、車のリアルタイムのジオロケーションを追跡する1つ又は複数のウェブリソースにリンクすることができ、例えば、そこから、ユーザデバイスは、車間の間隔が8インチであり接近しつつあることをレポートすることができる。
(以前の例のように、この特定の動作は、ユーザが画面をタップするとき、いくつかの可能な動作のメニューから選択されてもよい。)
ボーブルを単にタップする代わりに、さらなる新機軸は、1つ又は複数のボーブルを画面上でドラッグすることに関する。これらのボーブルを互いの上に、又は、画面のある領域上にドラッグすることができ、それにより、ユーザは、所望のアクション又はクエリを知らせる。
いくつかの顔を有する画像において、ユーザは、対応するボーブルのうち2つを第3のボーブルの上にドラッグしてもよい。これは、例えば、示された人々がある社会的関係を有するという、グループ化動作を示してもよい。(この関係についてのさらなる詳細が、ユーザがテキスト入力を使用することによって、又は、発話されたテキストによって−音声認識を通じて−入力されてもよい。)ネットワークグラフの意味では、2人の個人を表すデータオブジェクト間で、リンクが確立される。この関係は、他のデバイス処理動作が、示された個人をどのように扱うかに対して、影響を与えることができる。
別法として、すべての3つのボーブルが、画像フレーム内の新しい場所にドラッグされてもよい。この新しい場所は、グループに関連付けられるべき−推論的に(例えば、コンテキスト)−、又は、ユーザ入力によって明示されるべき、動作又は属性を示すことができる。
特徴−プロキシボーブル(feature−proxy baubles)のもう1つのインタラクティブな使用は、画像の編集におけるものである。3つの顔、すなわち、2人の友達及び1人の他人を有する画像を考えられたい。ユーザは、この画像をオンラインリポジトリ(フェイスブック)に投稿することを望む場合があるが、最初に他人を除去することを望む場合がある。ボーブルを、この目的のために操作することができる。
アドビ(Adobe)フォトショップ(Photoshop)CS4は、スマートスケーリング(Smart Scaling)と呼ばれる機能を導入しており、この機能は、rsizr<dot>comなど、オンラインサイトから既に知られたものである。保存されるべきである画像のエリアが示され(例えば、マウスで描かれた境界ボックスによる)、他のエリア(例えば、余分な特徴を有する)が次いで縮小又は削除される。画像処理アルゴリズムは、保存されたエリアを不変のまま保ち、余分な特徴を以前に有した編集済み領域と組み合わせる。
本システムでは、画像のフレームを処理して、見極められた特徴に対応するボーブルを生成した後、ユーザは、ある特徴(例えば、他人)が削除されるべきであること、及び、2つの他の特徴(例えば、2人の友達)が保たれるべきであることを示す、一連のジェスチャーを実行することができる。例えば、ユーザは、望まれていないボーブルにタッチし、表示画面の下縁部まで指をスイープして、対応する視覚的特徴が画像から除去されるべきであることを示してもよい。(ボーブルは、指の後を追っても追わなくてもよい)。ユーザは次いで、友達ボーブルの各々をダブルタップして、それらのボーブルが保たれるべきであることを示してもよい。もう1つのジェスチャーは、メニューを呼び出し、そこから、ユーザは、編集ジェスチャーのすべてが入力されたことを示す。プロセッサは次いで、ユーザの命令に従って画像を編集する。「元に戻す」ジェスチャー(例えば、画面上の反時計回りの半円の指の跡)は、編集が満足の行かないものであると判明した場合にその編集を取り消すことができ、ユーザは別の編集を試みてもよい。(システムは、画面上のジェスチャー、例えば、指で「e」の文字をなぞることによって、又はメニューからの選択によって、又は他の方法で、編集ボーブルジェスチャーを受信するためのモードにされてもよい。)
一連のボーブルのタップの順序により、ユーザの意図についての情報をシステムに伝え、対応する処理を引き出すことができる。
新しい街にいる旅行者が、各々の名所(例えば、エッフェル塔、凱旋門、ルーブル美術館など)の写真が付いた、様々な関心点を紹介する看板を見ることを考えられたい。ユーザのデバイスは、これらの写真の一部又は全部を認識し、描かれた各名所に対応するボーブルを提示してもよい。特定の順序でこれらのボーブルにタッチすることで、タップされた順序で、タップされた名所までの歩き方を取得するように、デバイスに命令してもよい。又は、名所の各々についてのウィキペディアのエントリを取って来て、示された順序で提示するように、デバイスに行わせてもよい。
特徴−プロキシボーブルは、個々のオブジェクト又は画像特徴に関連付けられるので、−タップされるか、又はジェスチャーに含まれるとき−対応するオブジェクト/特徴に応じて、応答を有することができる。すなわち、ジェスチャーに対する応答は、含まれたボーブルに関連付けられたメタデータの相関的要素でありうる。
例えば、人に対応するボーブルをタップすることで、像又はレストランに対応するボーブルをタップすることとは異なる何かを示す(又は、入手可能な動作の異なるメニューを呼び出す)ことができる。(例えば、前者のタップは、その人の名前及び社会的なプロファイルの表示又は公表を、例えば、フェイスブックから引き出してもよく、2番目のタップは、その像又はその彫刻家についてのウィキペディア情報を呼び出してもよく、後者のタップは、レストランのメニュー、及び、任意の現在のプロモーションについての情報を生じてもよい。)同様に、2つ以上のボーブルのタップを含むジェスチャーはまた、タップされたボーブルが何を表すかによって決まる意味を有することもできる。
経時的に、異なるボーブルにわたって全体的に一貫しているジェスチャー語彙は、標準化されるようにしてもよい。1回タップすることで、例えば、ボーブルのタイプに対応する特定のタイプの紹介情報を呼び出してもよい(例えば、人に関連付けられたボーブルがタップされる場合は名前及びプロファイル、ビルに関連付けられたボーブルがタップされる場合はオフィスの住所及び案内表示、史跡のためのボーブルがタップされる場合はウィキペディアページ、小売用製品のためのボーブルがタップされる場合は製品情報など)。2回タップすることで、例えば、ここでもやはり対応するオブジェクト/特徴に合わせて調整された、最も頻繁に呼び出される4つの動作のハイライトメニューを呼び出してもよい。ボーブルへのタッチ、及び、その場所を指で揺り動かすことで、別の応答−スクロールバーが付いた、省略されてない選択肢のメニューの表示など−を開始してもよい。もう1回揺り動かすことで、このメニューを引っ込ませてもよい。
アーキテクチャについての注記
本明細書は、いくつかの特徴を詳述する。実装を特徴のサブセットで実現することはできるが、やや好ましさに欠ける。より乏しい特徴のセットより、より豊富な特徴のセットを実装する理由を、以下の考察で説明する。
例示的ソフトウェアフレームワークは、以下のように、様々なコンポーネントを使用して、スマートフォンで実行する視覚的ユーティリティアプリケーションをサポートする。
・1.画面は、リアルタイムで修正されたカメラ画像であり、画像の一部に付着することができ、且つ、一度に起こる(可能性のある)複数のアクションのための値表示及びコントロールポイントとしての機能を同時に果たすことができる、動的アイコン(ボーブル)によってオーバーレイされる。画面はまた、−ちょうどユーザの注目の焦点に合った−価値のある、収益化可能な広告スペース(グーグルの検索ページに類似したようなもの)でもある。
・2.デバイスのための多数のアプリケーションは、単なる「スナップショット」ではなく、カメラ画像のライブシーケンスを処理する。多くの場合、複雑な画像判断が必要とされるが、応答性は優先されたままである。
・3.実際のアプリケーションは通常、表示されたボーブル、及び、ディスプレイによって示された現在見える「シーン」に関連付けられるようになり−ユーザインタラクションがこれらのアプリケーションのすべてレベルの標準部分になることが可能になる。
・4.画像の基本セット−特徴抽出機能は、バックグラウンドで実行することができ、見えるシーンの特徴がアプリケーションにとって常に入手可能になることを可能にする。
・5.個々のアプリケーションは、システムリソースの「一人占め」を許可されないことが望ましく、その理由は、見えるシーン内の変化により多くの有用性が増減するようになるので、2つ以上のアプリケーションが一度にアクティブになることが多いからである。(これは一般に、アプリケーションを有用にするために十分活発に保つために、適切なディスパッチ機能によるマルチタスキングを必要とする。)
・6.アプリケーションを、シーンデータ又はユーザの要望を監視することができる比較的低負荷の機能により、複数の層で設計し、より集中的な機能が適切なときに呼び出されるようにすることができる。ディスパッチ構成は、このコード構造をサポートすることができる。
・7.多数のアプリケーションは、デバイス自体の実際の機能を超えた動作を行うために、クラウドベースの部分を含んでもよい。ここでもまた、ディスパッチ構成は、この機能をサポートすることができる。
・8.アプリケーションは、相互に有用であるデータの投稿及びアクセスを行うための方法(例えば、ブラックボード)を必要とすることが多い。
厳密でなく、順序付けされない形であるが、以下は、上記の態様を−単に個々に望ましいだけでなく−全体の一部にすることができる、相互関係のいくつかである。
・1.ライブシーンを参照するアプリケーションは一般に、すべての(又は、少なくとも多数の)フレームからの基本画像特徴の効率的な抽出に依拠するものであり−そのため、リアルタイムの特徴を入手可能にすることは、重要な考慮すべき点である(それにもかかわらず、あるアプリケーションでは、必要とされないことがある)。
・2.効率的なアプリケーション開発及びテストを可能にするため、並びに、様々な機能によりデバイス上のアプリケーションをサポートするために、オプションで、任意のアプリケーションのかなりの部分を「クラウド内」に入れるための能力は、ほぼ義務的となる。そのような機能から、多くの利益が生じる。
・3.多数のアプリケーションは、支援されていないソフトウェアの現在の機能を超える認識機能によって、利益を得るようになる。これらのアプリケーションは、ユーザとのインタラクションが有効であることを求めるようになる。さらに、モバイルデバイスは一般に、ユーザインタラクションを促し−GUIがこの要件をサポートする場合にのみ、一貫した、フレンドリーなインタラクションが可能となる。
・4.複雑なアプリケーションを、制限された柔軟性のないリソースを有するデバイス上でサポートするには、ソフトウェアアーキテクチャからの全面的なサポートが必要となる。PCスタイルのアプリケーションをこれらのデバイス上に押し込めることは、一般に、慎重な再設計をしない限り、満足の行くものではない。階層化ソフトウェアのマルチタスキングは、このデバイス制約のある環境内で魅力的なユーザ体験をもたらす重要なコンポーネントになりうる。
・5.画像情報を効率的な方法で複数のアプリケーションに提供することは、情報を一度だけ作り出すこと、及び、その情報を必要とするあらゆるアプリケーションによるその使用を可能にすることによって−情報アクセス及びキャッシングの非効率性を最小にする方法で−最良に行われる。「ブラックボード」データ構造は、この効率を達成する1つの方法である。
このように、詳述された技術の態様は個々に有用であるが、組み合わせると、それらの最高の効用を実現することができる。
さらに処理、使用モデル、コンパス及びセッションについて
上述のように、いくつかの実装は、フリーランニングベースで画像をキャプチャする。制限されたバッテリ電力が制約である場合(現在は通常そうであるように)、システムは、ある実施形態では、この継続する画像の流れを、高度に選択的なモード−デバイスの計算機能のかなりの部分(例えば、10%又は50%)を、めったにデータの解析に適用しない−で処理してもよい。その代わりに、システムは、低電力消費状態で動作し、例えば、著しい電力コストをかけずに動作を行い、及び/又は、(例えば、毎秒キャプチャされうる15、24又は30フレームのうち)毎秒又は毎分、少数のフレームのみを調べる。(A)最初の低レベルの処理が、画像内に描かれたオブジェクトを正確に認識することができる高い確率を示す、及び(B)コンテキストが、そのようなオブジェクトの認識がユーザに関連するであろう高い確率を示す場合にのみ、システムは、電力消費が増大される第2のモードにスロットルアップする。この第2のモードでは、電力消費は、第1のモードの電力消費の2倍を超えるか、又は、10、100、1000倍以上であってもよい。(示された確率は、特定の実装に応じて計算された数値スコアに基づくことができる。これらのスコア−成功するオブジェクト認識の、及び、ユーザとの関連性の−がそれぞれの閾値を超える場合にのみ、システムは第2のモードに切り替わる。)もちろん、ユーザが関心又は奨励を明示的又は暗示的に知らせる場合、若しくは、コンテキストが指図する場合もまた、システムは、第1のモードから出て第2のモードに切り替わることができる。
ある拡張現実(AR)アプリケーションのための新生の使用モデルで、例えば、ユーザがスマートフォンを外に出して、(例えば、所望のコーヒー店又は地下鉄の駅へナビゲートするために)変わりつつある表示に集中しながら、ある都市の街路を歩くと予期されるものは、賢明ではない。大変多くの代替物が好ましいように思われる。
1つは、ガイダンスを、イヤホン又はスピーカを通じて聞こえるように提供することである。発話されたガイダンスを提供するのではなく、より繊細な聴覚の手がかりを利用し−ユーザが、車のクラクション又は連れの話など、他の聴覚入力によりよく注意を払うことを可能にすることができる。1つの聴覚の手がかりは、ユーザが正しい方向に歩いており、所期の目的地に近付きつつあるかどうかを知らせるために、繰り返し率又は頻度が変化する、時々のトーン又はクリック音であってもよい。ユーザが交差点で誤って曲がろうとするか、又は、目的地へ向かうのではなく離れるように移動する場合、このパターンは、違いを示すような方法で変化することができる。1つの特定の構成は、ユーザが所期の目的地に向かって進行するにつれてより頻繁になり、ユーザが正しい方向から向きを変える場合に減少する、まばらなクリック音のパターンによる、ガイガーカウンタのような音響効果を用いる。(1つの特定の実施形態では、聴覚のフィードバックの音量が、ユーザの動きに従って変化する。ユーザが、例えば、信号機で立ち止まる場合、音量を大きくして−ユーザが異なる方向を向き、音声フィードバックによって、どの方向に進行するべきであるかを識別することを可能にしてもよい。ユーザが再び歩き出した後、ユーザがもう一度立ち止まるまで、音声の音量を小さくすることができる。音量又は他のユーザフィードバックの強度レベルは、このように、ユーザがナビゲーション方向に従って進行中であるときに下がり、ユーザが立ち止まるか、又は予期された進路からそれるときに上がることができる。)
動きは、加速度計出力による、GPS座標を変更することによる、カメラによって検知される景色を変更することによる、その他など、様々な方法で検出することができる。
聴覚フィードバックの代わりに、上記の構成は、振動性のフィードバックを代わりに用いることができる。
モバイルデバイスの磁力計を、これらの実装で使用して、方向を検知することができる。しかし、モバイルデバイスは、ユーザ及びユーザの前方移動の方向に対して、任意の方法で向きが調節されてもよい。磁力計は、北の方を向いているユーザのベルトに留められる場合、デバイスが−デバイスがベルト上でどのように向けられているかに応じて−北、又は南、又はいずれかの他の方向を向いていることを示してもよい。
この問題に取り組むため、デバイスは、ユーザが向いている方向を正確に示すように、磁力計出力に適用されるべき補正係数を見極めることができる。例えば、デバイスは、時々のGPS測定結果を参照することによって、それに沿ってユーザが移動中である方向ベクトルを検知することができる。10秒間に、ユーザのGPS座標の緯度が増しているが、経度は変わっていない場合、ユーザは−推定上、北寄りの方向を向いている間は−北へ移動している。デバイスは、この期間中の磁力計の出力に留意することができる。ユーザが明らかに北を向いていた間に、その磁力計が「東」を示していたような形でデバイスの向きが調節される場合、90度の補正係数を見極めることができる。その後、デバイスは、−そのような解析が、異なる補正が適用されるべきであると示すまで−ユーザが向いている方向を決定するために、磁力計によって示された方向から90度を減算することを知る。(そのような技術は幅広く適用可能であり−本明細書で詳述される特定の構成に限定されない。)
もちろん、そのような方法は、歩行のみではなく、自転車に乗ること、及び、他の形態の移動手段にも適用可能である。
詳述された構成は、画像がキャプチャされるときに解析されること、及び、そのキャプチャがユーザデバイスによって行われることを仮定したが、いずれも必須ではない。同じ処理が、以前に、及び/又は、他のところでキャプチャされた画像(又は音声)で行われてもよい。例えば、ユーザのデバイスは、1時間又は1週間前に、例えば、市の駐車場にある公共のカメラによって、キャプチャされた画像を処理してもよい。他の画像のソースには、フリッカー及び他のそのような公共の画像リポジトリ、ユーチューブ及び他のビデオサイト、公共のウェブをクローリングすることによって収集された画像などが含まれる。
多くの人々は、ボイスメールを、テキストに書き換えられた形式で見直すこと−長々と話す人のあらゆる発声を聞くよりも、関連のあるコンテンツを求めてざっと読むこと−を好む。同様に、視覚的な画像のシーケンスに基づいた結果を、多くのユーザによって、そのシーケンスをキャプチャするために要した時間よりも速く見直し、把握することができる。
市街地のブロックを歩いていくユーザが着用するヘッドウェアに搭載されたカメラを組み込んでいる、次世代モバイルデバイスを考えられたい。そのブロックの範囲中に、カメラシステムは、20秒以上のビデオを収集することができる。オーバーレイされたAR提示が画像に基づいて結果を与えるのを(歩行中に)見て気が散るのではなく、ユーザは、素早く身をかわして歩行者及び障害物を避けるという目前のタスクに集中することができる。その間に、システムは、キャプチャされた画像を解析し、結果情報を後に見直すために格納することができる。(又は、歩行中に画像をキャプチャする代わりに、ユーザが立ち止まり、カメラ付きスマートフォンをスイープして、画像のパノラマをキャプチャし、次いで、電話を小袋又はハンドバッグにしまってもよい。)
(結果情報は、任意の形式であってもよく、例えば、画像内のオブジェクトの識別、そのようなオブジェクトに関して取得された音声/ビデオ/テキスト情報、視覚刺激に応答して取られた他のアクションについてのデータなどがある。)
都合のよい瞬間に、ユーザは、スマートフォンの画面をちらりと見て(又は、アイウェアのヘッドアップディスプレイをアクティベートして)、キャプチャされたフレームのシーケンスに基づいて出た結果を見直すことができる。このような見直しは、応答情報のみの提示を伴うことができ、及び/又は、それぞれの応答が基づいた、キャプチャされた画像を含むことができる。(応答がオブジェクトに基づく場合、オブジェクトは、シーケンスのいくつかのフレームに現れうる。しかし、応答は、これらのフレームのうち1つに対して提示されるだけでよい。)結果の見直しは、デバイスによって、標準化された提示で指図することができ、又は、ユーザによって指図することができる。後者の場合、ユーザは、UIコントロールを用いて、結果データ(画像データと関連して提示されても、そうでなくてもよい)内をナビゲートすることができる。1つのUIは、アップルのアイフォンファミリによって普及した、よく知られているタッチインタフェースである。例えば、ユーザは、シーン(例えば、1秒若しくは5秒、又は、数分、別々にキャプチャされたフレーム)のシーケンス内でスイープすることができ、各シーンは、追加の情報を提示するためにタップすることができる、オーバーレイされたボーブルを有する。もう1つのナビゲーションコントロールは、グラフィカル又は物理的なシャトルコントロール−アドビプレミア(Adobe Premier)など、ビデオ編集製品からよく知られている−であり−ユーザが画像及び/又は応答のシーケンスの早送り、停止又は逆戻しをすることを可能にする。
このような構成では、視覚情報がビデオの形式で収集されたが、ユーザは、静的シーンの形式で情報を見直すことが最も情報量が多い、と気付くことがある。これらの静的フレームは一般に、ユーザによって選択されるが、デバイスによって事前フィルタリングして、例えば、低品質である(例えば、ぼやけているか、又は、前景にある障害物によって遮られているか、又は、多くの情報内容を有していない)フレームを省いてもよい。
デバイスにより取得された応答のナビゲーションは、(例えば、各画像フレーム又は各応答を表示しながら)シーケンス全体をトラバースする必要はない。いくつかのモダリティは、情報内で前方にスキップし、例えば、毎秒フレーム、又は10フレーム毎、又は、ある他のフレームカウント又は時間の間隔に対応させられた応答(及び/又は画像)のみを提示してもよい。又は、見直しは、顕著な点、又は内容に基づいて、前方にスキップすることができる。例えば、いかなる識別された特徴又は対応する応答もないシーケンスの部分は、完全にスキップされてもよい。1つ又は少数の識別された特徴(又は他の応答データ)を有する画像は、短い間隔で提示されてもよい。多数の識別された特徴(又は他の応答データ)を有する画像は、より長い間隔で提示されてもよい。ユーザインタフェースは、例えば、キャプチャに30秒を要したシーケンスを、10秒、又は20秒、又は30秒、又は60秒などで見直すことができるように、ユーザが見直しの全体のペースを設定することができる、コントロールを提示してもよい。ユーザインタフェースはまた、ユーザが任意の見直しを停止して、さらなる検討又はインタラクションを可能にし、又は、特定の描かれた特徴についてさらなる解析及びレポートをするようにデバイスに要求することができる、コントロールを提供することもできる。応答情報は、画像がキャプチャされた順序に対応する順序、若しくは逆の順序(最新のものを最初にする)で見直されてもよく、又は、評価された、ユーザとの関連性に基づいて、又は、ある他の時間的順序ではない方法で順序付けすることができる。
そのようなインタラクション及び解析は、セッションベースの構成物を用いていると見なされてもよい。ユーザは、画像シーケンスの最中で見直しを開始し、前方又は後方に、継続的に、又は飛び回るようにトラバースすることができる。そのようなセッション構成の利点の1つは、結果をリアルタイムで見ることとは対照的に、後に獲得される画像が、以前に獲得された画像の理解に情報を与える助けとなりうることである。一例を挙げると、ある人の顔がフレーム10で明らかにされる(且つ、顔認識技術を用いて認識される)ことがあるのに対して、その人の後頭部のみがフレーム5に示されうる。それにもかかわらず、この画像を1つの集まりとして解析することによって、その人にフレーム5で正しくラベルを付けることができ、フレーム5のシーンの他の理解は、そのような知識に基づくことができる。対照的に、シーン解析が全く現在及び先行のフレームのみに基づく場合、その人はフレーム5で匿名となる。
さらに視覚的動作及び関連する観念について
紙幣の単位名の確認など、専門タスクでは、本来の性質は、行われなければならない高レベルのタスクに集中し、次いで増分的に「下に」下がって、サブタスク、及び、そのタスクを行うためにアクティベートされるようになるリソースを検討することである。ある意味では、それはまさに進むべき正しい方法であり、別の意味では、単に後ろ向きである。
計算モデルが、最も時間又はコスト効果的となりうるどのようなプロバイダに対しても、タスクを「オークションに出す」ことに集中する限り、それは適切なモデルである。ユーザが米国の紙幣を認識することを望み、そのニーズを満たす外部入札者が発見される場合、ローカルソフトウェアは、その入札者が要求する機能のみを必要とすることがある。
計算モデルが、あるタスクが常にローカルで行われることが可能であることに集中する限り、すべてのコンポーネント機能性がローカルデバイス内に存在する必要があり−そのことはニーズの完全解析を意味し、ニーズの完全解析は、多分、ボトムアップ解析によってトップダウンの思考に従って最良に行われうる。例えば、アプリケーションが、紙幣の特定の解像度及び適用範囲を有する画像を必要とする場合、デバイスが提供するべきである「画像獲得」機能について、それは何の機能を示唆するのか?
一般に、トップダウンの思考は、デバイスについてのいくつかの大変具体的な低レベルの特徴及び機能をもたらす。その時点で、少々ブレーンストーミングをすることは有用である。これ以上有用な何の特徴又は機能を、これらは示唆するか?そのような一般に有用な項目のリストがまとめられた後、次いで、どのようにそれらの項目を表すか、及び、(一部では)それらのメモリ要件をどのように最小化するかについて、検討を行うことができる。
余談として、Unixは長い間、中間ストレージを最小化することができる「フィルタチェーン」を使用してきた。変換のシーケンスが必要とされる場合、カスケード可能な「フィルタ」がステップ毎に設けられる。例えば、変換A−>Bが実際には、A|opl|op2|op3>Bというシーケンスであると仮定する。各ステップがある項目を同じか又は類似のサイズの新しい項目に取り込み、Aがそれでも最後には入手可能になると仮定すると、メモリ要件は、サイズ(A)+サイズ(B)+2バッファであり、各バッファは典型的には、全オブジェクトサイズよりはるかに小さく、動作が完了するとき、割り振り解除される。複雑な局所変換を、例えば、このように少数の大変単純な局所演算を組み合わせることによって得ることができる。
少なくともいくつかのアプリケーションは当然、短い画像シーケンスを入力として、考えられる。システム設計は、短い、おそらく固定長(例えば、3若しくは4、又は40フレーム)の画像シーケンスバッファを設けることによって、この考えをサポートすることができ、このバッファは、あらゆる画像獲得動作のための行き先である。様々なアプリケーション要件を、このバッファへの様々な書き込み方法を提供することによってサポートすることができ、すなわち、1つ又は複数の新しい画像がFIFO挿入される、1つ又は複数の新しい画像がフィルタを介して結合され(最小、最大、平均、...)、次いでFIFO挿入される、1つ又は複数の新しい画像がフィルタを介して、対応する現在のバッファ要素と結合され、次いで挿入される、などである。
ある画像シーケンスが、特定の方法で満たされた固定サイズのバッファによって表される場合、画像をシーケンスから抽出することは、画像をそのバッファから抽出することに置き換えられるようになる。そのような各抽出は、画像のセットをバッファから選択し、フィルタを介して結合して、抽出された画像を形成することができる。抽出の後、バッファは不変であることがあり、1つ又は複数の画像が除去されていることがあり、又は、それらの画像のいくつかが基本画像動作によって更新されうる。
パターン認識で一般に使用される画像の、少なくとも3つのタイプのサブ領域がある。最も一般的であるのは、通常は点又は行の断片のリストとしての、幾何学的関係が損なわれていない、単なる抽出された点のセットである。次は、おそらく、連続する行の断片のリストとしての、画像の接続された領域である。最後は、おそらく、画像内のピクセル値の配列及びオフセットとしての、長方形のサブ画像である。
サポートするべきこれらの特徴タイプのうち1つ又は複数を決めると、表現を効率又は一般性のために選択することができ−例えば、画像上の任意のところに位置する「1−d」曲線は、単にピクセルのシーケンスであり、よって、あるタイプのブロブである。したがって、双方が同じ表現、及び、よって、全く同じサポート機能(メモリ管理など)を使用することができる。
表現が選択された後、任意のブロブ「抽出」は、単一の2ステップ動作である可能性がある。第1に、ブロブ「本体」を定義し、第2に、ピクセル値を画像からそれらの対応するブロブの場所にコピーする。(これは「フィルタ」動作であってもよく、結果として画像をもたらし、並びに静的画像に適用可能となるフィルタ動作の任意のシーケンスに従ってもよい。)
画像であっても、処理のための「オークション」処理は、内部フォーマットから適切な外部フォーマットへ、且つ、適切な外部フォーマットから変換するために使用可能な動作を有することを含むことができる。ブロブ及び他の特徴では、かなり様々なフォーマット変換がサポートされる可能性がある。
画像処理又はコンピュータビジョンパッケージの「通常」の考察から少々外れて、詳述された構成で実行されうるアプリケーションの性質、及び、含まれる(典型的でない)制約及び自由に戻ることは、おそらく有用である。
例えば、いくつかのタスクは、直接のユーザアクションによって「トリガされる」ようになるが、他のタスクは、適切なとき、単に開始され、それら自体をトリガすると予想されうる。すなわち、ユーザは、スマートフォンを駐車場に向けて、「自分の車を発見する」アプリケーションをトリガするかもしれず、そのアプリケーションは、画像のスナップ写真を撮り、それを解析しようと試みることになる。それどころか、ユーザはそのアプリケーションをトリガすることを好み、次いで、車が識別されたことをデバイスが知らせるまで、カメラを周囲にパンしながら、駐車場内を歩き回るだろう。ディスプレイは次いで、ユーザの現在地からキャプチャされた、車がハイライトされた画像を提示してもよい。
このようなアプリケーションは普及するかもしれないし、そうでないかもしれないが、多くのものは、画像が獲得され、サンプリングされ、可能性が高いターゲットの存在について調べられ、そのターゲットの検出が「実際」のアプリケーションをトリガするようになり、そのアプリケーションがより多くの計算能力を候補画像に注ぐようになるという、処理ループを含むようになる可能性が高い。処理は、成功したとアプリケーション及びユーザが同意するまで継続するようになり、又は、明らかに成功しないことで、ユーザにその処理を終了させる。望ましくは、「仮検出」ループがカメラのみで実行可能であり、いかなる外部リソースも、有用であるかもしれないと期待する理由があったときにのみ呼び込まれるようにするべきである。
もう1つのタイプのアプリケーションは、オブジェクト追跡用であるだろう。ここでは、既知のタイプのオブジェクトが(方法を問わず)位置指定されると、画像の連続がその後に獲得され、アプリケーションが終了されるか又はオブジェクトが失われるまで、そのオブジェクトの新しい場所が決定され、示される。この場合、アプリケーションは、外部リソースを使用して、オブジェクトを最初に位置指定するかもしれず、それらのリソースを使用して、既知の検出パターンを、検出されていた特定のインスタンスに特化させるようになる可能性が大変高いが、新しいパターンインスタンスを使用する次の「追跡」アプリケーションは、電話上で支援を受けずに実行することが望ましい。(おそらく、このようなアプリケーションは、遊び場で子供の世話をする際の支援となる。)
いくつかのアプリケーションでは、パターン認識タスクがかなり粗雑である−おそらく、フレームのシーケンス内の青のパッチ(例えば、セーター)を追跡する−ことがあるが、他のアプリケーションでは、例えば、紙幣の認証など、大変高度であるかもしれない。上記の2つのように、かなり少数の制御ループは、非常に多数の単純なアプリケーションには十分となる可能性が高い。これらのアプリケーションは、抽出される特徴、用いられるパターンマッチング技術、及び、頼りにされる外部リソース(もしあれば)の性質が異なるようになる。
上記のように、少なくとも少数のパターン認識アプリケーションは、基本モバイルデバイス上で、ネイティブで実行することができる。すべてのパターン認識方法が、そのような制限されたプラットフォームにとって適切になるとは限らない。可能なものには、特に、大変小さいテンプレート、又は、大変小さい要素を用いる合成テンプレートによる、単純なテンプレートマッチングと、検出されたパラメータのための適度な解像度要件による、ハフスタイルのマッチングと、ニューラルネット検出とが含まれるであろう。ネットをトレーニングするには、多分、外部リソースが必要となるが、特に、DSP又はグラフィックスチップを用いることができる場合、その適用をローカルに行うことができることに留意されたい。大きいデータベースルックアップを用いるか、又は、計算集中的過ぎる任意の検出技術(例えば、N空間最近傍(N−space nearest−neighbor))、は、多分、外部リソースを使用して最良に行われる。
いくつかのパターン認識方法の実用性は、アプリケーションの要求で浮動小数点演算を行う、プラットフォームの能力によって決まることに留意されたい。
このことは、自由及び制約につながる。自由には、すぐ近くの通信デバイス上にあるか、クラウド内にある(例えば、インターネットオークションの結果生じる)かにかかわらず、オフデバイスリソースをタスクが使用する能力が含まれうる。これらにより、デバイス上で実行することが「どうしてもできなかった」アプリケーションが、そのように実行するように見えることを可能にすることができる。
制約には、プラットフォームによって課されるものが含まれ、すなわち、制限されたCPUパワー、制限された使用可能メモリ、及び、例えば、通話が行われている間に時々、比較的低い優先順位のタスクとして進行する必要があることである。後者の制限は、使用可能なメモリが制限されるかもしれないだけでなく、時々減らされるかもしれず、次いで、より多くのメモリが再度使用可能にされるかもしれないことを意味する場合がある。
速度もまた制約であり−一般に、メモリとの緊張関係にある。迅速な応答への要望は、平凡なアプリケーションであってもメモリ上限に反して押し上げるかもしれない。
特徴表現の点から、メモリ制限は、値の明示的配列(可能なパラメータの数に比例するメモリ要件)よりもむしろ、要素の順序付きリスト(エントリの数に比例するメモリ要件)の維持を奨励することがある。動作シーケンスは、全中間画像ではなく、最小限のバッファ(上述のように))を使用するかもしれない。画像の長いシーケンスは、1つ又は複数の平均された結果と共に、短い実際のシーケンスによって、「フェイク」されるかもしれない。
キャニーエッジ演算子など、いくつかの「標準」のイメージング機能は、一般的な使用にとってはリソース集中的過ぎることがある。しかし、同じことが、FFT処理−スマートフォンのアプリケーションがますます用いている動作−について言えたかもしれない。
この関連において、以下の概要は、ローカルデバイスのレパートリーに含まれうる動作のクラスを詳述する。
・1.タスク関連動作
・・A.画像関連
・・・i.画像シーケンス動作
・・・・a)画像をシーケンスから抽出する
・・・・b)画像をシーケンス範囲から生成する
・・・・c)特徴又はROIをシーケンス内で追跡する
・・・ii.画像変換
・・・・a)点別再マッピング
・・・・b)アフィン変換
・・・・c)局所演算:例えばエッジ、局所平均、...
・・・・d)FFT又は関連
・・・iii.画像からの視覚的特徴抽出
・・・・a)2D特徴
・・・・b)1D特徴
・・・・c)3Dのような特徴
・・・・d)完全画像−>ROIのリスト
・・・・e)非局所特徴(色ヒストグラム、...)
・・・・f)スケール、回転不変量強度特徴(rotation−invariant intensity features)
・・・iv.特徴操作
・・・・a)2D特徴からの2D特徴
・・・・b)1D−1Dなど
・・・・c)2D特徴からの1D特徴
・・・v.UI−画像フィードバック(例えば、画像上でタグ関連シンボルをオーバーレイする)
・・B.パターン認識
・・・i.特徴セットのセットからパターンを抽出する
・・・ii.シーケンス、画像又は特徴セットをタグに関連付ける
・・・iii.タグ又はタグセットを特徴セットから「認識する」
・・・iv.合成又は複雑なタグを、「認識された」タグのより単純なセットから「認識する」。
・・C.アプリケーション関連通信
・・・i.システム状態から必要な機能のリストを抽出する
・・・ii.入札の要求をブロードキャストする−応答を収集する
・・・iii.抜き出されたデータを送信し、アウトソース結果を受信する
・II.アクション関連動作(多くは既に基本システムアクション内で存在するようになる)
・・・i.システム機能をアクティベート/アクティベート解除する
・・・ii.システムメッセージを作成/消費する
・・・iii.システム状態を検出する
・・・iv.システムを新しい状態へ移行する
・・・v.保留中、アクティブ及び完了済みアクションのキューを維持する
リンクトデータ
本技術の別の態様によれば、データ及びリソースのウェブ2.0の概念(例えば、リンクトデータに関連する)が、有形のオブジェクト及び/又は関連キーベクトルデータ、並びに、関連付けられた情報と共に使用される。
リンクトデータは、Sir Tim Berners Leeによって奨励された、ウェブ上で参照解除可能なURIを介してデータをエクスポーズ、共有及び接続するための構成を指す。(例えば、T.B.Lee、Linked Data、www<dot>w3<dot>org/DesignIssues/LinkedData.htmlを参照。)
要するに、URIが使用されて、有形のオブジェクト及び関連付けられたデータオブジェクトが識別される。HTTP URIは、人々及びユーザエージェントによってこれらのオブジェクトを参照し、ルックアップ(「参照解除」)することができるように、使用される。ある有形のオブジェクトが参照解除されるとき、その有形のオブジェクトについての有用な情報(例えば、構造化されたメタデータ)が提供される。この有用な情報は、−他の関連情報及び有形のオブジェクトの発見を改善するために−他の関連URIへのリンクを含むことが望ましい。
RDF(リソース記述フレームワーク)は一般に、リソースについての情報を表現するために使用される。RDFは、リソース(例えば、有形のオブジェクト)を、主語、述語及び目的語からなる、いくつかのトリプルとして記述する。これらのトリプルは、時として、アサーションと呼ばれる。
トリプルの主語は、記述されたリソースを識別するURIである。述語は、どのような種類の関係が主語と目的語の間に存在するかを示す。述語もまた、典型的にはURIであり−特定のドメインに関する標準化された語彙から引き出されるものである。目的語は、リテラル値(例えば、名前又は形容詞)であってもよく、又は、主語に何らかの形で関係付けられる別のリソースのURIであってもよい。
異なる知識表現言語を使用して、有形のオブジェクト及び関連付けられたデータに関するオントロジーを明示することができる。ウェブオントロジー言語(OWL)はその1つであり、RDFスキーマとの互換性を提供するセマンティックモデルを使用する。SPARQLは、RDF表現と共に使用するためのクエリ言語であり−クエリが、連言、選言、及びオプションのパターンと共に、トリプルパターンからなることを可能にする。
本技術のこの態様によれば、モバイルデバイスによってキャプチャされ、作り出されたデータの項目には、一意及び永続的な識別子がそれぞれ割り当てられる。これらのデータには、基本のキーベクトル、セグメント化された形状、認識されたオブジェクト、これらの項目について取得された情報などが含まれる。これらのデータの各々は、クラウドベースのレジストリシステムに記録され、このレジストリシステムはまた、関連するルーティング機能をもサポートする。(データオブジェクト自体もまた、長期の格納のためにクラウドへプッシュされてもよい。)データに関する関連アサーションは、モバイルデバイスからレジストリへ提供される。したがって、ローカルデバイスに知られている各データオブジェクトは、クラウド内のデータを介してインスタンス化される。
ユーザは、画像をキャプチャしながら、カメラをスイープしてもよい。そのようなアクションを通じて集められ、処理され、及び/又は識別されたすべてのオブジェクト(及び関連データ)は、識別子が割り当てられ、クラウド内で存続する。1日又は1年後、別のユーザがそのようなオブジェクトに対して、(例えば、ある木がホワイトオークである、など)アサーションを作成することができる。カメラが特定の場所を、特定の時間に素早く見ることであっても、クラウド内で無期限にメモリアライズ(memorialized)される。そのようなコンテンツは、この基本のクラウドベースの形式において、協調のために組織化する構成物となりうる。
データの命名は、クラウドベースのシステムによって割り当てることができる。(クラウドベースのシステムは、割り当てられた名前を発信側のモバイルデバイスに戻すようにレポートすることができる。)モバイルデバイスに知られているようなデータを識別する情報(例えば、上述のクランプID又はUID)をクラウドベースのレジストリに提供することができ、そのデータについての別のアサーションとして、クラウド内でメモリアライズすることができる。
クラウドベースのレジストリによって維持されたデータの部分ビューには、以下が含まれうる。
このように、この態様では、モバイルデバイスは、クラウドベースのレジストリが複数のソフトウェアオブジェクト(例えばRDFトリプル)を、モバイルデバイスが処理するデータの項目毎に、及び/又は、そのカメラの視野内で発見された物理的オブジェクト又は特徴毎に、インスタンス化することを可能にするデータを提供する。大変多くのアサーションを、各々について作成することができる(私はキャニーデータである、私はある場所及び時間でキャプチャされた画像に基づいている、私は、緯度X、経度/Yから北を見ると見える、質感の高い青いオブジェクトである、など)。
重要なことには、これらの属性を、他のデバイスによって投稿されたデータとリンクさせることができ−ユーザのデバイスによって、入手可能な画像データ及びコンテキストのみから見極めることができない、新しい情報の獲得及び発見を可能にする。
例えば、ジョンの電話は、ある形状をビルとして認識するが、その街路アドレスを見極めること、又はそのテナントを知ることができないことがある。ジェーンは、しかし、そのビルで働いていることがある。彼女の特定のコンテキスト及び履歴のため、彼女の電話がビル関連画像データに関連してレジストリに以前に提供した情報においては、そのビルの住所及びいくつかのテナントについての情報を含む、そのビルについての情報がより豊富であることがある。ジオロケーション情報及び形状情報における類似性によって、ジェーンの電話がそれについて情報を提供したビルを、ジョンの電話がそれについて情報を提供した同じビルである可能性が高いものとして識別することができる。(新しいアサーションをクラウドレジストリに追加して、ジェーンのビルのアサーションをジョンのものに明示的に関係付けることができ、逆もまた同様である。)ジョンの電話がレジストリに対して、そうするように要求した場合(且つ、関連のあるプライバシー保護手段が許可する場合)、レジストリは、ジョンの電話に、ジェーンの電話によって提供されたそのビルについてのアサーションを送信することができる。ここで作用している、根底にある機構は、仲介されたクラウドソーシングであると見なすことができ、アサーションは、参加者も同意するポリシー及びビジネスルールフレームワーク内で作成される。
関連付けられたアサーションの豊富なセットを有する場所(例えば、場所によって、且つ、オプションで時間によっても決定される)は、新しい発見体験をもたらす。モバイルデバイスは、GPS場所及び現在時間など、単純なアサーションを、リンクトデータ又は他のデータリポジトリ内で検索又は発見体験を開始するためのエントリポイントとして、提供することができる。
また、クラウド内のアサーションのアクセス又はナビゲーションに、モバイルデバイス上のセンサによって影響を与えることができることにも留意されたい。例えば、ジョンは、GPS又は他のセンサによって決定されるような、そのビルとの特定の近接内(例えば、10m、30m、100m、300mなど)にいる場合にのみ、そのビルに関するジェーンのアサーションにリンクすることを許可されてもよい。この許可は、ジョンが静止しているか、又は、GPS、加速度計若しくは他のセンサによって決定されるような歩く速度(例えば、毎分100フィート若しくは300フィート未満)で移動中である必要がある場合に、さらに限定されてもよい。モバイルデバイス内のセンサからのデータに基づくそのような制限は、望まれていないか、又はより関連性の少ないアサーション(例えば、広告など、スパム)を減らし、データのリモート又はドライブバイ(又はフライバイ)マイニングに対する、あるセキュリティを提供することができる。(様々な構成を用いて、GPS又は他のセンサデータのスプーフィングと戦うことができる。)
同様に、2人の関係者が、ジオロケーション、時間、ソーシャルネットワークのつながりなどにおける近接など、ある特色を共有するときにのみ、クラウド内に格納されたアサーションがアクセスされてもよい(又は、対象についての新しいアサーションが作成されてもよい)。(後者は、ジョンが、例えば友達として、ジェーンに社会的にリンクされることを示す、フェイスブック又はリンクトインなど、ソーシャルネットワークデータストアを参照することによって、示すことができる。)ジオロケーション及び時間のそのような使用は、社会慣習に近似し、すなわち、人々の大きいグループが集まるとき、発生する自然発生的なインタラクションは価値のある可能性があり、その理由は、そのグループのメンバが共通の関心、特色などを有する高い見込みがあるからである。アサーションにアクセスし、それを投稿するための能力、及び、他者の存在に基づいて新しい発見体験を可能にすることは、このモデルの結果として生じる。
場所は、画像データのセットが関連付けられる、よくある手がかりである。他の手がかりもまた、使用することができる。
ゾウの調査員を考えられたい。知られているゾウ(例えば、自然保護区域内にいる)には、一般に名前が付けられ、顔の特徴(傷跡、しわ及びきばを含む)によって識別される。調査員のスマートフォンは、あるゾウについての顔の特徴ベクトルを大学データベースに提出してもよく、大学データベースは、顔のベクトルをゾウの名前に関連付けるために存在する。しかし、そのような顔のベクトル情報がクラウドベースのレジストリに提出されるとき、より大量の情報が明らかにされ、例えば、以前の目撃の日付及び場所、そのゾウを見たことがある他の調査員の名前などである。ここでもまた、データセット間の対応が見極められた後、さらなるアサーションをレジストリに追加することによって、この事実をメモリアライズすることができる。
モバイルデバイスのカメラ、マイクロフォン及び他のセンサによって検知された刺激についてのアサーションの、このようなクラウドベースのリポジトリは、特に他のリンクトデータシステム(そのうちの少数は、linkeddata<dot>orgに詳述されている)内の情報と関係付けられるとき、グローバルに有用な情報の莫大なストアを迅速に備えることができることは理解されよう。格納されたアサーションによって明示された理解は、部分的に、そのデバイスがそのような情報に寄与する個々のユーザのプロファイル及び履歴を反映するので、知識ベースは特に豊富である。(ウェブのグーグルのインデックスは、比較すると小さく見えることがある。)
(有形のオブジェクトの識別に関連して、潜在的に有用な語彙は、AKT(高度知識技術(Advanced Knowledge Technologies))オントロジーである。AKTは、そのトップレベルにクラス「Thing(物)」を有し、その下に2つのサブクラスである「Tangible−Thing(有形物)」及び「Intangible−Thing(無形物)」がある。「Tangible−Thing」には、ソフトウェアから亜原子粒子まで、現実及び想像上のあらゆるものが含まれる(例えば、ミッキーマウス(Mickey Mouse)の車)。「Tangible−Thing」は、「Location(場所)」、「Geographical−Region(地理的領域)」、「Person(人)」、「Transportation−Device(移動手段デバイス)」、及び、「Information−Bearing−Object(情報を伝えるオブジェクト)」を含む、サブクラスを有する。この語彙を拡張して、本技術に関連して遭遇されると予期されるオブジェクトについての識別を提供することができる。)
拡張空間
本技術の1つの応用例は、夜空に関する(現実の、又は人工的な)画像上に情報を提示する機能である。
ユーザは、スマートフォンを空の特定の点に向け、画像をキャプチャすることがある。小型のハンドヘルドイメージングデバイスで星の光をキャプチャすることは困難であるため、この画像は、それ自体では画面上の提示のために使用することはできない。しかし、ジオロケーション、磁力計及び加速度計データをサンプリングして、ユーザがそこからカメラを向けた場所、及び、カメラを向けた向きを示すことができる。グーグルスカイ(Google Sky)プロジェクト(グーグルアース(Google Earth)インタフェースを通じて使用可能)など、夜空のデータベースを調べて、キーのその部分に対応するデータを取得することができる。スマートフォンプロセッサは次いで、このデータを、例えば、グーグルサービスから直接、画面上で再生することができる。又は、スマートフォンプロセッサは、アイコン、ボーブル又は他のグラフィカルなしるしを、空の向けられた部分にある星の位置に対応する、画面上の場所にオーバーレイすることができる。ギリシャ(及び/又は、インド、中国など)の星座を示す線を、画面上に描画することができる。
星自体は、カメラによってキャプチャされた画像内では見えないことがあるが、他の局所特徴は、はっきりと見えることがある(木、家など)。星及び星座データ(アイコン、線、名前)をこの実画像の上に表示し−見える周囲に対して星がどこに位置するかを示すことができる。このようなアプリケーションはまた、例えば、ユーザが(星の位置が対応する)表示されるビューイング時間を前方又は後方に変更することを可能にするスライダコントロールにより、はっきりと見える星の弧を通じて、星を動かすことなどの提供を含むこともある。ユーザはしたがって、北極星が今晩の特定の時間に、特定の木の後ろから上ることを発見することができる。
他のコメント
本明細書は、譲受人の以前の特許出願との関係を以前に述べたが、繰り返しを有する。これらの開示は同時に読まれ、全体として解釈されるべきである。出願人は、各開示における特徴が他の開示における特徴と組み合わせられることを意図する。したがって、例えば、本明細書に記載された構成及び詳細を、米国特許出願公開第2010/0119208号及び第2010/0205628号に記載されたシステム及び方法の異なる実装において使用することができるが、これらの特許出願の構成及び詳細を、本明細書に記載されたシステム及び方法の異なる実装において使用することができる。他の記載された文書についても同様である。したがって、本出願において開示された方法、要素及び概念は、これらの関連出願において詳述された方法、要素及び概念と組み合わせられることを理解されたい。いくつかは本明細書で特に詳述されたが、−並べ換え及び組み合わせが多数であるため−多くは詳述されていない。しかし、すべてのそのような組み合わせの実装は、提供された教示から、当業者には容易である。
例示的特徴及び例を参照して、我々の発明の研究の原理を記載し、例示したが、本技術はそのように限定されないことは理解されよう。
例えば、スマートフォンなど、モバイルデバイスが参照されたが、本技術は、あらゆる種類のデバイス−ポータブル及び固定の双方−での効用を見出すことは理解されよう。PDA、オーガナイザ、ポータブル音楽プレイヤ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ネットブック、ウルトラポータブル、ウェアラブルコンピュータ、サーバなどはすべて、本明細書で詳述された原理を使用することができる。特に企図されたスマートフォンには、アップルのアイフォン、及び、グーグルのアンドロイド仕様に従うスマートフォン(例えば、HTC Corp.によってT−モバイル(T−Mobile)用に製造されたG1電話、モトローラドロイド(Motorola Droid)電話、及び、グーグルネクサス(Google Nexus)電話)が含まれる。「スマートフォン」(又は「携帯電話」)という用語は、厳密に言えばセルラーでも電話でもないものであっても、すべてのこのようなデバイスを包含するように解釈されるべきである。
(そのタッチインタフェースを含む、アイフォンの詳細は、アップルの米国特許出願公開第2008/0174570号において提供されている。)
同様に、本技術をまた、拡張現実(AR)メガネなど、顔に着用する装置を使用して実装することもできる。そのようなメガネは、−ユーザの前のシーン上にオーバーレイされるか、又は、そのシーンをブロックする−コンピュータ情報をユーザによって見ることができる表示技術を含む。仮想現実ゴーグルは、そのような装置の一例である。例示的技術は、米国特許第7397607号及び米国特許出願公開第2005/0195128号に詳述されている。市販用に提供された物には、Vuzix iWear VR920、Naturalpoint Trackir 5、及び、ezGearによるezVision X4ビデオグラス(Video Glasses)が含まれる。来たるべき代替物は、ARコンタクトレンズである。そのような技術は、例えば、米国特許出願公開第20090189830号、及び、Parviz、Augmented Reality in a Contact Lens、IEEE Spectrum、2009年9月において詳述されている。一部又は全部のそのようなデバイスは、例えば、無線で、(ユーザによって、又は他の方法で携行された)他のコンピューティングデバイスと通信してもよく、又は、内蔵された処理機能を含むことができる。同様に、一部又は全部のそのようなデバイスは、既存のスマートフォン及び特許文献から知られている他の機能を組み込んでもよく、これらの機能には、電子コンパス、加速度計、カメラ(複数可)、プロジェクタ(複数可)、GPSなどが含まれる。
詳述された技術は、ボーブルを頻繁に参照したが、他のグラフィカルアイコン−詳述された構成では必ずしもボーブルの目的を果たすとは限らない−を、例えば、ユーザインタフェースに関連して用いることができる。
本明細書は、冗長コントロール、スコアリング構成、その他など、ユーザの画面上に配置されたボーブルを制限するための様々な構成を詳述した。いくつかの実施形態では、非プログラマブルな固定の制約(例えば、30個のボーブル)を設けて、ウィルスベースのサービス妨害攻撃がインタフェースを無用にするまで画面をボーブルで圧倒することを防ぐようにすることは、役に立つ。
本明細書に記載されたようなボーブルは、最も一般には画像特徴に関連付けられるが、他の目的を果たすこともできる。例えば、ボーブルは、どのタスクが現在動作中であるかをユーザに示し、他のステータス情報を提供することができる。
本開示で参照されたスマートフォン及び他のコンピュータデバイスの設計は、当業者によく知られている。大まかに言えば、各々は、1つ又は複数のプロセッサ(例えば、インテル〔Intel〕、AMD又はARM型のもの)と、1つ又は複数のメモリ(例えば、RAM)と、ストレージ(例えば、ディスク又はフラッシュメモリ)と、ユーザインタフェース(例えば、キーパッド、TFT LCD又はOLED表示画面、タッチ又は他のジェスチャーセンサ、カメラ又は他の光学センサ、コンパスセンサ、3D磁力計、3軸加速度計、マイクロフォンなどを、グラフィカルユーザインタフェースを提供するためのソフトウェア命令と共に含んでもよい)と、これらの要素の間の相互接続(例えば、バス)と、他のデバイスと通信するためのインタフェース(GSM、CDMA、W−CDMA、CDMA2000、TDMA、EV−DO、HSDPA、WiFi、WiMax、メッシュネットワーク、ジグビー(Zigbee)及び他の802.15構成、若しくは、ブルートゥースなど、無線、並びに/又は、イーサネット(Ethernet)ローカルエリアネットワーク、T−1インターネット接続などを通じたものなど、有線であってもよい)とを含む。
より一般には、本明細書で詳述された処理及びシステムコンポーネントは、コンピューティングデバイスのための命令として実装されてもよく、これらの命令には、マイクロプロセッサ、グラフィックス処理ユニット(nVidia Tegra APX 2600など、GPU)、デジタル信号プロセッサ(例えば、テキサスインスツルメンツ〔Texas Instruments〕TMS320シリーズのデバイス)などを含む、様々なプログラマブルなプロセッサのための汎用プロセッサ命令が含まれる。これらの命令は、ソフトウェア、ファームウェアなどとして実装されてもよい。これらの命令はまた、様々な形式のプロセッサ回路に実装することもでき、これらのプロセッサ回路には、プログラマブルな論理デバイス、FPGA(例えば、Xilinx Virtexシリーズのデバイス)、FPOA(例えば、PicoChipブランドのデバイス)、及び、特定用途向け回路−デジタル、アナログ、及び、混合のアナログ/デジタル回路を含む−が含まれる。命令の実行を、複数のプロセッサ間で分散させることができ、及び/又は、1つのデバイス内の複数のプロセッサにわたって、若しくは、複数のデバイスのネットワークにわたって並列にすることができる。コンテンツ信号データの変換もまた、異なるプロセッサ及びメモリデバイスの間で分散されてもよい。「プロセッサ」又は「モジュール」(フーリエ変換プロセッサ、又は、FFTモジュール、その他など)への参照は、特定の形式の実装を要するのではなく、機能性を指すものと理解されたい。
詳述された機能性を実装するためのソフトウェア命令は、当業者によって、本明細書で提供された説明から容易に作り出すことができ、例えば、C、C++、ビジュアルベーシック(Visual Basic)、Java、パイソン(Python)、Tcl、パール(Perl)、スキーム(Scheme)、ルビー(Ruby)などで記述することができる。本技術によるモバイルデバイスは、異なる機能及び行為を行うためのソフトウェアモジュールを含むことができる。知られている人工知能システム及び技術を用いて、推論を行い、結論を出し、上述の他の決定を行うことができる。
一般に、各デバイスは、ハードウェアリソース及び汎用機能へのインタフェースを提供するオペレーティングシステムソフトウェアを含み、また、ユーザによって望まれた特定のタスクを行うために選択的に呼び出すことができるアプリケーションソフトウェアをも含む。知られているブラウザソフトウェア、通信ソフトウェア、及び、メディア処理ソフトウェアを、本明細書で詳述された使用の多数に合わせて構成することができる。ソフトウェア及びハードウェア構成データ/命令は一般に、磁気又は光ディスク、メモリカード、ROM、その他など、有形のメディアによって搬送される1つ又は複数のデータ構造における命令として格納され、ネットワークを介してアクセスされうる。いくつかの実施形態は、埋め込みシステム−ユーザには、オペレーティングシステムソフトウェア及びアプリケーションソフトウェアの区別がつかない、専用コンピュータシステム−として実装されてもよい(例えば、基本的な携帯電話の場合に一般的であるように)。本明細書で詳述された機能性を、オペレーティングシステムソフトウェア、アプリケーションソフトウェア内で、及び/又は、埋め込みシステムソフトウェアとして実装することができる。
ソフトウェアの格納に加えて、上記で参照された様々なメモリコンポーネントを、本技術によって利用される様々な情報(例えば、コンテキスト情報、テーブル、閾値など)のためのデータストアとして使用することができる。
本技術を、様々な異なる環境で実装することができる。1つは、アンドロイドという、グーグルから入手可能なオープンソースオペレーティングシステムであり、リナックス(Linux)カーネル上で実行するものである。アンドロイドアプリケーションは、一般にJavaで記述され、それら自体の仮想マシン内で実行する。
アプリケーションを大きいモノリシックなコードのブロックとして構築するのではなく、アンドロイドアプリケーションは典型的には、「アクティビティ」及び「サービス」の集まりとして実装され、必要に応じて選択的にロードすることができる。本技術の1つの実装では、最も基本的なアクティビティ/サービスのみがロードされる。次いで、必要に応じて、他のアクティビティ/サービスが開始される。これらのアクティビティ/サービスは、メッセージを互いに送信し、例えば、互いにウェイクアップすることができる。そのため、あるアクティビティが長円を探す場合、そのアクティビティは、見込みがある長円が探し出される場合は顔検出器アクティビティをアクティベートすることができる。
アンドロイドのアクティビティ及びサービスは(及び、アンドロイドのブロードキャストレシーバもまた)、メッセージを搬送する「インテントオブジェクト」(例えば、特定のタイプのキーベクトルを生成するなど、サービスを要求する)によってアクティベートされる。この構成物によって、ある条件が生じるまで、コードは休止状態にあることができる。顔検出器は、開始するために長円を必要とすることがある。顔検出器は、長円が発見されるまでアイドル状態であり、長円が発見される時間にアクションを開始する。
アクティビティとサービスの間で情報を共有する(例えば、以前に述べたブラックボードの役割を果たす)ため、アンドロイドは、「コンテンツプロバイダ」を利用する。これらのコンテンツプロバイダは、データを格納且つ検索し、すべてのアプリケーションにとってアクセス可能にする役目を果たす。
アンドロイドSDK及び関連文書は、developer<dot>android<dot>com/index.htmlで入手可能である。
本明細書に記載された別々の機能性を、異なるデバイス上で実装することができる。例えば、スマートフォンがリモートサービスプロバイダのサーバと通信するシステムでは、異なるタスクをあるデバイス又は他のデバイスによって排他的に行うことができ、又は、実行をデバイス間で分散させることができる。画像からのバーコード又は固有値データの抽出は、そのようなタスクの2つの例に過ぎない。したがって、特定のデバイス(例えば、スマートフォン)によって行われているような動作の記述は、限定的ではなく例示的であり、別のデバイス(例えば、リモートサーバ又はクラウド)による、又は、デバイス間で共有された動作の性能もまた、明示的に企図されることを理解されたい。(また、3つ以上のデバイスが共通して用いられてもよい。例えば、サービスプロバイダは、画像検索、オブジェクトのセグメント化、及び/又は、画像分類など、いくつかのタスクを、そのようなタスク専用のサーバに任せてもよい。)
同様に、特定のデバイス上に格納されているデータの記述もまた例示的であり、データを、ローカルデバイス、リモートデバイス、クラウド内、分散型など、どこに格納することもできる。
動作は、明確に識別可能なハードウェアによって排他的に行われる必要はない。むしろ、いくつかの動作を、他のサービス(例えば、クラウドコンピューティング)に任せることができ、これらのサービスは、またさらに一般に匿名のシステムによるそれらの実行を処理する。そのような分散システムは、大規模(例えば、世界中のコンピューティングリソースを含む)であっても、ローカル(例えば、ポータブルデバイスが、ブルートゥース通信を通じてすぐ近くのデバイスを識別し、すぐ近くのデバイスのうち1つ又は複数をあるタスク−ローカルの地理からのデータに寄与するなど−に含めるときのようなものであり、この点では、Berosの米国特許第7254406号を参照されたい。)であってもよい。
同様に、ある機能が、あるモジュール、エージェント、処理などによって行われているように詳述されたが、他の実装では、そのような機能を、そのようなエンティティの別のものによって、又は他の方法で行う(又は完全に省く)ことができる。
時として「認識エージェント」、及び、時として「動作」が参照されるが、他の時には、「機能」、及び、時として「アプリケーション」又は「サービス」又は「モジュール」又は「タスク」又は「段階」などが参照される。異なるソフトウェア開発環境では、これらの用語は異なる個々の意味を有することがある。本明細書では、しかし、これらの用語は一般に入れ替え可能に使用される。
上述のように、多数の機能を、複数のコンポーネント段階の順次的な動作によって実装することができる。そのような機能は、多段階の(カスケードされた)分類子であると見なされてもよく、より後の段階は、より前の段階で処理された領域又は値を検討するのみである。このタイプの多数の機能では、ある段階からの出力を調べ、基準が満たされる場合にのみ、次の段階をアクティベートする、閾値又は類似の判断がある可能性がある。(先行する段階によって出力されたパラメータが15,000を超える値を有した場合にのみトリガした、バーコードデコーダは、このタイプの一例である。)
多数の実施形態では、様々なコンポーネントによって行われる機能、並びに、それらの入力及び出力は、(例えば、コンポーネントによって)標準化されたメタデータの形式で指定又は発行され、ディスパッチ処理によってなど、同じものを識別することができるようになる。XMLベースのWSDL標準を、いくつかの実施形態で使用することができる。(例えば、Web Services Description Language (WSDL) Version 2.0 Part 1:Core Language、W3C、2007年6月を参照。)WSDL−Sと呼ばれる、WSDLの拡張は、他の機能の中でも、サービスの構成を容易にすることによって、再利用可能性を改善するセマンティック要素を含めるように、WSDLを拡張する。(代替セマンティック対応規格は、サービス用オントロジーウェブ言語(Ontology Web Language for Services:OWL−S)である。クラウドベースサービスプロバイダと通信するために、XMLベースのシンプルオブジェクトアクセスプロトコル(SOAP)を−一般に、ウェブサービスプロトコルスタックの基礎層として−利用することができる。(ジーニー(Jini)、共通オブジェクト要求ブローカアーキテクチャ(Common Object Request Broker Architecture)(CORBA)、表現状態転送(Representational State Transfer)(REST)、及び、マイクロソフトのウィンドウズコミュニケーションファウンデーション(Windows Communication Foundation)(WCF)など、他のサービスベースの技術もまた適切である。)
ウェブサービスのオーケストレーションを、ウェブサービスビジネスプロセス実行言語(Web Service Business Process Execution Language)2.0(WS−BPEL 2.0)を用いて実施することができる。コレオグラフィは、W3Cのウェブサービスコレオグラフィ記述言語(Web Service Choreography Description Language)(WS−CDL)を用いることができる。JBossのjBPM製品は、WM−BPEL 2.0及びWS−CDLの双方で使用するために構成された、オープンソースプラットフォームである。アクティブエンドポインツ(Active Endpoints)は、WS−BPEL 2.0のためのオープンソースソリューションを、ActiveBPELという名で提供し、ソースフォージ(SourceForge)のpi4SOAは、WS−CDLのオープンソース実装である。ウェブサービスのためのセキュリティを、WSセキュリティ(WS−Security)(WSS)通信プロトコルの使用を通じて提供することができ、その普及しているJavaライブラリ実装は、アパッチ(Apache)のWSS4Jである。
本技術のある実装は、画像処理機能(ソフトウェア)の既存のライブラリを使用する。これらには、CMVision(Carnegie Mellon Universityによる−特にカラー画像分割が得意)と、ImageJ(国立衛生研究所によって開発されたJavaルーチンの自由に配布可能なパッケージであり、例えば、en<dot>Wikipedia<dot>org/wiki/lmageJを参照)と、OpenCV(インテルによって開発されたパッケージであり、例えば、en<dot>Wikipedia<dot>org/wiki/OpenCV、及び、書籍のBradski、Learning OpenCV、O’Reilly、2008年を参照)が含まれる。評判の良い商用ビジョンライブラリパッケージには、コグネックス(Cognex)によるビジョンプロ(Vision Pro)、及び、マトロックスイメージングライブラリ(Matrox Imaging Library)が含まれる。
繰り返される動作が着手されるリフレッシュレートは、コンピューティングコンテキスト(バッテリ容量、他の処理要求など)を含む、状況によって決まる。いくつかの画像処理演算は、あらゆるキャプチャされたフレームに対して着手されてもよく、又は、ほぼそうであってもよい(例えば、レンズキャップ又は他の障害物がカメラのビューをふさぐかどうかをチェックする)。他の画像処理演算は、3フレーム毎、10フレーム毎、30フレーム毎、100フレーム毎などに着手されてもよい。又は、これらの動作は、時間によって、例えば、10秒毎、0.5秒毎、まる1秒毎、3秒毎などにトリガされてもよい。又は、これらの動作は、キャプチャされたシーン内の変化などによってトリガされてもよい。異なる動作は、異なるリフレッシュレートを有することがあり−単純な動作は頻繁に繰り返され、複雑な動作はそれほどでもない。
以前に述べたように、画像データ(又は、画像データに基づくデータ)は、解析のためにクラウドに任せられてもよい。いくつかの構成では、これは、ローカルデバイス処理の代わりに(又は、あるローカルデバイス処理がなされた後)行われる。時として、しかし、そのようなデータをクラウドに渡し、クラウドで、且つ、ローカルデバイス内の双方で同時に処理することができる。クラウド処理のコストは通常小さいので、プライマリコストは、帯域幅のものでありうる。帯域幅が使用可能である場合、たとえデータがローカルでも処理される場合であっても、データをクラウドへ送信しない理由はほとんどないことがある。いくつかの場合には、ローカルデバイスが結果をより速く返すことがあり、他の場合には、クラウドがこのレースに勝つことがある。双方を同時に使用することによって、ユーザに対して、2つの応答のうち速い方を常に提供することができる。(また、上述のように、ローカル処理が停滞するか、又は見込みがなくなる場合、縮小されてもよい。その間に、クラウド処理は激しく動き続け−おそらく、ローカルデバイスが決して提供しない結果を生じることがある。)加えて、グーグルなど、クラウドサービスプロバイダは、クラウドベースのデータ処理機会へのアクセスから他の利益を収集することができ、例えば、そのデータストアがそれに関して比較的力を失った地理的環境の詳細を知る(もちろん、適切なプライバシー保護を受ける)ことができる。
時として、ローカル画像処理を一時停止し、後に再開してもよい。1つのそのような場合は、電話をかけるか、又は受ける場合であり、デバイスは、そのリソースをその通話のサービスにのみ適用することを選んでもよい。電話はまた、ユーザが電話に対して画像処理を停止するように明示的に指図することができる、UIコントロールを有してもよい。いくつかのそのような場合、関連のあるデータがクラウドへ転送され、クラウドが処理を継続し、結果を電話へ返す。
ローカルの画像処理が迅速で満足の行く結果を生じず、画像の被写体がユーザにとって関心のあるものであり続ける場合(又は、ユーザがそうでないと示さない場合)、画像は、より網羅的で非常に長い解析のために、クラウドへ任せられてもよい。ブックマークなどをスマートフォンに格納して、ユーザがそのようなさらなる解析の結果を遡ってチェックし、知ることができるようにしてもよい。又は、そのようなさらなる解析がアクション可能な結論に達する場合、ユーザにアラートを出すことができる。
詳述された技術の動作に含まれた意思決定を、いくつかの異なる方法で実装することができることは理解されよう。1つは、スコアリングによるものである。異なる代替物のための関連する入力に関連付けられたパラメータが提供され、組み合わせられ、重み付けされ、例えば、多項式に従って、異なる組み合わせで合計される。最大(又は最小)スコアを有する代替物が選択され、その代替物に基づいてアクションが取られる。他の構成では、ルールベースエンジンを用いることができる。そのような構成は、条件付きルール、例えば、IF(条件(複数可))、THENアクション(複数可)などを明示する、格納されたデータを参照することによって、実装される。適応モデルもまた用いることができ、適応モデルでは、ルールが、例えば、過去にあった使用のパターンに基づいて進化する。ヒューリスティックな手法もまた用いることができる。さらに他の決定処理が個々の状況に適する場合があることは、当業者には理解されよう。
本明細書によるシステムを実装する当業者は、関係する様々な技術に精通していると推定される。
無線技術の新生の分野は、「コグニティブ無線」と呼ばれる。そのレンズを通じて見ると、本技術の名称は「コグニティブイメージング(cognitive imaging)」となるかもしれない。コグニティブ無線からの説明を適合させると、コグニティブイメージングの分野は、「無線イメージングデバイス及び関連ネットワークが、ユーザコンテキストに応じてユーザのイメージングのニーズを検出し、且つ、イメージングサービスをそれらのニーズにとって最適な方法により無線で提供するために、セマンティック抽出及びコンピュータ間の通信をサポートして、イメージング構成物の抽出において十分コンピュータ的にインテリジェントであるポイント」であると見なすことができる。
本開示は、例示的実施形態において、行為の特定の順序付け、及び、要素の特定の組み合わせを詳述したが、他の方法は、行為の順序を変えてもよく(場合によっては、いくつかの行為を省き、他の行為を追加する)、他の組み合わせは、いくつかの要素を省き、他の要素を追加するなどしてもよいことは理解されよう。
完全なシステムとして開示されたが、詳述された構成の副次的組み合わせもまた、別々に企図される。
ある実施形態では、インターネットが参照された。他の実施形態では、他のネットワーク−複数のコンピュータのプライベートネットワークを含む−もまた用いることができ、又は代わりに用いることができる。
主として、画像キャプチャ及び処理を行うシステムに関連して詳述されたが、対応する構成は、音声又は他の刺激(例えば、接触、匂い、動き、向き、温度、湿度、気圧、微量化学物質など)をキャプチャし、処理するシステムに等しく適用可能である。いくつかの実施形態は、複数の異なるタイプの刺激に応答することができる。
音声シーンアナライザ(Kubota他、Design and Implementation of 3D Auditory Scene Visualizer−Towards Auditory Awareness With Face Tracking、10th IEEE Multimedia Symp.、468〜476ページ、2008年による)の態様を示す、図18を考えられたい。Kubotaシステムは、3Dサウンドをマイクロフォンアレイによりキャプチャし、サウンドを位置測定且つ分離し、分離されたサウンドを音声認識技術によって認識する。Java可視化ソフトウェアは、いくつかの表示を提示する。図18の第1のボックスは、人々からの発話イベント及び背景音楽を、タイムラインに沿って示す。第2のボックスは、選択された時点のマイクロフォンアレイに対するサウンドソースの配置を示す。第3のボックスは、望まれないサウンドソースを除去するように、方向フィルタリングを可能にする。第4のボックスは、特定の話者の選択、及び、その話者の言葉の転写を可能にする。これらの表示とのユーザインタラクションは、顔追跡によって達成され、例えば、画面により近付き、所望の話者の方に向かって移動することで、ユーザがその話者の発話を選び、フィルタリングすることができる。
本技術に関連して、あるシステムは、カメラベースのシステムのための空間モデルコンポーネントに類似した構成を使用して、3D聴覚シーンの共通可視化を提供することができる。ボーブルを、位置、時間及び/又はクラスに応じて、識別された音源上に配置することができる。ユーザは、システムとのインタラクションを通じて音源をセグメント化することに携わり−ユーザがより多くの情報を望むサウンドを分離することができるようにしてもよい。例えば、背景音楽について、話者を識別する、音源を位置指定する、ジャンルで分類するなどの情報を提供することができる。既存のクラウドベースのサービス(例えば、シャザム(Shazam)及びミドミ(Midomi)など、ポピュラー音楽認識サービス)は、そのような構成における音声識別/分類の一部を提供するように構成されうる。
大学の講義のコンテキストでは、学生のモバイルデバイスは、教授の声、及び、すぐ近くの学生によるいくつかの偶然の副次的な会話をキャプチャすることがある。副次的な会話の色々と興味深い詳細によって気が散らされると、学生は、講義の一部を瞬間的に聞き逃してしまうことがある。電話の画面を指でスイープしながら、学生は、約15秒前の時間(例えば、1フレームにつき5秒)の、様々な顔ボーブルを示す画面に戻る。教授に対応する顔ボーブルを認識すると、学生はその顔ボーブルをタップし、教授の声のみから転写されたテキストが次いで提示され(及び/又は、聞こえるようにされ)−学生は聞き逃したことを理解できるようになる。(見直しを速めるため、レンダリングは、スキップ又は短縮し、教授の発話中に一時停止してもよい。短縮は、ある割合、例えば50%で行ってもよく、又は、0.5秒より長いあらゆる一時停止を0.5秒まで削ることができる。)又は、学生は単に、教授のボーブルを画面の最上部にスワイプし−その場所へのブックマークを、格納された話者の音声データに格納してもよく、学生は次いで、そのコンテンツを後に見直すことができる。
(サウンドソース認識についての追加情報は、Martin、Sound Source Recognition:A Theory and Computational Model、PhD Thesis、MIT、1999年6月において見られる。)
詳述された実施形態は、比較的汎用であるように記載されるが、他の実施形態は、特定の目的又は知識領域を満たすように特化されてもよい。例えば、1つのそのようなシステムは、鳥及びそれらの鳴き声を識別するように、且つ、鳥の目撃のクラウドソースによるデータベースを更新するようになど、特に巧みに作られた画像及びサウンド認識エージェントのスィートにより、バードウオッチャーに合わせて調整されてもよい。もう1つのシステムは、多様であるが特化された機能性の集まりを提供してもよい。例えば、あるデバイスは、印刷されたデジタルウォーターマークを読み取るためのディジマーク(Digimarc)により提供された認識エージェント、バーコードを読み取るためのリンクミーモバイル(LinkMe Mobile)認識エージェント、パッケージングから認証マーキングを復号するためのAlpVision認識エージェント、曲を識別するためのシャザム又はグレースノート(Gracenote)音楽認識エージェント、テレビ放送を認識するためのニールセン(Nielsen)認識エージェント、ラジオ放送を識別するためのアービトロン(Arbitron)認識エージェント、等々を含んでもよい。(認識されたメディアコンテンツに関連して、このようなシステムはまた、米国特許出願公開第2010/0119208号及び第2010/0205628号に詳述されたものなど、他の機能性を提供することもできる。)
詳述された技術は、YouTube<dot>comから取得されたユーザ生成コンテンツ(UGC)など、ウェブから取得されたビデオデータと共に使用することができる。本明細書で詳述されたもののような構成によって、ビデオのコンテンツを見極めることができるので、適切な広告/コンテンツの組み合わせを決定することができ、ユーザの体験の他の強化を提供することができる。特に、出願人は、本明細書で開示された技術を使用して、米国特許出願公開第2008/0208849号及び第2008/0228733号(ディジマーク)、米国特許出願公開第2008/0165960号(TagStory)、米国特許出願公開第2008/0162228号(Trivid)、米国特許出願公開第2008/0178302号及び第2008/0059211号(Attributor)、米国特許出願公開第2008/0109369号(グーグル)、米国特許出願公開第2008/0249961号(ニールセン)、並びに、米国特許出願公開第2008/0209502号(MovieLabs)に詳述されたUGC関連システムを強化し、拡張することができることを企図する。
詳述されたコンテンツ信号(例えば、画像信号、音声信号など)の処理には、これらの信号を様々な物理的形式で変換することが含まれることは理解されよう。画像及びビデオ(物理的空間中を移動し、物理的オブジェクトを描く電磁波の形式)は、カメラ又は他のキャプチャ機器を使用して物理的オブジェクトからキャプチャされてもよく、又は、コンピューティングデバイスによって生成されてもよい。同様に、物理的媒体中を移動する音圧波は、音声トランスデューサ(例えば、マイクロフォン)を使用してキャプチャされ、電子信号(デジタル又はアナログ形式)に変換されてもよい。これらの信号は典型的には、上記のコンポーネント及び処理を実装するために、電子及びデジタル形式で処理されるが、電子、光学、磁気及び電磁波形式を含む、他の物理的形式で、キャプチャ、処理、転送且つ格納されてもよい。コンテンツ信号は、処理中に様々な方法で、様々な目的のために変換され、信号及び関連情報の様々なデータ構造表現が作り出される。さらに、メモリ内のデータ構造信号が、探索、ソート、読み取り、書き込み及び検索中の操作のために変換される。これらの信号はまた、ディスプレイ又は音声トランスデューサ(例えば、スピーカ)を介したキャプチャ、転送、格納及び出力のために変換される。
読者は、類似又は同一のコンポーネント、処理などを指すとき、時として異なる用語が使用されることに留意されたい。これは部分的には、経時的な、数名の関与による本技術の開発のためである。
本明細書で開示された異なる実施形態内の要素及び教示はまた、交換され、組み合わせられるものでもある。
FFTへの参照はまた、逆FFT及び関連する変換(例えば、DFT、DCT、それぞれの逆変換など)をも含むように理解されたい。
SIFTが参照されており、SIFTは、参照により組み込まれた文書の一定のものにおいて詳述されるように、スケール不変の特徴に基づいて、パターンマッチング動作を行うものである。SIFTデータは、それによりオブジェクトを認識することができるフィンガープリントとしての機能を本質的に果たす。
同様に、ブラックボード(又は他の共有データ構造)に投稿されたデータもまた、フィンガープリントとしての機能を果たすことができ−画像又はシーンを特徴付ける視覚的に有意な情報を備え、それにより画像又はシーンが認識されうる。ビデオシーケンスでも同様であり、ユーザデバイスが検知中である刺激について、時間的及び経験的なデータの集まりからなるブラックボードを生じることができる。又は、そのような場合のブラックボードデータをさらに抜き出すことができ、この抜き出しは、フィンガープリンティングアルゴリズムをそのデータに適用し、一般に一意の識別データのセットを生成することによって行い、それにより最近キャプチャされた刺激が識別され、且つ他のパターンの刺激とマッチングされうる。(ピカソは、時間的、空間的に乱雑な画像要素のセットが、シーンに関連のある知識をもたらし、それによりシーンの本質が理解されうることを、ずっと以前に予見した。)
上述のように、人工知能技術は、本技術の実施形態において重要な役割を果たすことができる。最近この分野に参入したのは、ウォルフラムリサーチ(Wolfram Research)によるアルファ(Alpha)製品である。アルファは、キュレートされたデータの知識ベースを参照することによって、構造化入力に応答して、回答及び可視化を計算する。本明細書で詳述された構成から収集された情報をウォルフラムアルファ製品に提示して、応答情報をユーザへ戻すように提供することができる。いくつかの実施形態では、システムによって収集された用語及び他のプリミティブからクエリを構築することによって、システムによって構成された異なるクエリのメニューの中から選択することによって、その他によってなどして、ユーザがこの情報の提出に関与する。他の構成では、これはシステムによって扱われる。加えて、又は別法として、アルファシステムからの応答情報を、グーグルなど、他のシステムへの入力として提供して、さらなる応答情報を識別することができる。ウォルフラムの米国特許出願公開第2008/0066052号及び第2008/0250347号は、アルファ技術の態様をさらに詳述しており、この技術は現在、アイフォンアプリケーションとして使用可能である。
もう1つの補助的な技術は、グーグルボイス(Google Voice)であり、従来の電話システムにいくつかの改良を提供するものである。そのような機能を、本技術と共に使用することができる。
例えば、グーグルボイスによって提供された音声−テキスト転写サービスを用いて、ユーザのスマートフォンのマイクロフォンを使用しながら、話者の環境から周囲の音声をキャプチャし、対応するデジタルデータ(例えば、ASCII情報)を生成することができる。このシステムは、そのようなデータを、グーグル又はウォルフラムアルファなどのサービスに提出して、関連情報を取得することができ、その関連情報をシステムが次いで−画面表示によって、又は音声によって(例えば、既知のテキスト−音声システムによって)、又は他の方法で−ユーザへ戻すように提供することができる。同様に、グーグルボイスによってもたらされた音声認識を使用して、会話ユーザインタフェースをスマートフォンデバイスに提供することができ、それにより、本明細書で詳述された技術の機能を発話によって選択的に呼び出し、制御することができる。
別の態様では、ユーザがコンテンツ(音声又は視覚)をスマートフォンデバイスでキャプチャし、ここで開示される技術を用いるシステムが応答を返すとき、その応答情報をテキストから音声に変換し、ユーザへ、例えば、グーグルボイスのユーザのボイスメールアカウントへ配信することができる。ユーザは、このデータリポジトリに任意の電話から、又は、任意のコンピュータからアクセスすることができる。格納されたボイスメールを、その可聴形式で見直すことができ、又は、ユーザはその代わりに、例えば、スマートフォン又はコンピュータ画面上に提示された、テキスト対応物を見直すことを選択することができる。
(グーグルボイス技術の態様は、米国特許出願公開第2008/0259918号に詳述されている。)
音声情報は、時として、視覚情報の理解を支援することができる。異なる環境は、異なるサウンド現象によって特徴付けられ、この現象が、その環境についての手がかりとしての機能を果たすことができる。タイヤノイズ及びエンジン音は、車内又は路傍の環境を特徴付けてもよい。暖房、換気及び空調の送風機のブーンとうなる音、又はキーボード音は、職場環境を特徴付けてもよい。鳥、及び、木に吹く風の雑音は、屋外を知らせてもよい。帯域制限され、コンパンダにより処理された、めったに静かにならない音声は、テレビがすぐ近くでついていること−おそらく、家の中−を示唆してもよい。砕ける波が繰り返される音は、海辺の場所を示唆する。
そのような音声の場所の手がかりは、視覚画像処理に関連して様々な役割を果たすことができる。例えば、そのような手がかりは、視覚的環境内でオブジェクトを識別する助けとなることができる。職場のような音の存在下でキャプチャされる場合、見たところ円筒形のオブジェクトを描く画像は、木の幹よりもコーヒーマグ又は水のボトルである可能性がより高い。海辺の音声環境内の丸みのあるオブジェクトは、タイヤである場合があるが、貝殻である可能性がより高い。
そのような情報の利用は、無数の形式を取ることができる。1つの特定の実装は、認識されうる個々のオブジェクトと異なる(音声)場所の間の関連付けを確立しようとする。制限された音声の場所のセットが識別されてもよく、例えば、屋内若しくは屋外、又は、海辺/車/職場/家/不確定である。異なるオブジェクトに、次いで、そのような環境内で発見される相対的な見込みを(例えば、0〜10の範囲で)示すスコアを、与えることができる。そのような曖昧性除去データを、インターネット(クラウド)上の公的にアクセス可能なデータベースなど、データ構造内で保持することができる。これは、屋内/屋外の場合の簡単な例である。
(屋内及び屋外スコアは必ずしも逆相関であるとは限らず、いくつかのオブジェクトは、ある程度、双方の環境内で発見される可能性が高い場合があることに留意されたい。)
円筒形のように見えるオブジェクトが画像フレーム内で見極められ、−使用可能な画像解析からは−そのオブジェクトが木の幹であるか水のボトルであるかについて曖昧である場合、曖昧性除去データ、及び、聴覚環境についての情報を参照することができる。聴覚環境が「屋外」の属性を有する(及び/又は、「屋内」である属性が不足している)場合、候補オブジェクト「木」及び「水のボトル」の屋外曖昧性除去スコアがチェックされる。「木」の屋外スコアは10であり、「水のボトル」の屋外スコアは8であるので、この五分五分の見込みは、「木」の方を選ぶように決定される。
聴覚環境の認識を、本明細書の他のところで記載された画像解析構成の音声対応物である技術及び解析を使用して、行うことができる。又は、他の技術を使用することができる。しかし、聴覚環境の認識は不確実であることが多い。この不確実性を、曖昧性除去スコアの使用の要素に入れることができる。
直前に挙げた例では、環境からキャプチャされた音声は、屋内環境に関連付けられたいくつかの特徴、及び、屋外環境に関連付けられたいくつかの特徴を有することがある。音声解析は、したがって、例えば、60%の可能性で屋外であり、40%の可能性で屋内である、というファジーな結果に終わることがある。(これらの割合は、合計して100%になってもよいが、その必要はなく、場合によっては、これらの割合は合計してより多く又はより少なくなってもよい。)これらの査定を使用して、オブジェクト曖昧性除去スコアの査定に影響を与えることができる。
多数のそのような手法があるが、1つは、以下の表によって示されるものなど、単純な乗算によって、候補オブジェクトのオブジェクト曖昧性除去スコアに、音声環境の不確実性により重み付けすることである。
この場合、たとえ聴覚環境が高度の確実性で知られていないとしても、曖昧性除去データは、オブジェクトの識別において有用である。
直前に挙げた例では、視覚解析−のみで−は、等しい確率を有する2つの候補識別、すなわち、木である可能性があること、水のボトルである可能性があることを示唆した。視覚解析は、あるオブジェクトに対していくつかの異なる可能な識別−あるものが他のものより、ありそうである−を決定するようになることが多い。最もありそうな識別が、最終的な識別として使用されてもよい。しかし、本明細書で示された概念は、そのような識別を精緻化する助けとなることができ−時として、異なる最終結果につながる。
描かれたオブジェクトが40%の可能性で水のボトルであり、30%の可能性で木であるという結論を(例えば、円筒形の形状の視覚的な質感の不足に基づいて)出す、視覚解析を考えられたい。この査定を、−視覚解析のみによって決定されたオブジェクト確率によるさらなる乗算によって−上述の計算と共にカスケードすることができる。
この場合、−たとえ、画像解析のみでは、その形状は水のボトルである可能性が最も高いという結論を出したとしても−オブジェクトは木として識別されうる(1.8が最高スコア)。
これらの例は、作用中の原理を例示するために、やや極度に単純化されたものであり、実際の実施では、より複雑な数学及び論理演算が確かに使用されるであろう。
これらの例は、2つの代替オブジェクト識別を簡単に示したが、実際の実装では、多数の可能な代替物の分野からの1つのタイプのオブジェクトの識別を同様に行うことができる。
曖昧性除去データの編集、例えば、異なるオブジェクトを異なる環境に関連付けることについては、何もまだ言われていない。これは大きな仕事になりうるが、いくつかの代替手法がある。
ユーチューブなどのビデオコンテンツサイト、及び、フリッカーなどの画像コンテンツサイトを考えられたい。知られている画像解析技術は、−たとえ、多数のオブジェクトが認識されないままである場合があるとしても−ビデオ又は画像フレーム内であるオブジェクトを識別することができる。環境もまた、視覚的に識別されてもよい(例えば、屋内/屋外、海辺/職場/その他)。たとえわずかな割合のビデオ/画像のみが有用な情報を与える(例えば、ある屋内ビデオでベッド及び机を識別する、ある屋外写真で花を識別する、など)場合であっても、全体で、多くの種類の情報をそのような方法で収集することができる。
直前に論じた構成では、視覚情報のみを参照することによって、環境が分類されてもよいことに留意されたい。壁は屋内環境を示し、木は屋外環境を示す、などとなる。音は、データマイニングの一部を形成してもよいが、これは必須ではない。
ユーチューブ、フリッカー及び他のコンテンツサイトはまた、記述メタデータ(例えば、キーワード)をも含み、記述メタデータもまた、描かれた画像についての情報を求めて、又は、描かれたオブジェクトの認識を他の方法で支援する(例えば、複数の可能なオブジェクト識別の間で決定する)ために、マイニングすることができる。
音声情報を使用して、どのタイプのさらなる画像処理演算が着手されるべきであるか(すなわち、動作のルーチンのセットを超えて)を決定する助けとすることもできる。音声が職場環境を示唆する場合、これは、テキストOCR関連動作が関連するかもしれないことを示唆してもよい。デバイスはしたがって、そのような動作に着手してもよいのに対して、別の音声環境内(例えば、屋外)の場合、デバイスはそのような動作に着手していなくてもよい。
オブジェクトとそれらの典型的環境の間の追加の関連付けが、百科事典(例えば、ウィキペディア)及び他のテキストの自然言語処理によって収集されてもよい。他のところで上述したように、米国特許第7383169号は、辞書及び他の大きい言語の著作物を、世界についてのそのような「常識」情報の厖大なソースとしての機能を果たす語彙知識ベースを編集するために、NLP技術によってどのように処理することができるかについて記載している。そのような技術によって、あるシステムは、例えば、対象「キノコ」を環境「森」(及び/又は「スーパーマーケット」)に、「ヒトデ」を「海」に、などと関連付けることができる。もう1つのリソースは、Cycであり−常識知識の大型のオントロジー及び知識ベースをまとめている人工知能プロジェクトである(OpenCycは、オープンソースライセンスで入手可能である。)
環境曖昧性除去データの編集はまた、人間の関与を利用することもできる。ビデオ及び画像を、アマゾンのメカニカルタークサービスの使用を通じてなど、査定のために見る者に提示することができる。特に発展途上国では、多くの人々は、報酬を求めて画像の主観解析を進んで提供し、例えば、描かれたオブジェクト、及び、それらのオブジェクトが見られる環境を識別する。
同じ技術を用いて、異なる音を異なる環境に関連付けることができる(ケロケロ鳴くカエルを池に、航空機エンジンを空港に、など)。音声認識−グーグルボイス、ドラゴンナチュラリースピーキング(Dragon Naturally Speaking)、ビアボイス(ViaVoice)など(メカニカルタークを含む)によって行われるものなど−もまた、環境を認識するために用いることができる。(「背もたれ及びトレイを、直立の固定の位置に戻してください...」は、飛行機の環境を示す。)
直前に詳述された特定の構成は、代替オブジェクト識別の曖昧性を除去するために、音声情報を使用したが、音声情報を、画像解析に関連して多数の他の異なる方法で使用することができる。例えば、異なる環境内で異なるオブジェクトに遭遇する、スコア化された見込みを識別するデータ構造ではなく、音声が、単にSIFT特徴のいくつかの異なる用語集のうち1つを選択する(又は、用語集をまとめる)ために使用されてもよい(SIFTについては、他のところで論じる)。音声が海辺の雑音を含む場合、オブジェクト用語集は、海辺のそばで発見されるオブジェクト(ホッチキスではなく、貝殻)についてのSIFT特徴のみを含むことができる。画像解析システムによって探される多数の候補オブジェクトは、このように、聴覚刺激に従って制約されてもよい。
音声情報をこのように、−個々の応用例の要件に応じて−画像解析を支援するために、非常に多数の方法で用いることができ、前述はごくわずかである。
聴覚刺激が画像の解析/理解に情報を与える助けとなりうることと全く同様に、視覚刺激は、音声の解析/理解に情報を与える助けとなりうる。カメラが明るい太陽の光を検知する場合、これは屋外環境を示唆し、キャプチャされた音声の解析はしたがって、屋外に対応する参照データのライブラリを参照して進行してもよい。カメラが、蛍光灯の特性である色スペクトルを有する、規則的に明滅する照明を検知する場合、屋内環境が仮定されてもよい。最上部全体が青く、質感の高い特徴が下方にある画像フレームがキャプチャされる場合、屋外コンテキストが仮定されてもよい。これらの状況でキャプチャされた音声の解析は、そのような情報を使用することができる。例えば、低レベルの背景雑音は、暖房、換気及び空調の送風機ではなく−風である可能性が高く、大きいクリック音はキーボードの雑音ではなく、猛り狂うリスである可能性がより高い。
ユーチューブ及びフリッカーが画像情報のためのソースを提供することと全く同様に、音声情報のための多数の自由に使用可能なソースがインターネット上にある。1つは、これもまたユーチューブである。それらの小売用に提供された物に対応する、無料の、忠実度の低い物を提供する、音響効果のオンラインライブラリもある(例えば、soundeffect<dot>com、sounddog<dot>com、soundsnap<dot>comなど)。これらは一般に、よく整理された分類法で提示され、例えば、Nature(自然):Ocean(海):SurfGullsAndShipHorn(打ち寄せる波カモメ及び船の警笛)、Weather(天候):Rain(雨):HardRainOnConcreteInTheCity(都市のコンクリートに降る土砂降り)、Transportation(移動手段):Train(列車):CrowdedTrainInterior(満員の列車内)などである。記述テキストデータをマイニングして、関連付けられた環境を決定することができる。
前述の考察は、聴覚刺激と視覚刺激の間の相互作用に焦点を合わせたが、本技術によるデバイス及び方法は、温度、場所、磁場、匂い、微量化学物質検知など、あらゆる種類の刺激及び検知されたデータと共に、そのような原理を用いることができる。
磁場については、スマートフォンは、例えば、電子コンパスの目的で、ますます磁力計を備えつつあることは理解されよう。そのようなデバイスは極めて高感度であり−その理由は、かすかな地球磁場(例えば、30〜60マイクロテスラ、0.3〜0.6ガウス)に応答する必要があるからである。変調された磁場のエミッタを使用して、電話の磁力計に信号を送り、例えば、情報を電話に通信することができる。
アップルのアイフォン3Gは、3軸ホール効果磁力計(旭化成によって製造されたと考えられる)を有し、この磁力計は、ソリッドステート回路を使用して、印加された磁場及び極性に比例した電圧を生じさせる。現在のデバイスは、高速データ通信用に最適化されていないが、将来の実装は、そのような機能を優先させることができる。それにもかかわらず、有用なデータレートを容易に達成することができる。音声及び視覚入力とは異なり、電話は、磁気入力の受信を最適化するために、特定の方向に向けられる必要はない(3Dセンサのため)。電話はまた、ユーザのポケット又はハンドバッグから取り出される必要すらもない。
1つの構成では、小売店は、時変信号により駆動される、隠された電磁石を含む、視覚的なプロモーションディスプレイを有してもよい。この時変信号は、データをすぐ近くの電話に送信する役目を果たす。このデータは、任意のタイプであってもよい。このデータは、例えば、プロモーション対象品目から1ドル値引きされる、受信者が使用可能なクーポンを提示する、磁力計駆動型スマートフォンアプリケーションに、情報を提供することができる。
磁場データは単に、電話に対して、異なる通信媒体を通じて送信された関連情報の可用性のアラートを出してもよい。初歩的なアプリケーションでは、磁場データは単に、モバイルデバイスに信号を送り、指定された入力コンポーネント、例えば、ブルートゥース、NFC、WiFi、赤外線、カメラ、マイクロフォンなどをオンにすることができる。磁場データはまた、キー、チャネル、又は、その媒体で有用な他の情報を提供することもできる。
もう1つの構成では、異なる製品(又は、異なる製品に関連付けられた、棚に取り付けられたデバイス)は、異なる磁気データ信号を出すことができる。ユーザは、スマートフォンを特定の製品に近付けることによって、競合する伝送の中から選択する。磁場は、エミッタからの距離に指数関数的に比例して低下するので、電話は、最強(最も近い)信号を他の信号とは区別することが可能である。
さらにもう1つの構成では、棚に取り付けられたエミッタは通常アクティブではないが、ユーザ又はユーザの意図を検知することに応答して、アクティブになる。エミッタは、ボタン又は動きセンサを含んでもよく、ボタン又は動きセンサが磁気エミッタを5〜15秒間アクティベートする。又は、エミッタは、照明の変化(より明るいか、又はより暗い)に応答するフォトセルを含んでもよい。ユーザは、電話の明るくされた画面をフォトセルに提示し(又は、手でフォトセルを影にし)、磁気エミッタに5秒のブロードキャストを開始させてもよい。その他もある。
アクティベートされた後、磁場を利用して、例えば、カメラ、NFC又はマイクロフォンなど、使用されるために位置決め又は向けられる必要のある他のセンサをどのように利用するかについて、ユーザに知らせることができる。固有の方向性、及び、距離に対する感度により、磁場データは、ターゲットの方向及び距離を確立する(例えば、カメラを向けて焦点を合わせる)際に有用になる。例えば、エミッタは、あるパッケージを既知の場所(例えば、原点)に有する座標系を作成し、モバイルデバイスのためのグランドトゥルースデータを提供することができる。これを(一般に現在の)モバイルデバイス加速度計と組み合わせることで、正確な姿勢評価が可能となる。
バーコード又は他のマシン可読データを製品から読み取り、それに基づいて応答をトリガするための様々なアプリケーションが、スマートフォン用に入手可能にされている(且つ、例えば、米国特許出願公開第2001/0011233号、第2001/0044824号、第2002/0080396号、第2002/0102966号、米国特許第6311214号、第6448979号、第6491217号及び第6636249号から知られている)。同じ構成を、スマートフォンの磁力計を使用して、磁気的に検知された情報を使用して実施することができる。
他の実施形態では、磁場は、微小方向(micro−directions)の提供に関連して使用されてもよい。例えば、店内で、エミッタからの磁気信号は、微小方向をモバイルデバイスユーザに伝えることができ、例えば、「通路7へ行く、左側で製品Xを探す、Yドルで現在特売中、この品目のピクチャを最初にキャプチャした3名までに2ドルの追加値引きあり」(又は、関連プロモーションディスプレイの)。
関連アプリケーションは、店内の個々の製品への方向を提供する。ユーザは、所望の製品の名前をキー入力し、又は話し、それらの名前は、様々なシグナリング技術の任意のものを使用して、店のコンピュータへ送信される。コンピュータは、店内の所望の製品の場所を識別し、ユーザを案内するために方向データを定式化する。これらの方向は、磁気的に、又は他の方法でモバイルデバイスに伝えられてもよい。磁気エミッタ、又は、いくつかのエミッタのネットワークは、ユーザを所望の製品へと案内する助けとなる。
例えば、所望の製品のエミッタは、ホーミングビーコンとしての機能を果たすことができる。各エミッタは、各々が製品識別子を含むフレーム又はパケットでデータを送信してもよい。ユーザに提供された最初の方向(例えば、左へ行き、通路7を発見し、次いで、半分ほど行った右側)はまた、ユーザによって望まれた製品のための店の製品識別子を提供することもできる。ユーザのモバイルデバイスは、これらの識別子を使用して、所望の製品からの磁気放射に「合わせる」ことができる。コンパス又は他のそのようなUIは、ユーザがそれらの方向によって示された全体のエリア内で製品の正確な場所を発見する助けとなることができる。ユーザが所望の各製品を発見するとき、モバイルデバイスはもはや、その製品に対応する放射に合わせなくてもよい。
店内の通路及び他の場所は、それら自体のそれぞれの磁気エミッタを有してもよい。ユーザに提供された方向は、自動ナビゲーションシステムによって普及した「ターンバイターン」型にすることができる。(そのようなナビゲーション技術を、他の実施形態でも用いることができる。)モバイルデバイスは、そのルートに沿った様々な中間地点からのエミッタを検知することによって、それらの方向のユーザの進行を追跡し、次のステップ(複数可)について、ユーザに促すことができる。さらに、エミッタは、ブルートゥース又は他のシグナリングによってなど、モバイルデバイスの近接を検知し、信号で送るデータをユーザ及びユーザの位置に合わせて適合させてもよい。
複数のユーザにサービスするため、複数のエミッタ(例えば、製品識別エミッタではなく、ナビゲーションエミッタ)のあるネットワークからの伝送を時分割多重化し、データをパケット又はフレームで送信することができ、その各々は、所期の受信者を示す識別子を含む。この識別子を、方向の要求に応答してユーザに提供することができ、ユーザのデバイスが、そのデバイスを対象とした伝送を他の伝送とは区別することを可能にする。
そのようなエミッタからのデータをまた、周波数分割多重化し、例えば、あるアプリケーションのための高周波データ信号、及び、別のアプリケーションのための低周波データ信号を出すこともできる。
磁気信号を、任意の知られている構成を使用して変調することができ、これらの構成には、限定されないが、周波数、振幅、最小又は位相シフトキーイング、直交振幅変調、連続位相変調、パルス位置変調、トレリス変調、チャープ又は直接シーケンススペクトル拡散などが含まれる。異なる順方向誤り訂正コーディング方式(例えば、ターボ、リードソロモン、BCH)を用いて、正確でロバストなデータ伝送を保証することができる。異なるエミッタからの信号を区別することを支援するため、異なる無線局によるスペクトルの共有に類似した方法で、変調ドメインを、異なるエミッタ、又は、クラス若しくはエミッタの間で分割することができる。
モバイルデバイスは、本明細書で詳述された応用例のためにデバイスの磁力計を使用するように特に構成された、ユーザインタフェースを備えることができる。このユーザインタフェースは、よく知られているWiFiユーザインタフェースに類似してもよく−使用可能なチャネルについての情報をユーザに提示し、ユーザが、利用するべきチャネル、及び/又は、避けるべきチャネルを指定することができるようにしてもよい。上記で詳述された応用例では、UIは、何のエミッタに合わせるべきであるか、又は、−他のデータを無視して−何のデータをリッスンするべきであるかを、ユーザが指定することができるようにしてもよい。
タッチスクリーンインタフェース−ジェスチャーインタフェースの1つの形式−が参照された。本技術の実施形態で使用することができる、もう1つの形式のジェスチャーインタフェースは、スマートフォンの動きを検知することによって−キャプチャされた画像内の特徴の動きを追跡することによって−動作する。そのようなジェスチャーのインタフェースのさらなる情報は、ディジマークの米国特許第6947571号に詳述されている。ユーザ入力がシステムに提供されるべきであるときは常に、ジェスチャーの技術を用いることができる。
さらに先を見越すと、表情(例えば、まばたきするなど)、及び/又は、ユーザから検出されたバイオメトリック信号(例えば、脳波又はEEG)に応答するユーザインタフェースもまた、用いることができる。そのような構成は、ますます周知となっており、いくつかは、米国特許出願公開第2001/0056225号、第2002/0077534号、第2007/0185697号、第2008/0218472号及び第2009/0214060号に詳述されている。
本譲受人は、デジタルウォーターマーキング及びフィンガープリントに基づいた技術を含む、コンテンツ識別技術における広範な経歴を有する。これらの技術は、あるビジュアルクエリにおいて重要な役割を有する。
ウォーターマーキングは、例えば、流通ネットワーク内で個別の媒体/物理的オブジェクトを識別するために使用可能な、唯一のコンテナに依存しない技術である。ウォーターマーキングは幅広く展開され、数え切れないほどの曲、映画及び印刷文書がそうであるように、米国内のテレビ及びラジオの本質的にすべてにデジタルウォーターマークが付いている。
オブジェクトアイデンティティの指示を、オブジェクト自体の固有の部分として提供することによって、デジタルウォーターマークは、オブジェクトのアイデンティティに基づいて、モバイルデバイス−オブジェクトのインタラクションを容易にする。
ウォーターマークを符号化/復号するための技術は、例えば、ディジマークの米国特許第6614914号及び第6122403号、ニールセンの米国特許第6968564号及び第7006555号、並びに、アービトロンの米国特許第5450490号、第5764763号、第6862355号及び第6845360号に詳述されている。
ディジマークは、本主題に関連のある様々な他の特許出願を有する。例えば、米国特許出願公開第2007/0156726号、第2008/0049971号及び第2007/0266252号を参照されたい。
オーディオフィンガープリンティングの例は、米国特許出願公開第2007/0250716号、第2007/0174059号及び第2008/0300011号(ディジマーク)、第2008/0276265号、第2007/0274537号及び第2005/0232411号(ニールセン)、第2007/0124756号(グーグル)、米国特許第7516074号(Auditude)、並びに、第6990453号及び第7359889号(双方ともシャザム)に詳述されている。画像/ビデオフィンガープリンティングの例は、米国特許第7020304号(ディジマーク)、第7486827号(Seiko−Epson)、米国特許出願公開第2007/0253594号(Vobile)、第2008/0317278号(Thomson)、及び、第2002/0044659号(NEC)に詳述されている。
ノキアは、視覚的検索技術(Pixto)に従事したPhilipp Schloterによって設立された、ベイエリアの新設企業を獲得し、その「ポイントアンドファインド(Point & Find)」プログラムにおいて、その分野の研究を継続している。この研究は、例えば、米国特許出願公開第2007/0106721号、第2008/0071749号、第2008/0071750号、第2008/0071770号、第2008/0071988号、第2008/0267504号、第2008/0267521号、第2008/0268876号、第2008/0270378号、第2009/0083237号、第2009/0083275号及び第2009/0094289号に詳述されている。これらの文書に詳述された特徴及び教示は、本出願に詳述された技術及び構成と組み合わせるために適しており、逆の場合も同じである。
簡潔にするため、記載された技術の無数の変形形態及び組み合わせは、本書に列挙されない。出願人は、本明細書の複数の概念を、−それら自体の間で、並びに、引用された従来技術から知られている概念と共に−組み合わせ、代用及び入れ替え可能であることを理解し、意図している。また、詳述された技術は、−現在の、及び来るべき−他の技術と共に効果的に含まれうることは理解されよう。
本明細書を過度に長くすることなく、包括的な開示を提供するため、出願人は、上記で参照された文書及び特許開示を参照により組み込む。(そのような文書は、それらの教示の特定のものに関連して上記で引用された場合であっても、それらの全体として組み込まれる。)これらの参照文献は、本明細書で詳述された構成に組み込むことができ、且つ、本明細書で詳述された技術及び教示がそれらに組み込まれうる、技術及び教示を開示している。

Claims (28)

  1. 画像データを処理する、カメラ付きポータブルデバイスを使用した方法であって、前記デバイスがユーザによって携行され、前記方法が、以下の
    最初のセットの複数の異なる画像処理演算を行うステップと、
    明示されたユーザコマンドなしに、状況が保証するとき、追加の画像処理演算を呼び出すステップと
    を含み、
    前記デバイスが自律的に作動して、推論又は予想されたユーザの要望をかなえる、方法。
  2. 前記画像処理演算のうち1つ又は複数の結果生じるデータオブジェクトを格納するか、又は、その前記格納を用意し、前記データオブジェクトに関するセマンティックアサーションを、リモートのリンクトデータレジストリへ送信するステップを含む、請求項1に記載の方法。
  3. 前記画像データによって表されたシーン内で1つ又は複数の視覚的特徴を見極め、視覚的ボーブルを前記デバイスの画面上で、前記シーン内の前記視覚的特徴(複数可)に対応する場所(複数可)に提示するステップを含む、請求項1に記載の方法。
  4. 前記ボーブルが、長方形でない形状である、請求項3に記載の方法。
  5. 前記デバイス画面上で1つ又は複数のボーブルに関して、ユーザのジェスチャーを検知し、それに基づいてアクションを起こすステップを含む、請求項3に記載の方法。
  6. 前記アクションが、
    (a)より多いか又はより少ない処理リソースを、ボーブルに関連付けられた機能に割り振るステップであって、前記機能が、前記ユーザのジェスチャーを検知するより前に開始されている、ステップと、
    (b)ボーブルに関連付けられた処理を縮小し、それに関係付けられた情報を格納して、ユーザプリファレンス又は振る舞いのパターンを見極めることができるようにするステップと、
    (c)リモート処理システム内で関連処理を継続中に、前記デバイス上でボーブルに関連付けられた処理を少なくとも一時的に縮小するステップと、
    (d)画像を編集して、1つ又は複数の特徴を除外するステップと、
    (e)前記デバイス画面上に提示された画像データ内の1つ又は複数の特徴の投影を変更するステップと、
    (f)複数のボーブルによって表されたエンティティ間の社会的関係を定義するステップとのうち、少なくとも1つを含む、請求項5に記載の方法。
  7. 前記提示されたボーブルのうち少なくとも1つを遠近法によって曲げて、前記シーン内で見極められた表面特徴に対応するようにするステップを含む、請求項3に記載の方法。
  8. 前記画像処理演算のうち1つ又は複数が、前記シーン内で特徴を認識又は識別するなど、所望の結果に向かって進行するとき、前記提示されたボーブルのうちの1つの明るさ、形状又はサイズを変更するステップを含む、請求項3に記載の方法。
  9. 前記呼び出すステップが、
    (a)場所、
    (b)時刻、
    (c)1人又は複数の人々への近接、
    (d)前記最初のセットの画像処理演算に基づいた出力、又は
    (e)ユーザの振る舞いの統計モデル
    のうち、少なくとも1つを含む状況に基づいて、追加の画像処理演算を呼び出すサブステップを含む、請求項1に記載の方法。
  10. 前記画像処理演算のうち1つ又は複数からの結果を含むデータから、前記ユーザによって望まれたインタラクションのタイプについての情報を推論し、そのような情報に基づいて、追加の画像処理演算を呼び出すステップを含む、請求項1に記載の方法。
  11. データをリモートシステムへ送信して、前記リモートシステムが前記デバイスと同じ画像処理演算のうち1つ又は複数を行うことができるようにするステップをも含む、請求項1に記載の方法。
  12. 前記デバイスが自律的に作動して、前記デバイスのカメラによって撮像された硬貨の集まりの価値を決定する、請求項1に記載の方法。
  13. 第1のセットの行われるべき追加の画像処理演算を、より大きい第2のセットの可能な画像処理演算から、
    (a)デバイスリソース使用、
    (b)異なる前記可能な演算に関連付けられたリソース需要、及び
    (c)異なる前記可能な演算の間の対応
    のうち、1つ又は複数を示すデータに基づいて、選択するステップを含む、請求項1に記載の方法。
  14. 前記方法が、前記画像データによって表されたシーン内で1つ又は複数の視覚的特徴を見極め、そのような特徴の各々に関係付けられたデータを、対応する識別子に関連して格納するステップを含み、前記識別子が、以下の
    (a)セッションID、
    (b)明示的オブジェクトID、及び
    (c)前記特徴から導出された、又は、関連状況から導出されたデータ
    のうち、少なくとも2つに基づく、請求項1に記載の方法。
  15. 前記方法が、前記デバイス内の非画像センサシステムを使用して、非画像情報を作り出し、そのような情報を、以下の
    (a)画像処理演算の選択に影響を与えること、及び
    (b)前記画像データについての2つ以上の候補の結論の間の曖昧性を除去すること
    のうち、少なくとも1つのために用いるステップを含み、
    前記非画像センサシステムが、ジオロケーションシステム、音声センサ、温度センサ、磁場センサ、動きセンサ又は嗅覚センサのうち、少なくとも1つを含む、請求項1に記載の方法。
  16. 前記画像データのうち少なくとも一定のもの、又は、前記画像処理演算のうち1つ又は複数からのデータを、リモートコンピュータシステムへ送信して、前記リモートコンピュータシステムが、前記デバイスが−その処理中に−見極めなかった情報を収集するために、前記デバイスによって以前に行われた画像処理を継続することができるようにするステップをさらに含む、請求項1に記載の方法。
  17. 物理的オブジェクトについての、アサーションにアクセスするため、又は、アサーションを作成するためのユーザの能力を、前記ユーザが前記オブジェクトとの、又は、そのようなアサーションを以前に作成した別のユーザとの明白な関係を有しなければ、制限するステップによって特徴付けられる、リンクトデータ方法。
  18. 前記明白な関係が、前記物理的オブジェクトから一定の距離内の存在であり、前記ユーザによって携行されたスマートフォンデバイス内のセンサシステムによって作り出されたデータによって示される、請求項17に記載の方法。
  19. ユーザによって携行されたセンサによって作り出されたデータに基づいて、動き情報をチェックし、前記動き情報が、前記ユーザが制限された方法で動いていることを示す場合に、物理的オブジェクトに関する、アサーションにアクセスするため、又は、アサーションを作成するための前記ユーザの能力を制限するステップによって特徴付けられる、リンクトデータ方法。
  20. 前記制限された方法が、閾値より上の速度の動きを含む、請求項19に記載の方法。
  21. 第1のフェーズの演算内で、画像のシーケンスをユーザの周囲からキャプチャするステップと、
    前記シーケンスを処理して、その中で特徴を認識し、関連情報を識別するステップであって、前記処理が、前記ユーザによって携行されたポータブル装置によって少なくとも部分的に行われる、ステップと、
    前記第1の後に続く第2のフェーズの演算内で、前記ポータブル装置に関連付けられた出力デバイスを使用して、前記関連情報を前記ユーザに提示するステップと
    を含む、方法。
  22. (a)さもなければ前記シーケンスのより前の部分内で識別不可能である、画像特徴を前記シーケンスのより後の部分内で識別し、前記より後の部分からの前記識別を使用して、前記より前の部分内で前記特徴を識別するステップと、
    (b)ユーザのジェスチャーに応答して、前記関連情報のうち少なくともいくつかによって注釈が付けられた、前記シーケンスの少なくとも部分中を前方又は後方に進むステップとのうち、少なくとも1つを含む、請求項21に記載の方法。
  23. 磁気センサ付きスマートフォンを操作する方法であって、小売店環境内で複数の電磁エミッタによって出された磁気信号を検知し、それに基づいて、ナビゲーション又は製品情報をユーザに提供するステップによって特徴付けられる、方法。
  24. センサベースの、人力による、ルートに沿ったナビゲーションの方法であって、前記方法が、
    目的地までのルートを決定するステップと、
    前記ユーザによって携行された電子装置内の1つ又は複数のセンサを使用して、前記決定されたルートに沿ったユーザの進行を検知するステップと、
    フィードバックを前記ユーザに提供して、ナビゲーションを支援するステップと
    を含み、
    前記フィードバックが、前記ユーザが前記目的地へ向かって進行するにつれて、より頻繁になるクリックのパターンを含む、方法。
  25. 前記フィードバックが、振動フィードバックを含む、請求項24に記載の方法。
  26. 前記ユーザが向く方向に従って、前記フィードバックを変更して、前記ユーザによる進行するべき方向の決定を支援するステップを含む、請求項24に記載の方法。
  27. 前記ユーザが静止しているとき、前記フィードバックの大きさを増し、又は、前記ユーザが動いているとき、前記フィードバックの前記大きさを減らすステップを含む、請求項24に記載の方法。
  28. 前記1つ又は複数のセンサが、その方向を示す出力データを作り出す磁力計を含み、前記磁力計が、前記装置が前記ユーザによって携行される向きにより、前記ユーザが向いている方向よりも逸脱する方向を示すことが可能であり、前記方法が、前記逸脱を補償するステップを含む、請求項24に記載の方法。
JP2012537074A 2009-10-28 2010-10-28 センサベースのモバイル検索、関連方法及びシステム Active JP6011938B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US25581709P 2009-10-28 2009-10-28
US61/255,817 2009-10-28
US26102809P 2009-11-13 2009-11-13
US61/261,028 2009-11-13
US26331809P 2009-11-20 2009-11-20
US61/263,318 2009-11-20
US26463909P 2009-11-25 2009-11-25
US61/264,639 2009-11-25
US26696509P 2009-12-04 2009-12-04
US61/266,965 2009-12-04
US28572609P 2009-12-11 2009-12-11
US61/285,726 2009-12-11
US12/640,386 US8175617B2 (en) 2009-10-28 2009-12-17 Sensor-based mobile search, related methods and systems
US12/640,386 2009-12-17
PCT/US2010/054544 WO2011059761A1 (en) 2009-10-28 2010-10-28 Sensor-based mobile search, related methods and systems

Publications (2)

Publication Number Publication Date
JP2013509654A true JP2013509654A (ja) 2013-03-14
JP6011938B2 JP6011938B2 (ja) 2016-10-25

Family

ID=43898869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537074A Active JP6011938B2 (ja) 2009-10-28 2010-10-28 センサベースのモバイル検索、関連方法及びシステム

Country Status (7)

Country Link
US (5) US8175617B2 (ja)
EP (1) EP2494496B1 (ja)
JP (1) JP6011938B2 (ja)
KR (1) KR101796008B1 (ja)
CN (2) CN105224075B (ja)
CA (1) CA2775097C (ja)
WO (1) WO2011059761A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019105632A (ja) * 2017-12-12 2019-06-27 アミューズ トラベル カンパニーリミテッドAmuse Travel Co.,Ltd. イメージ分析に基づく障害者用ナビゲーションサービス提供システム及び方法
JP2020060921A (ja) * 2018-10-09 2020-04-16 富士通コネクテッドテクノロジーズ株式会社 情報処理装置
JP2020521376A (ja) * 2017-05-17 2020-07-16 グーグル エルエルシー イメージデータに少なくとも部分的に基づく、アクションを実行するためのエージェントの決定

Families Citing this family (344)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120306907A1 (en) * 2011-06-03 2012-12-06 Huston Charles D System and Method for Inserting and Enhancing Messages Displayed to a User When Viewing a Venue
US8874477B2 (en) 2005-10-04 2014-10-28 Steven Mark Hoffberg Multifactorial optimization system and method
US8140261B2 (en) * 2005-11-23 2012-03-20 Alcatel Lucent Locating sensor nodes through correlations
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8805110B2 (en) 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
US8929877B2 (en) 2008-09-12 2015-01-06 Digimarc Corporation Methods and systems for content processing
US8908995B2 (en) 2009-01-12 2014-12-09 Intermec Ip Corp. Semi-automatic dimensioning with imager on a portable device
US8350694B1 (en) 2009-05-18 2013-01-08 Alarm.Com Incorporated Monitoring system to monitor a property with a mobile device with a monitoring application
US9749607B2 (en) 2009-07-16 2017-08-29 Digimarc Corporation Coordinated illumination and image signal capture for enhanced signal detection
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8175617B2 (en) * 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8819172B2 (en) 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US8831279B2 (en) * 2011-03-04 2014-09-09 Digimarc Corporation Smartphone-based methods and systems
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
KR20110047398A (ko) * 2009-10-30 2011-05-09 삼성전자주식회사 영상제공시스템 및 그 영상제공방법
US8531523B2 (en) * 2009-12-08 2013-09-10 Trueposition, Inc. Multi-sensor location and identification
US8427443B2 (en) * 2009-12-30 2013-04-23 Hong Kong Applied Science And Technology Research Institute Co. Ltd. Coordinate locating method, coordinate locating device, and display apparatus comprising the coordinate locating device
WO2011082332A1 (en) 2009-12-31 2011-07-07 Digimarc Corporation Methods and arrangements employing sensor-equipped smart phones
US8400548B2 (en) 2010-01-05 2013-03-19 Apple Inc. Synchronized, interactive augmented reality displays for multifunction devices
KR101082487B1 (ko) * 2010-01-29 2011-11-11 키위플 주식회사 객체 인식시스템 및 이를 이용하는 객체 인식 방법
US8477990B2 (en) 2010-03-05 2013-07-02 Digimarc Corporation Reducing watermark perceptibility and extending detection distortion tolerances
US8971567B2 (en) 2010-03-05 2015-03-03 Digimarc Corporation Reducing watermark perceptibility and extending detection distortion tolerances
US10664940B2 (en) 2010-03-05 2020-05-26 Digimarc Corporation Signal encoding to reduce perceptibility of changes over time
US8660355B2 (en) 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
US8244236B2 (en) * 2010-04-29 2012-08-14 Wavemarket, Inc. System and method for aggregating and disseminating mobile device tag data
WO2011139980A1 (en) 2010-05-05 2011-11-10 Digimarc Coporation Hidden image signaling
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8464183B2 (en) * 2010-06-03 2013-06-11 Hewlett-Packard Development Company, L.P. System and method for distinguishing multimodal commands directed at a machine from ambient human communications
US20120174006A1 (en) * 2010-07-02 2012-07-05 Scenemachine, Llc System, method, apparatus and computer program for generating and modeling a scene
US9240021B2 (en) 2010-11-04 2016-01-19 Digimarc Corporation Smartphone-based methods and systems
US9484046B2 (en) * 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
KR101085880B1 (ko) * 2010-11-05 2011-11-23 주식회사 네오패드 가상 키입력수단의 배경화면 광고 제공 방법 및 시스템
KR101749529B1 (ko) * 2010-11-25 2017-06-21 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
CN103282927B (zh) 2011-01-04 2018-11-23 Aq株式会社 广告信息提供系统
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
US8989769B2 (en) * 2011-01-11 2015-03-24 Qualcomm Incorporated Positioning system using light information
US20120232966A1 (en) * 2011-03-08 2012-09-13 Bank Of America Corporation Identifying predetermined objects in a video stream captured by a mobile device
US9317835B2 (en) 2011-03-08 2016-04-19 Bank Of America Corporation Populating budgets and/or wish lists using real-time video image analysis
US9317860B2 (en) 2011-03-08 2016-04-19 Bank Of America Corporation Collective network of augmented reality users
US9224166B2 (en) 2011-03-08 2015-12-29 Bank Of America Corporation Retrieving product information from embedded sensors via mobile device video analysis
US9773285B2 (en) 2011-03-08 2017-09-26 Bank Of America Corporation Providing data associated with relationships between individuals and images
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9037564B2 (en) 2011-04-29 2015-05-19 Stephen Lesavich Method and system for electronic content storage and retrieval with galois fields on cloud computing networks
US9361479B2 (en) 2011-04-29 2016-06-07 Stephen Lesavich Method and system for electronic content storage and retrieval using Galois fields and geometric shapes on cloud computing networks
US9569771B2 (en) 2011-04-29 2017-02-14 Stephen Lesavich Method and system for storage and retrieval of blockchain blocks using galois fields
US9137250B2 (en) 2011-04-29 2015-09-15 Stephen Lesavich Method and system for electronic content storage and retrieval using galois fields and information entropy on cloud computing networks
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US8838688B2 (en) * 2011-05-31 2014-09-16 International Business Machines Corporation Inferring user interests using social network correlation and attribute correlation
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
US10296921B2 (en) * 2011-06-21 2019-05-21 Disney Enterprises, Inc. System and method for event context-based commerce options
US9697051B2 (en) 2011-06-27 2017-07-04 Nokia Technologies Oy Method and apparatus for providing services via cloud-based analytics
US8209183B1 (en) 2011-07-07 2012-06-26 Google Inc. Systems and methods for correction of text from different input types, sources, and contexts
US8719824B2 (en) 2011-08-03 2014-05-06 Raytheon Company Dynamically configurable command and control systems and methods
US9058565B2 (en) * 2011-08-17 2015-06-16 At&T Intellectual Property I, L.P. Opportunistic crowd-based service platform
US11288472B2 (en) * 2011-08-30 2022-03-29 Digimarc Corporation Cart-based shopping arrangements employing probabilistic item identification
US9367770B2 (en) * 2011-08-30 2016-06-14 Digimarc Corporation Methods and arrangements for identifying objects
US9535154B2 (en) 2011-09-12 2017-01-03 Microsoft Technology Licensing, Llc Cache-based location determination
US8498627B2 (en) 2011-09-15 2013-07-30 Digimarc Corporation Intuitive computing methods and systems
US9245051B2 (en) * 2011-09-20 2016-01-26 Nokia Technologies Oy Method and apparatus for conducting a search based on available data modes
US9373042B2 (en) * 2011-09-20 2016-06-21 Toyota Jidosha Kabushiki Kaisha Subject change detection system and subject change detection method
US8615431B1 (en) * 2011-09-29 2013-12-24 Amazon Technologies, Inc. Network content message placement management
US9299110B2 (en) * 2011-10-19 2016-03-29 Facebook, Inc. Periodic ambient waveform analysis for dynamic device configuration
CN103167103B (zh) * 2011-12-17 2017-07-28 富泰华工业(深圳)有限公司 手机及其自动接通方法与自动挂断方法
US9389681B2 (en) 2011-12-19 2016-07-12 Microsoft Technology Licensing, Llc Sensor fusion interface for multiple sensor input
CN104094287A (zh) * 2011-12-21 2014-10-08 诺基亚公司 用于情境识别的方法、装置以及计算机软件
US9275633B2 (en) 2012-01-09 2016-03-01 Microsoft Technology Licensing, Llc Crowd-sourcing pronunciation corrections in text-to-speech engines
US9547832B2 (en) * 2012-01-10 2017-01-17 Oracle International Corporation Identifying individual intentions and determining responses to individual intentions
US10650442B2 (en) * 2012-01-13 2020-05-12 Amro SHIHADAH Systems and methods for presentation and analysis of media content
US9778829B2 (en) 2012-02-17 2017-10-03 Lenovo (Singapore) Pte. Ltd. Magnification based on eye input
US20130254194A1 (en) * 2012-03-23 2013-09-26 Fujitsu Limited Providing setting recommendations to a communication device
US9860365B2 (en) * 2012-03-23 2018-01-02 Fujitsu Limited Providing setting adjustments to a communication device
US9779546B2 (en) 2012-05-04 2017-10-03 Intermec Ip Corp. Volume dimensioning systems and methods
US9007368B2 (en) 2012-05-07 2015-04-14 Intermec Ip Corp. Dimensioning system calibration systems and methods
US10007858B2 (en) 2012-05-15 2018-06-26 Honeywell International Inc. Terminals and methods for dimensioning objects
US9593982B2 (en) 2012-05-21 2017-03-14 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
EP2858269B1 (en) 2012-05-24 2018-02-28 Panasonic Intellectual Property Corporation of America Information communication method
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
US9599632B2 (en) 2012-06-22 2017-03-21 Fitbit, Inc. Fitness monitoring device with altimeter
WO2014022230A2 (en) 2012-07-30 2014-02-06 Fish Robert D Electronic personal companion
US10321127B2 (en) 2012-08-20 2019-06-11 Intermec Ip Corp. Volume dimensioning system calibration systems and methods
US9110844B2 (en) 2012-08-27 2015-08-18 Microsoft Technology Licensing, Llc State maintenance as a service
US9547316B2 (en) * 2012-09-07 2017-01-17 Opower, Inc. Thermostat classification method and system
US9607025B2 (en) * 2012-09-24 2017-03-28 Andrew L. DiRienzo Multi-component profiling systems and methods
US8965398B2 (en) 2012-09-26 2015-02-24 Hewlett-Packard Development Company, L.P. Bluetooth beacon based location determination
US8965824B2 (en) * 2012-09-29 2015-02-24 Intel Corporation Electronic personal advocate
US9939259B2 (en) 2012-10-04 2018-04-10 Hand Held Products, Inc. Measuring object dimensions using mobile computer
US9841311B2 (en) 2012-10-16 2017-12-12 Hand Held Products, Inc. Dimensioning system
US9094616B2 (en) 2012-10-16 2015-07-28 Vidinoti Sa Method and system for image capture and facilitated annotation
JP2016500959A (ja) * 2012-10-16 2016-01-14 ヴィディノティ エスアーVidinoti Sa 画像キャプチャおよび容易なアノテーションのための方法およびシステム
US20140108103A1 (en) * 2012-10-17 2014-04-17 Gengo, Inc. Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
US8942420B2 (en) * 2012-10-18 2015-01-27 Qualcomm Incorporated Detecting embossed characters on form factor
US9154565B2 (en) 2012-11-29 2015-10-06 The Nielsen Company (Us), Llc Methods and apparatus to monitor online activity
US9813662B2 (en) * 2012-11-30 2017-11-07 Lenovo (Singapore) Pte. Ltd. Transfer to target disambiguation
US8847775B2 (en) 2012-11-30 2014-09-30 Panasonic Corporation Tangible charge level awareness method and apparatus using augmented batteries
US9166895B1 (en) * 2012-12-13 2015-10-20 Vmware, Inc. Detecting process execution state change using measurement of resource consumption
US20140172767A1 (en) * 2012-12-14 2014-06-19 Microsoft Corporation Budget optimal crowdsourcing
US9046926B2 (en) * 2012-12-17 2015-06-02 International Business Machines Corporation System and method of dynamically generating a frequency pattern to realize the sense of touch in a computing device
US9767768B2 (en) 2012-12-20 2017-09-19 Arris Enterprises, Inc. Automated object selection and placement for augmented reality
CN104871453B (zh) 2012-12-27 2017-08-25 松下电器(美国)知识产权公司 影像显示方法和装置
US9608725B2 (en) 2012-12-27 2017-03-28 Panasonic Intellectual Property Corporation Of America Information processing program, reception program, and information processing apparatus
US10530486B2 (en) 2012-12-27 2020-01-07 Panasonic Intellectual Property Corporation Of America Transmitting method, transmitting apparatus, and program
US10523876B2 (en) 2012-12-27 2019-12-31 Panasonic Intellectual Property Corporation Of America Information communication method
US8913144B2 (en) 2012-12-27 2014-12-16 Panasonic Intellectual Property Corporation Of America Information communication method
US9341014B2 (en) 2012-12-27 2016-05-17 Panasonic Intellectual Property Corporation Of America Information communication method using change in luminance
US8922666B2 (en) * 2012-12-27 2014-12-30 Panasonic Intellectual Property Corporation Of America Information communication method
EP2940889B1 (en) 2012-12-27 2019-07-31 Panasonic Intellectual Property Corporation of America Visible-light-communication-signal display method and display device
EP2940901B1 (en) 2012-12-27 2019-08-07 Panasonic Intellectual Property Corporation of America Display method
US9088360B2 (en) 2012-12-27 2015-07-21 Panasonic Intellectual Property Corporation Of America Information communication method
US10303945B2 (en) 2012-12-27 2019-05-28 Panasonic Intellectual Property Corporation Of America Display method and display apparatus
JP5603523B1 (ja) 2012-12-27 2014-10-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 制御方法、情報通信装置およびプログラム
US10951310B2 (en) 2012-12-27 2021-03-16 Panasonic Intellectual Property Corporation Of America Communication method, communication device, and transmitter
US9608727B2 (en) 2012-12-27 2017-03-28 Panasonic Intellectual Property Corporation Of America Switched pixel visible light transmitting method, apparatus and program
US9183261B2 (en) 2012-12-28 2015-11-10 Shutterstock, Inc. Lexicon based systems and methods for intelligent media search
US9183215B2 (en) 2012-12-29 2015-11-10 Shutterstock, Inc. Mosaic display systems and methods for intelligent media search
CN103905505A (zh) * 2012-12-30 2014-07-02 青岛海尔软件有限公司 监控植物生长的手机应用系统
US20140201276A1 (en) 2013-01-17 2014-07-17 Microsoft Corporation Accumulation of real-time crowd sourced data for inferring metadata about entities
US20140244741A1 (en) * 2013-02-25 2014-08-28 Stellr, Inc. Computer-Implemented System And Method For Context-Based APP Searching And APP Use Insights
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9080856B2 (en) 2013-03-13 2015-07-14 Intermec Ip Corp. Systems and methods for enhancing dimensioning, for example volume dimensioning
US20140310277A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Suspending user profile modification based on user context
US9679053B2 (en) 2013-05-20 2017-06-13 The Nielsen Company (Us), Llc Detecting media watermarks in magnetic field data
US9626439B2 (en) * 2013-05-31 2017-04-18 Xilopix Method for searching in a database
US9621760B2 (en) 2013-06-07 2017-04-11 Digimarc Corporation Information coding and decoding in spectral differences
US10228452B2 (en) 2013-06-07 2019-03-12 Hand Held Products, Inc. Method of error correction for 3D imaging device
US10645651B2 (en) 2013-06-12 2020-05-05 Qualcomm Incorporated Methods and apparatus for improving re-activation of a NFC-F based remote NFC device
CN103297544B (zh) * 2013-06-24 2015-06-17 杭州泰一指尚科技有限公司 一种基于增强现实的即时通讯应用方法
US9239950B2 (en) 2013-07-01 2016-01-19 Hand Held Products, Inc. Dimensioning system
US9464885B2 (en) 2013-08-30 2016-10-11 Hand Held Products, Inc. System and method for package dimensioning
KR101627169B1 (ko) 2013-09-27 2016-06-07 한국과학기술연구원 증강현실 컨텐츠 저작 및 제공 시스템
US11210705B1 (en) * 2013-10-18 2021-12-28 United Services Automobile Association (Usaa) System and method for transmitting direct advertising information to an augmented reality device
CN107466008B (zh) * 2013-10-22 2020-12-25 华为终端有限公司 一种移动终端的消息呈现方法及移动终端
US9870357B2 (en) * 2013-10-28 2018-01-16 Microsoft Technology Licensing, Llc Techniques for translating text via wearable computing device
EP3063687A4 (en) 2013-10-28 2017-04-19 Nant Holdings IP LLC Intent engines systems and method
US10021247B2 (en) 2013-11-14 2018-07-10 Wells Fargo Bank, N.A. Call center interface
US9864972B2 (en) 2013-11-14 2018-01-09 Wells Fargo Bank, N.A. Vehicle interface
US10037542B2 (en) * 2013-11-14 2018-07-31 Wells Fargo Bank, N.A. Automated teller machine (ATM) interface
US9363558B2 (en) 2013-11-19 2016-06-07 The Nielsen Company (Us), Llc Methods and apparatus to measure a cross device audience
US10163455B2 (en) 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
US9110635B2 (en) 2013-12-03 2015-08-18 Lenova (Singapore) Pte. Ltd. Initiating personal assistant application based on eye tracking and gestures
US9213659B2 (en) 2013-12-03 2015-12-15 Lenovo (Singapore) Pte. Ltd. Devices and methods to receive input at a first device and present output in response on a second device different from the first device
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9709708B2 (en) 2013-12-09 2017-07-18 Lenovo (Singapore) Pte. Ltd. Adjustable display optics
US10180716B2 (en) 2013-12-20 2019-01-15 Lenovo (Singapore) Pte Ltd Providing last known browsing location cue using movement-oriented biometric data
US9633252B2 (en) 2013-12-20 2017-04-25 Lenovo (Singapore) Pte. Ltd. Real-time detection of user intention based on kinematics analysis of movement-oriented biometric data
EP2887294A1 (en) * 2013-12-23 2015-06-24 Thomson Licensing Method and device for providing targeted content
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
US10612939B2 (en) * 2014-01-02 2020-04-07 Microsoft Technology Licensing, Llc Ground truth estimation for autonomous navigation
US10453097B2 (en) 2014-01-13 2019-10-22 Nant Holdings Ip, Llc Sentiments based transaction systems and methods
US10073671B2 (en) 2014-01-20 2018-09-11 Lenovo (Singapore) Pte. Ltd. Detecting noise or object interruption in audio video viewing and altering presentation based thereon
CN104866504B (zh) * 2014-02-25 2018-07-06 北京娜迦信息科技发展有限公司 一种对Android软件进行功能扩展的方法及装置
WO2015131206A1 (en) 2014-02-28 2015-09-03 Nant Vision, Inc. Object recognition trait analysis systems and methods
US20150262446A1 (en) * 2014-03-13 2015-09-17 Daniel Taylor Currency inspection using mobile device and attachments
US10713614B1 (en) * 2014-03-25 2020-07-14 Amazon Technologies, Inc. Weight and vision based item tracking
US10657411B1 (en) 2014-03-25 2020-05-19 Amazon Technologies, Inc. Item identification
US10009311B2 (en) * 2014-03-28 2018-06-26 Alcatel Lucent Chat-based support of multiple communication interaction types
CN106255950B (zh) * 2014-04-22 2019-03-22 三菱电机株式会社 用户界面系统、用户界面控制装置和用户界面控制方法
US9870500B2 (en) 2014-06-11 2018-01-16 At&T Intellectual Property I, L.P. Sensor enhanced speech recognition
US9766702B2 (en) 2014-06-19 2017-09-19 Apple Inc. User detection by a computing device
KR102304979B1 (ko) * 2014-06-19 2021-09-27 삼성전자주식회사 전자 장치 및 전자 장치에서 페어링 방법
KR101487461B1 (ko) * 2014-06-26 2015-01-28 우원소프트 주식회사 개인영상 정보보호 기능이 탑재된 얼굴인식 보안 관제 시스템
US9823059B2 (en) 2014-08-06 2017-11-21 Hand Held Products, Inc. Dimensioning system with guided alignment
US9811095B2 (en) 2014-08-06 2017-11-07 Lenovo (Singapore) Pte. Ltd. Glasses with fluid-fillable membrane for adjusting focal length of one or more lenses of the glasses
US10113910B2 (en) 2014-08-26 2018-10-30 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
CN104219534B (zh) * 2014-08-27 2019-02-26 烽火通信科技股份有限公司 一种Linux机顶盒实现云存储代理的系统及方法
CN104302016A (zh) * 2014-09-16 2015-01-21 北京市信息技术研究所 一种基于多功能复合式传感器的无线传感网架构
US10417525B2 (en) 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US9779276B2 (en) 2014-10-10 2017-10-03 Hand Held Products, Inc. Depth sensor based auto-focus system for an indicia scanner
US10810715B2 (en) 2014-10-10 2020-10-20 Hand Held Products, Inc System and method for picking validation
US10775165B2 (en) 2014-10-10 2020-09-15 Hand Held Products, Inc. Methods for improving the accuracy of dimensioning-system measurements
US9752864B2 (en) 2014-10-21 2017-09-05 Hand Held Products, Inc. Handheld dimensioning system with feedback
US9897434B2 (en) 2014-10-21 2018-02-20 Hand Held Products, Inc. Handheld dimensioning system with measurement-conformance feedback
US9557166B2 (en) 2014-10-21 2017-01-31 Hand Held Products, Inc. Dimensioning system with multipath interference mitigation
US10060729B2 (en) 2014-10-21 2018-08-28 Hand Held Products, Inc. Handheld dimensioner with data-quality indication
US9762793B2 (en) 2014-10-21 2017-09-12 Hand Held Products, Inc. System and method for dimensioning
US20160132476A1 (en) * 2014-11-06 2016-05-12 Vinc Corporation Guidance content development and presentation
US9727941B1 (en) 2014-11-19 2017-08-08 Digimarc Corporation Optimizing optical scanners for digital watermark detection
US9535497B2 (en) 2014-11-20 2017-01-03 Lenovo (Singapore) Pte. Ltd. Presentation of data on an at least partially transparent display based on user focus
CN104665838B (zh) * 2015-02-11 2017-08-04 深圳泰山体育科技股份有限公司 体质检测方法及系统
US9904504B2 (en) 2015-02-24 2018-02-27 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for providing environmental feedback based on received gestural input
US9591447B2 (en) * 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for providing contextual environmental information
US10013540B2 (en) 2015-03-10 2018-07-03 Lenovo (Singapore) Pte. Ltd. Authentication based on body movement
US10860094B2 (en) 2015-03-10 2020-12-08 Lenovo (Singapore) Pte. Ltd. Execution of function based on location of display at which a user is looking and manipulation of an input device
US10499164B2 (en) 2015-03-18 2019-12-03 Lenovo (Singapore) Pte. Ltd. Presentation of audio based on source
US9585155B2 (en) 2015-03-20 2017-02-28 Qualcomm Incorporated Optimizing the allocation of spare resources
US10621431B2 (en) 2015-03-27 2020-04-14 Lenovo (Singapore) Pte. Ltd. Camera that uses light from plural light sources disposed on a device
JP6572618B2 (ja) * 2015-05-08 2019-09-11 富士通株式会社 情報処理装置、情報処理プログラム、情報処理方法、端末装置、設定方法、設定プログラム
US9786101B2 (en) 2015-05-19 2017-10-10 Hand Held Products, Inc. Evaluating image values
US10075919B2 (en) * 2015-05-21 2018-09-11 Motorola Mobility Llc Portable electronic device with proximity sensors and identification beacon
US10066982B2 (en) 2015-06-16 2018-09-04 Hand Held Products, Inc. Calibrating a volume dimensioner
US20160377414A1 (en) 2015-06-23 2016-12-29 Hand Held Products, Inc. Optical pattern projector
US9857167B2 (en) 2015-06-23 2018-01-02 Hand Held Products, Inc. Dual-projector three-dimensional scanner
CN107820621A (zh) * 2015-06-25 2018-03-20 皇家飞利浦有限公司 用于控制电子设备的操作的方法和装置
CN104915696B (zh) * 2015-07-01 2017-10-27 浙江工业大学 一种基于Android平台的NFC读写方法
US9835486B2 (en) 2015-07-07 2017-12-05 Hand Held Products, Inc. Mobile dimensioner apparatus for use in commerce
EP3118576B1 (en) 2015-07-15 2018-09-12 Hand Held Products, Inc. Mobile dimensioning device with dynamic accuracy compatible with nist standard
US10094650B2 (en) 2015-07-16 2018-10-09 Hand Held Products, Inc. Dimensioning and imaging items
US20170017301A1 (en) 2015-07-16 2017-01-19 Hand Held Products, Inc. Adjusting dimensioning results using augmented reality
DE102015111753A1 (de) 2015-07-20 2017-01-26 Infineon Technologies Ag Verfahren und vorrichtung zur verwendung bei einer akquisition von messdaten
KR101716418B1 (ko) * 2015-07-24 2017-03-14 주식회사 스마티랩 모바일 디바이스의 컨텍스트 수집이나 전송 효율성을 위한 자율 최적화 시스템 및 그 방법
CN115634442A (zh) * 2015-08-03 2023-01-24 天使集团股份有限公司 游艺场的作弊检测系统
US10412160B2 (en) 2015-08-05 2019-09-10 Facebook, Inc. Controlling a device cloud
US10541958B2 (en) 2015-08-05 2020-01-21 Facebook, Inc. Controlling a device cloud
US10425392B2 (en) 2015-08-05 2019-09-24 Facebook, Inc. Managing a device cloud
US10567479B2 (en) 2015-08-05 2020-02-18 Facebook, Inc. Managing a device cloud
US10348798B2 (en) * 2015-08-05 2019-07-09 Facebook, Inc. Rules engine for connected devices
US10157333B1 (en) 2015-09-15 2018-12-18 Snap Inc. Systems and methods for content tagging
US10048765B2 (en) 2015-09-25 2018-08-14 Apple Inc. Multi media computing or entertainment system for responding to user presence and activity
US10249030B2 (en) 2015-10-30 2019-04-02 Hand Held Products, Inc. Image transformation for indicia reading
US10692126B2 (en) 2015-11-17 2020-06-23 Nio Usa, Inc. Network-based system for selling and servicing cars
US20170142023A1 (en) * 2015-11-18 2017-05-18 The Rubicon Project, Inc. Networked system for interconnecting sensor-based devices
US10225544B2 (en) 2015-11-19 2019-03-05 Hand Held Products, Inc. High resolution dot pattern
EP3173905B1 (en) * 2015-11-24 2019-06-19 Polar Electro Oy Enhancing controlling of haptic output
CN106855771A (zh) * 2015-12-09 2017-06-16 阿里巴巴集团控股有限公司 一种数据处理方法、装置和智能终端
US9846970B2 (en) * 2015-12-16 2017-12-19 Intel Corporation Transitioning augmented reality objects in physical and digital environments
US10467888B2 (en) * 2015-12-18 2019-11-05 International Business Machines Corporation System and method for dynamically adjusting an emergency coordination simulation system
KR101761631B1 (ko) * 2015-12-29 2017-07-26 엘지전자 주식회사 이동단말기 및 그 제어방법
US10025314B2 (en) 2016-01-27 2018-07-17 Hand Held Products, Inc. Vehicle positioning and object avoidance
US10424203B2 (en) * 2016-01-29 2019-09-24 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for driving hazard estimation using vehicle-to-vehicle communication
US10832303B2 (en) * 2016-03-11 2020-11-10 Ebay Inc. Removal of listings based on similarity
US10319371B2 (en) * 2016-05-04 2019-06-11 GM Global Technology Operations LLC Disambiguation of vehicle speech commands
US10339352B2 (en) 2016-06-03 2019-07-02 Hand Held Products, Inc. Wearable metrological apparatus
US9940721B2 (en) 2016-06-10 2018-04-10 Hand Held Products, Inc. Scene change detection in a dimensioner
US10163216B2 (en) 2016-06-15 2018-12-25 Hand Held Products, Inc. Automatic mode switching in a volume dimensioner
US11334768B1 (en) 2016-07-05 2022-05-17 Snap Inc. Ephemeral content management
US20180012197A1 (en) 2016-07-07 2018-01-11 NextEv USA, Inc. Battery exchange licensing program based on state of charge of battery pack
US10839311B2 (en) 2016-07-19 2020-11-17 International Business Machines Corporation Cognitive computing for servers and mobile devices
US9928734B2 (en) 2016-08-02 2018-03-27 Nio Usa, Inc. Vehicle-to-pedestrian communication systems
CN117056558A (zh) 2016-08-08 2023-11-14 内特拉戴因股份有限公司 使用边缘计算的分布式视频存储和搜索
CN106355411A (zh) * 2016-08-29 2017-01-25 中科院微电子研究所昆山分所 一种智能指纹钱包
CN106874818B (zh) 2016-08-30 2019-11-22 阿里巴巴集团控股有限公司 一种数字对象唯一标识符doi识别方法与装置
FR3055698B1 (fr) * 2016-09-08 2018-08-17 Safran Aircraft Engines Procede de controle de la conformite du profil d'une surface courbe d'un element d'une turbomachine
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
WO2018075927A1 (en) 2016-10-21 2018-04-26 Google Llc Stylizing input images
US11024160B2 (en) 2016-11-07 2021-06-01 Nio Usa, Inc. Feedback performance control and tracking
US10708547B2 (en) 2016-11-11 2020-07-07 Nio Usa, Inc. Using vehicle sensor data to monitor environmental and geologic conditions
US10694357B2 (en) 2016-11-11 2020-06-23 Nio Usa, Inc. Using vehicle sensor data to monitor pedestrian health
US10410064B2 (en) 2016-11-11 2019-09-10 Nio Usa, Inc. System for tracking and identifying vehicles and pedestrians
US10699305B2 (en) 2016-11-21 2020-06-30 Nio Usa, Inc. Smart refill assistant for electric vehicles
US10249104B2 (en) 2016-12-06 2019-04-02 Nio Usa, Inc. Lease observation and event recording
US10909708B2 (en) 2016-12-09 2021-02-02 Hand Held Products, Inc. Calibrating a dimensioner using ratios of measurable parameters of optic ally-perceptible geometric elements
CN106685512B (zh) * 2017-01-05 2020-03-13 清华大学 基于分布式星群的数据传输方法和装置
US10074223B2 (en) 2017-01-13 2018-09-11 Nio Usa, Inc. Secured vehicle for user use only
US10471829B2 (en) 2017-01-16 2019-11-12 Nio Usa, Inc. Self-destruct zone and autonomous vehicle navigation
US9984572B1 (en) 2017-01-16 2018-05-29 Nio Usa, Inc. Method and system for sharing parking space availability among autonomous vehicles
US10031521B1 (en) 2017-01-16 2018-07-24 Nio Usa, Inc. Method and system for using weather information in operation of autonomous vehicles
US10464530B2 (en) 2017-01-17 2019-11-05 Nio Usa, Inc. Voice biometric pre-purchase enrollment for autonomous vehicles
US10286915B2 (en) 2017-01-17 2019-05-14 Nio Usa, Inc. Machine learning for personalized driving
US10235788B2 (en) * 2017-01-17 2019-03-19 Opentv, Inc. Overlay contrast control in augmented reality displays
US10897469B2 (en) 2017-02-02 2021-01-19 Nio Usa, Inc. System and method for firewalls between vehicle networks
JP7021236B2 (ja) * 2017-02-09 2022-02-16 グーグル エルエルシー 視覚入力を使用したエージェントナビゲーション
US20180260401A1 (en) * 2017-03-08 2018-09-13 Netradyne Inc Distributed video search with edge computing
US11188456B2 (en) * 2017-03-21 2021-11-30 Western Digital Technologies Inc. Storage system and method for predictive block allocation for efficient garbage collection
US11047672B2 (en) 2017-03-28 2021-06-29 Hand Held Products, Inc. System for optically dimensioning
US10275651B2 (en) * 2017-05-16 2019-04-30 Google Llc Resolving automated assistant requests that are based on image(s) and/or other sensor data
US10861476B2 (en) 2017-05-24 2020-12-08 Modulate, Inc. System and method for building a voice database
CN110741223A (zh) * 2017-06-16 2020-01-31 本田技研工业株式会社 信息处理装置、信息处理方法以及程序
US10234302B2 (en) 2017-06-27 2019-03-19 Nio Usa, Inc. Adaptive route and motion planning based on learned external and internal vehicle environment
US10369974B2 (en) 2017-07-14 2019-08-06 Nio Usa, Inc. Control and coordination of driverless fuel replenishment for autonomous vehicles
US10710633B2 (en) 2017-07-14 2020-07-14 Nio Usa, Inc. Control of complex parking maneuvers and autonomous fuel replenishment of driverless vehicles
US10733748B2 (en) 2017-07-24 2020-08-04 Hand Held Products, Inc. Dual-pattern optical 3D dimensioning
US10837790B2 (en) 2017-08-01 2020-11-17 Nio Usa, Inc. Productive and accident-free driving modes for a vehicle
TWI643163B (zh) * 2017-08-07 2018-12-01 國防醫學院 Simulation training system and method
US20190095069A1 (en) * 2017-09-25 2019-03-28 Motorola Solutions, Inc Adaptable interface for retrieving available electronic digital assistant services
US10963801B2 (en) 2017-09-29 2021-03-30 X Development Llc Generating solutions from aural inputs
US10635109B2 (en) 2017-10-17 2020-04-28 Nio Usa, Inc. Vehicle path-planner monitor and controller
US10935978B2 (en) 2017-10-30 2021-03-02 Nio Usa, Inc. Vehicle self-localization using particle filters and visual odometry
US10606274B2 (en) 2017-10-30 2020-03-31 Nio Usa, Inc. Visual place recognition based self-localization for autonomous vehicles
CN108021954B (zh) 2017-11-01 2020-06-05 阿里巴巴集团控股有限公司 业务过程的启动方法和装置
US10717412B2 (en) 2017-11-13 2020-07-21 Nio Usa, Inc. System and method for controlling a vehicle using secondary access methods
CN108133708B (zh) * 2017-12-04 2021-01-08 维沃移动通信有限公司 一种语音助手的控制方法、装置及移动终端
CN108171117B (zh) * 2017-12-05 2019-05-21 南京南瑞信息通信科技有限公司 基于多核异构并行计算的电力人工智能视觉分析系统
US11232178B2 (en) * 2017-12-22 2022-01-25 Synaptics Incorporated Systems and methods for behavioral authentication using a touch sensor device
CN108174126B (zh) * 2017-12-28 2020-09-18 北京空间机电研究所 一种基于可见光图像的ccd信号采样位置精确选取方法
CN108242961B (zh) * 2017-12-29 2022-02-08 南京航空航天大学 基于集成学习的全双工认知无线电网络合作频谱感知方法
CN108335182B (zh) * 2018-01-12 2021-09-14 武汉理工大学 一种基于双边拍卖机制的云平台Web服务交易系统及方法
CN108391245A (zh) * 2018-01-31 2018-08-10 华北水利水电大学 即插即用型无线传感器网络节点
US10678752B2 (en) 2018-02-07 2020-06-09 International Business Machines Corporation Closure-based container volumes with ratio-based modeling
US10957072B2 (en) 2018-02-21 2021-03-23 Cognex Corporation System and method for simultaneous consideration of edges and normals in image features by a vision system
US11803890B2 (en) 2018-04-11 2023-10-31 Wells Fargo Bank, N.A. Method and system for concurrent visualization tool using augmented reality to improve decision making
CN108762915B (zh) * 2018-04-19 2020-11-06 上海交通大学 一种在gpu内存中缓存rdf数据的方法
CN108597615A (zh) * 2018-04-19 2018-09-28 南京脑科医院 一种轻度认知障碍患者痴呆转化的筛选参考方法
US10977871B2 (en) * 2018-04-25 2021-04-13 International Business Machines Corporation Delivery of a time-dependent virtual reality environment in a computing system
US10584962B2 (en) 2018-05-01 2020-03-10 Hand Held Products, Inc System and method for validating physical-item security
US20190339082A1 (en) * 2018-05-02 2019-11-07 Blackberry Limited Method and system for hybrid collective perception and map crowdsourcing
US11431582B2 (en) * 2018-05-05 2022-08-30 Fmr Llc Systems and methods for context aware adaptation of services and resources in a distributed computing system
US10369966B1 (en) 2018-05-23 2019-08-06 Nio Usa, Inc. Controlling access to a vehicle using wireless access devices
US11526568B2 (en) * 2018-05-25 2022-12-13 Yellcast, Inc. User interfaces and methods for operating a mobile computing device for location-based transactions
CN110557684B (zh) * 2018-06-01 2022-09-06 北京京东尚科信息技术有限公司 信息处理方法、系统、电子设备和计算机可读介质
CN109099828B (zh) * 2018-07-13 2024-02-13 北京市劳动保护科学研究所 基于Arduino的动态位移实时采集系统及方法
CN109271844B (zh) * 2018-07-29 2023-03-28 国网上海市电力公司 基于OpenCV的电气柜电气符号识别方法
US10769543B2 (en) 2018-08-01 2020-09-08 Forcepoint Llc Double-layered image classification endpoint solution
CN109241862A (zh) * 2018-08-14 2019-01-18 广州杰赛科技股份有限公司 目标区域确定方法和系统、计算机设备、计算机存储介质
US10798527B2 (en) 2018-09-20 2020-10-06 International Business Machines Corporation Cognitive progressive method and system for deploying indoor location sensor networks
US10830593B2 (en) 2018-09-25 2020-11-10 International Business Machines Corporation Cognitive fingerprinting for indoor location sensor networks
CN109558041B (zh) * 2018-09-28 2021-09-24 天津大学 基于gpu加速的叶尖间隙信号采集、处理和传输方法
CN109357673A (zh) * 2018-10-30 2019-02-19 上海仝物云计算有限公司 基于图像的视觉导航方法和装置
US11212521B2 (en) * 2018-11-07 2021-12-28 Avago Technologies International Sales Pte. Limited Control of memory bandwidth consumption of affine mode in versatile video coding
CN109598515B (zh) * 2018-11-29 2020-08-04 阿里巴巴集团控股有限公司 一种支付方法、支付装置及终端设备
CN111328021B (zh) * 2018-12-14 2021-08-27 中国移动通信集团河南有限公司 一种面向物联网防控的超业务场景预警方法及系统
JP7419721B2 (ja) * 2018-12-20 2024-01-23 セイコーエプソン株式会社 回路装置、電子機器及び移動体
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
CN109933191B (zh) * 2019-02-13 2022-06-03 苏鹏程 手势识别和控制方法及其系统
CN110119885B (zh) * 2019-04-18 2022-11-01 华南理工大学 一种基于虚拟现实技术的地铁站台指示牌效用评价方法
CN110136560B (zh) * 2019-05-31 2020-12-29 山东交通学院 斜截式仿生蝙蝠耳喇叭模型功能装置及实验方法
CN110349434A (zh) * 2019-07-12 2019-10-18 电子科技大学 基于智能规划技术的泊车规划系统及方法
CN110275138B (zh) * 2019-07-16 2021-03-23 北京工业大学 一种利用优势声源成分移除的多声源定位方法
WO2021030759A1 (en) * 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11763191B2 (en) 2019-08-20 2023-09-19 The Calany Holding S. À R.L. Virtual intelligence and optimization through multi-source, real-time, and context-aware real-world data
US11520601B2 (en) 2019-08-23 2022-12-06 International Business Machines Corporation Device linked context identification and notification
CN110738602B (zh) * 2019-09-12 2021-01-01 北京三快在线科技有限公司 图像处理方法、装置、电子设备及可读存储介质
US11958183B2 (en) 2019-09-19 2024-04-16 The Research Foundation For The State University Of New York Negotiation-based human-robot collaboration via augmented reality
KR102252084B1 (ko) * 2019-09-19 2021-05-17 주식회사 스켈터랩스 블랙보드 기반의 사용자 모델링을 위한 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN110596425B (zh) * 2019-09-23 2021-07-27 成都航空职业技术学院 一种无人机mems加速度传感器噪声消除方法
US11639846B2 (en) 2019-09-27 2023-05-02 Honeywell International Inc. Dual-pattern optical 3D dimensioning
US11232834B2 (en) 2019-10-29 2022-01-25 Qualcomm Incorporated Pose estimation in extended reality systems
CN111063005B (zh) * 2019-12-13 2023-04-14 厦门亿联网络技术股份有限公司 一种笔迹的处理方法及装置
CN111240966B (zh) * 2020-01-03 2023-10-24 中国建设银行股份有限公司 一种告警信息处理方法及系统
US10955988B1 (en) 2020-02-14 2021-03-23 Lenovo (Singapore) Pte. Ltd. Execution of function based on user looking at one area of display while touching another area of display
US10715412B1 (en) * 2020-03-05 2020-07-14 Gigantic Ltd. Systems and methods for monitoring of overall latency
CN111970653B (zh) * 2020-06-05 2021-11-02 清华大学 基于虚伪审查的防窃听稀疏信号检测方法及系统
CA3181067A1 (en) 2020-06-05 2021-12-09 Gautam Narang Method and system for context-aware decision making of an autonomous agent
WO2021247081A1 (en) 2020-06-05 2021-12-09 Gatikai Inc. Method and system for data-driven and modular decision making and trajectory generation of an autonomous agent
JP2023528078A (ja) 2020-06-05 2023-07-03 ガティック エーアイ インコーポレイテッド 自律エージェントの不確実性推定に基づく決定論的軌道選択のための方法およびシステム
CN111885532A (zh) * 2020-07-22 2020-11-03 云南电网有限责任公司电力科学研究院 一种基于物联网的异构网络能效优化方法
US11139858B1 (en) 2020-07-24 2021-10-05 International Business Machines Corporation Wireless communication management
CN112016440B (zh) * 2020-08-26 2024-02-20 杭州云栖智慧视通科技有限公司 一种基于多目标跟踪的目标推送方法
KR20230050466A (ko) 2020-09-25 2023-04-14 애플 인크. 사용자 인터페이스들을 내비게이팅하기 위한 방법들
CN112131348B (zh) * 2020-09-29 2022-08-09 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112333645A (zh) * 2020-11-24 2021-02-05 深圳市银河风云网络系统股份有限公司 一种蓝牙群组对讲通信系统及其实现方法
CN113012298B (zh) * 2020-12-25 2022-04-08 浙江大学 一种基于区域检测的弯曲mark三维注册增强现实方法
CN113124883B (zh) * 2021-03-01 2023-03-28 浙江国自机器人技术股份有限公司 基于3d全景相机的离线标点方法
CN112966595B (zh) * 2021-03-04 2022-04-05 桂林电子科技大学 一种基于图神经网络的传感器网络数据异常判决方法
CN112967281B (zh) * 2021-04-07 2022-11-08 洛阳伟信电子科技有限公司 一种基于弧支持生长的椭圆检测算法
KR20230050690A (ko) 2021-10-08 2023-04-17 임현일 카페 좌석 확인 서비스
CN114205677B (zh) * 2021-11-30 2022-10-14 浙江大学 一种基于原型视频的短视频自动编辑方法
CN114844886B (zh) * 2022-03-22 2023-11-24 山东理工大学 云边结合环境下基于海鸥优化算法的移动服务选择方法
KR102543681B1 (ko) * 2022-07-26 2023-06-16 주식회사 에스씨이코리아 Ai를 이용한 접근성 검증 시스템
TWI825972B (zh) * 2022-09-02 2023-12-11 英屬維爾京群島商威爾德嘉德有限公司 影像處理系統、方法、電子設備及介質

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029582A1 (ja) * 2005-09-07 2007-03-15 Ibm Japan, Ltd. 表示装置、出力装置、表示システム、表示方法、媒体、プログラム、及び外部ユニット
JP2007257502A (ja) * 2006-03-24 2007-10-04 Oki Electric Ind Co Ltd 貨幣入金装置
JP2008236141A (ja) * 2007-03-19 2008-10-02 Sony Corp 画像処理装置、画像処理方法
WO2008126663A1 (ja) * 2007-04-06 2008-10-23 Ntt Docomo, Inc. 移動通信端末、情報処理装置及びプログラム
JP2009505288A (ja) * 2005-08-15 2009-02-05 エブリックス・テクノロジーズ・インコーポレイテッド 画像から得られる情報のインターネットおよびその他の検索エンジンのための検索基準としての使用

Family Cites Families (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6614914B1 (en) 1995-05-08 2003-09-02 Digimarc Corporation Watermark embedder and reader
US6122403A (en) 1995-07-27 2000-09-19 Digimarc Corporation Computer system linked by using information in data objects
US6947571B1 (en) 1999-05-19 2005-09-20 Digimarc Corporation Cell phones with optical capabilities, and related applications
US7383169B1 (en) 1994-04-13 2008-06-03 Microsoft Corporation Method and system for compiling a lexical knowledge base
US6001065A (en) 1995-08-02 1999-12-14 Ibva Technologies, Inc. Method and apparatus for measuring and analyzing physiological signals for active or passive control of physical and virtual spaces and the contents therein
US7930546B2 (en) 1996-05-16 2011-04-19 Digimarc Corporation Methods, systems, and sub-combinations useful in media identification
JP3591259B2 (ja) 1997-12-12 2004-11-17 セイコーエプソン株式会社 ネットワークシステム並びにネットワーク印刷方法
JP3688879B2 (ja) 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
US7739224B1 (en) * 1998-05-06 2010-06-15 Infor Global Solutions (Michigan), Inc. Method and system for creating a well-formed database using semantic definitions
US7006555B1 (en) 1998-07-16 2006-02-28 Nielsen Media Research, Inc. Spectral audio encoding
US6243713B1 (en) 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
CA2310769C (en) 1999-10-27 2013-05-28 Nielsen Media Research, Inc. Audio signature extraction and correlation
US6546262B1 (en) 1999-11-12 2003-04-08 Altec Lansing Technologies, Inc. Cellular telephone accessory device for a personal computer system
WO2001052178A1 (en) 2000-01-13 2001-07-19 Digimarc Corporation Authenticating metadata and embedding metadata in watermarks of media signals
US20010037455A1 (en) 2000-03-09 2001-11-01 Lawandy Nabil M. Authentication using a digital watermark
US6968564B1 (en) 2000-04-06 2005-11-22 Nielsen Media Research, Inc. Multi-band spectral audio encoding
US7738673B2 (en) 2000-04-19 2010-06-15 Digimarc Corporation Low visible digital watermarks
US8121843B2 (en) 2000-05-02 2012-02-21 Digimarc Corporation Fingerprint methods and systems for media signals
JP2001326952A (ja) 2000-05-15 2001-11-22 Nec Corp 放送確認システム、放送確認方法及び装置、放送確認プログラムを記録した記録媒体
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7890386B1 (en) 2000-10-27 2011-02-15 Palisades Technology, Llc Method for use with a wireless communication device for facilitating tasks using images and selections
US7016532B2 (en) * 2000-11-06 2006-03-21 Evryx Technologies Image capture and identification system and process
US7899243B2 (en) * 2000-11-06 2011-03-01 Evryx Technologies, Inc. Image capture and identification system and process
US6629104B1 (en) 2000-11-22 2003-09-30 Eastman Kodak Company Method for adding personalized metadata to a collection of digital images
WO2002050652A2 (en) 2000-12-18 2002-06-27 Human Bionics Llc, Method and system for initiating activity based on sensed electrophysiological data
US7359889B2 (en) 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US6722569B2 (en) 2001-07-13 2004-04-20 Welch Allyn Data Collection, Inc. Optical reader having a color imager
US6862355B2 (en) 2001-09-07 2005-03-01 Arbitron Inc. Message reconstruction from partial detection
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7020304B2 (en) 2002-01-22 2006-03-28 Digimarc Corporation Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding
US7152786B2 (en) 2002-02-12 2006-12-26 Digimarc Corporation Identification document including embedded data
US7369685B2 (en) * 2002-04-05 2008-05-06 Identix Corporation Vision-based operating method and system
US7043474B2 (en) 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US7254406B2 (en) 2002-06-10 2007-08-07 Suman Beros Method and apparatus for effecting a detection of mobile devices that are proximate and exhibit commonalities between specific data sets, or profiles, associated with the persons transporting the mobile devices
US20040091111A1 (en) 2002-07-16 2004-05-13 Levy Kenneth L. Digital watermarking and fingerprinting applications
US7138963B2 (en) 2002-07-18 2006-11-21 Metamersion, Llc Method for automatically tracking objects in augmented reality
US6845360B2 (en) 2002-11-22 2005-01-18 Arbitron Inc. Encoding multiple messages in audio data and detecting same
US7606790B2 (en) 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
US7894177B2 (en) 2005-12-29 2011-02-22 Apple Inc. Light activated hold switch
US20050038814A1 (en) 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities
US20050091604A1 (en) 2003-10-22 2005-04-28 Scott Davis Systems and methods that track a user-identified point of focus
JP4516527B2 (ja) 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
JP2005157535A (ja) * 2003-11-21 2005-06-16 Canon Inc コンテンツ抽出方法及びコンテンツ抽出装置並びにコンテンツ情報表示方法及び表示装置
US7133207B2 (en) 2004-02-18 2006-11-07 Icuiti Corporation Micro-display engine
US7565139B2 (en) 2004-02-20 2009-07-21 Google Inc. Image-based search engine for mobile phones with camera
US8421872B2 (en) 2004-02-20 2013-04-16 Google Inc. Image base inquiry system for search engines for mobile telephones with integrated camera
US7751805B2 (en) 2004-02-20 2010-07-06 Google Inc. Mobile image-based information retrieval system
US7224326B2 (en) 2004-03-03 2007-05-29 Volo, Llc Virtual reality system
US9058388B2 (en) 2004-06-22 2015-06-16 Digimarc Corporation Internet and database searching with handheld devices
JP5372369B2 (ja) * 2004-06-22 2013-12-18 ディジマーク コーポレイション デジタル資産管理、ターゲットを定めたサーチ、及びデジタル透かしを使用するデスクトップサーチ
US8953908B2 (en) 2004-06-22 2015-02-10 Digimarc Corporation Metadata management and generation using perceptual features
CN101032106B (zh) 2004-08-06 2014-07-23 数字标记公司 便携计算装置中的快速信号检测和分布式计算
MX2007002071A (es) 2004-08-18 2007-04-24 Nielsen Media Res Inc Metodos y aparatos para generar firmas.
US20060230073A1 (en) 2004-08-31 2006-10-12 Gopalakrishnan Kumar C Information Services for Real World Augmentation
US20060047704A1 (en) 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery
US7853582B2 (en) 2004-08-31 2010-12-14 Gopalakrishnan Kumar C Method and system for providing information services related to multimodal inputs
US7873911B2 (en) 2004-08-31 2011-01-18 Gopalakrishnan Kumar C Methods for providing information services related to visual imagery
US20070002077A1 (en) 2004-08-31 2007-01-04 Gopalakrishnan Kumar C Methods and System for Providing Information Services Related to Visual Imagery Using Cameraphones
US7788144B2 (en) 2004-09-01 2010-08-31 Microsoft Corporation System and method for storing and presenting images and related items to a user
JP2006091980A (ja) 2004-09-21 2006-04-06 Seiko Epson Corp 画像処理装置、画像処理方法および画像処理プログラム
US8489583B2 (en) 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US7450163B2 (en) 2004-11-29 2008-11-11 Rothschild Trust Holdings, Llc Device and method for embedding and retrieving information in digital images
JP2006163877A (ja) 2004-12-08 2006-06-22 Seiko Epson Corp メタデータ生成装置
US7486827B2 (en) 2005-01-21 2009-02-03 Seiko Epson Corporation Efficient and robust algorithm for video sequence matching
US20060217199A1 (en) 2005-03-02 2006-09-28 Cvc Global Provider, L.P. Real-time gaming or activity system and methods
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US7809192B2 (en) 2005-05-09 2010-10-05 Like.Com System and method for recognizing objects from images and identifying relevancy amongst images and information
US7702681B2 (en) 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
DE602005016236D1 (de) * 2005-06-30 2009-10-08 Nokia Corp Kontextsensitive Datenbehandlung
US7516074B2 (en) 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US8020770B2 (en) 2005-09-07 2011-09-20 International Business Machines Corporation Display method and display apparatus
US7319908B2 (en) 2005-10-28 2008-01-15 Microsoft Corporation Multi-modal device power/mode management
US8849821B2 (en) 2005-11-04 2014-09-30 Nokia Corporation Scalable visual search system simplifying access to network and device functionality
US7565157B1 (en) 2005-11-18 2009-07-21 A9.Com, Inc. System and method for providing search results based on location
JP2009524273A (ja) 2005-11-29 2009-06-25 グーグル・インコーポレーテッド 放送メディア内の反復コンテンツの検出
JP5016610B2 (ja) 2005-12-21 2012-09-05 ディジマーク コーポレイション ルール駆動パンidメタデータルーティングシステム及びネットワーク
US20070162761A1 (en) 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
WO2007080133A2 (en) 2006-01-16 2007-07-19 Thomson Licensing Method for determining and fingerprinting a key frame of a video sequence
US8208764B2 (en) * 2006-01-21 2012-06-26 Elizabeth Guckenberger Photo automatic linking system and method for accessing, linking, and visualizing “key-face” and/or multiple similar facial images along with associated electronic data via a facial image recognition search engine
US7580742B2 (en) 2006-02-07 2009-08-25 Microsoft Corporation Using electroencephalograph signals for task classification and activity recognition
US7668369B2 (en) 2006-04-26 2010-02-23 Hewlett-Packard Development Company, L.P. Using camera metadata to classify images into scene type classes
US8009861B2 (en) 2006-04-28 2011-08-30 Vobile, Inc. Method and system for fingerprinting digital video object based on multiresolution, multirate spatial and temporal signatures
US7797722B2 (en) * 2006-05-26 2010-09-14 Sony Corporation System and method for content delivery
CN100418330C (zh) * 2006-06-06 2008-09-10 北京北大方正电子有限公司 一种基于预测搜索的网络文件传输方法
US7787697B2 (en) 2006-06-09 2010-08-31 Sony Ericsson Mobile Communications Ab Identification of an object in media and of related media objects
US7831531B1 (en) 2006-06-22 2010-11-09 Google Inc. Approximate hashing functions for finding similar content
US8707459B2 (en) 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US20080059211A1 (en) 2006-08-29 2008-03-06 Attributor Corporation Content monitoring and compliance
US8564544B2 (en) 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
US8589869B2 (en) 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
JP4861105B2 (ja) 2006-09-15 2012-01-25 株式会社エヌ・ティ・ティ・ドコモ 空間掲示板システム
CN101535992A (zh) 2006-09-17 2009-09-16 诺基亚公司 用于便携设备的自适应高速缓存架构和数据传送
CN101535997A (zh) 2006-09-17 2009-09-16 诺基亚公司 用于基于标签的可视搜索用户接口的方法、设备和计算机程序产品
US8775452B2 (en) 2006-09-17 2014-07-08 Nokia Corporation Method, apparatus and computer program product for providing standard real world to virtual world links
US20080071770A1 (en) 2006-09-18 2008-03-20 Nokia Corporation Method, Apparatus and Computer Program Product for Viewing a Virtual Database Using Portable Devices
AU2007316477A1 (en) 2006-11-03 2008-05-15 Google Inc. Content management system
US8565815B2 (en) 2006-11-16 2013-10-22 Digimarc Corporation Methods and systems responsive to features sensed from imagery or other data
US20080162228A1 (en) 2006-12-19 2008-07-03 Friedrich Mechbach Method and system for the integrating advertising in user generated contributions
US9179200B2 (en) 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
KR100856027B1 (ko) 2007-01-09 2008-09-03 주식회사 태그스토리 저작권 인증된 동영상 데이터 서비스 시스템 및 방법
US20100092093A1 (en) * 2007-02-13 2010-04-15 Olympus Corporation Feature matching method
US20080201314A1 (en) * 2007-02-20 2008-08-21 John Richard Smith Method and apparatus for using multiple channels of disseminated data content in responding to information requests
US7979464B2 (en) 2007-02-27 2011-07-12 Motion Picture Laboratories, Inc. Associating rights to multimedia content
US20080218472A1 (en) 2007-03-05 2008-09-11 Emotiv Systems Pty., Ltd. Interface to convert mental states and facial expressions to application input
US8861898B2 (en) * 2007-03-16 2014-10-14 Sony Corporation Content image search
US8249992B2 (en) 2007-03-22 2012-08-21 The Nielsen Company (Us), Llc Digital rights management and audience measurement systems and methods
US8407580B2 (en) 2007-04-09 2013-03-26 Wolfram Research, Inc. Method and system for presenting input expressions and evaluations of the input expressions on a workspace of a computational system
US20080259918A1 (en) 2007-04-19 2008-10-23 Craig Elliott Walker Method and apparatus for managing telephone calls
US20080268876A1 (en) 2007-04-24 2008-10-30 Natasha Gelfand Method, Device, Mobile Terminal, and Computer Program Product for a Point of Interest Based Scheme for Improving Mobile Visual Searching Functionalities
US20080270378A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Method, Apparatus and Computer Program Product for Determining Relevance and/or Ambiguity in a Search System
US20080267521A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Motion and image quality monitor
US20080267504A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
EP2156583B1 (en) 2007-05-02 2018-06-06 The Nielsen Company (US), LLC Methods and apparatus for generating signatures
US20080313146A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Content search service, finding content, and prefetching for thin client
DE102007034010A1 (de) * 2007-07-20 2009-01-22 Dallmeier Electronic Gmbh & Co. Kg Verfahren und Vorrichtung zur Bearbeitung von Videodaten
US20090031381A1 (en) 2007-07-24 2009-01-29 Honeywell International, Inc. Proxy video server for video surveillance
US20090083237A1 (en) 2007-09-20 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Visual Search Interface
US20090083275A1 (en) 2007-09-24 2009-03-26 Nokia Corporation Method, Apparatus and Computer Program Product for Performing a Visual Search Using Grid-Based Feature Organization
CN101123717B (zh) * 2007-09-25 2012-07-04 中兴通讯股份有限公司 一种实现频道快速切换的装置和方法
JP5398970B2 (ja) 2007-09-28 2014-01-29 京セラ株式会社 移動通信装置、制御方法
US20090094289A1 (en) 2007-10-05 2009-04-09 Nokia Corporation Method, apparatus and computer program product for multiple buffering for search application
US8180396B2 (en) * 2007-10-18 2012-05-15 Yahoo! Inc. User augmented reality for camera-enabled mobile devices
US8875212B2 (en) * 2008-04-15 2014-10-28 Shlomo Selim Rakib Systems and methods for remote control of interactive video
US9986293B2 (en) * 2007-11-21 2018-05-29 Qualcomm Incorporated Device access control
US8200025B2 (en) 2007-12-07 2012-06-12 University Of Ottawa Image classification and search
US7836093B2 (en) 2007-12-11 2010-11-16 Eastman Kodak Company Image record trend identification for user profiles
US8194156B2 (en) * 2008-01-07 2012-06-05 Sony Ericsson Mobile Communications Ab EXIF object coordinates
WO2009094587A1 (en) 2008-01-23 2009-07-30 Deering Michael F Eye mounted displays
US20100100546A1 (en) 2008-02-08 2010-04-22 Steven Forrest Kohler Context-aware semantic virtual community for communication, information and knowledge management
WO2009102430A1 (en) 2008-02-13 2009-08-20 Neurosky, Inc. Audio headset with bio-signal sensors
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20090297045A1 (en) 2008-05-29 2009-12-03 Poetker Robert B Evaluating subject interests from digital image records
US8036417B2 (en) 2008-06-11 2011-10-11 Eastman Kodak Company Finding orientation and date of hardcopy medium
US20090327272A1 (en) 2008-06-30 2009-12-31 Rami Koivunen Method and System for Searching Multiple Data Types
WO2010006367A1 (en) * 2008-07-16 2010-01-21 Imprezzeo Pty Ltd Facial image recognition and retrieval
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
EP2313847A4 (en) 2008-08-19 2015-12-09 Digimarc Corp METHODS AND SYSTEMS FOR PROCESSING CONTENT
US8805110B2 (en) 2008-08-19 2014-08-12 Digimarc Corporation Methods and systems for content processing
JP5346938B2 (ja) * 2008-09-01 2013-11-20 株式会社日立メディコ 画像処理装置、及び画像処理装置の作動方法
US8433244B2 (en) * 2008-09-16 2013-04-30 Hewlett-Packard Development Company, L.P. Orientation based control of mobile device
LU91488B1 (en) * 2008-10-17 2010-04-19 Robert Carter Multifactor Authentication
US20100205628A1 (en) 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
US9788043B2 (en) 2008-11-07 2017-10-10 Digimarc Corporation Content interaction methods and systems employing portable devices
US8271413B2 (en) 2008-11-25 2012-09-18 Google Inc. Providing digital content based on expected user behavior
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US8391615B2 (en) * 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
JP5742057B2 (ja) 2009-03-03 2015-07-01 ディジマーク コーポレイション 公共ディスプレイからのナローキャスティングおよび関連配設
US20100273452A1 (en) * 2009-04-26 2010-10-28 Qualcomm Incorporated Apparatus and Methods For Locating Tracking and/or Recovering a Wireless Communication Device
US8768313B2 (en) * 2009-08-17 2014-07-01 Digimarc Corporation Methods and systems for image or audio recognition processing
US20110065451A1 (en) * 2009-09-17 2011-03-17 Ydreams-Informatica, S.A. Context-triggered systems and methods for information and services
US9286362B2 (en) * 2009-09-25 2016-03-15 International Business Machines Corporation System and method to customize metadata for different users running on the same infrastructure
US8332434B2 (en) 2009-09-30 2012-12-11 Business Objects Software Limited Method and system for finding appropriate semantic web ontology terms from words
US20110087685A1 (en) 2009-10-09 2011-04-14 Microsoft Corporation Location-based service middleware
US8175617B2 (en) * 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8819172B2 (en) * 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
WO2011084963A2 (en) * 2010-01-05 2011-07-14 Iota, Inc. Mobile communications resource management system
US9317018B2 (en) * 2010-03-02 2016-04-19 Gonow Technologies, Llc Portable e-wallet and universal card
US8660355B2 (en) * 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
KR101832693B1 (ko) 2010-03-19 2018-02-28 디지맥 코포레이션 직관적 컴퓨팅 방법들 및 시스템들
US9495591B2 (en) 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009505288A (ja) * 2005-08-15 2009-02-05 エブリックス・テクノロジーズ・インコーポレイテッド 画像から得られる情報のインターネットおよびその他の検索エンジンのための検索基準としての使用
WO2007029582A1 (ja) * 2005-09-07 2007-03-15 Ibm Japan, Ltd. 表示装置、出力装置、表示システム、表示方法、媒体、プログラム、及び外部ユニット
JP2007257502A (ja) * 2006-03-24 2007-10-04 Oki Electric Ind Co Ltd 貨幣入金装置
JP2008236141A (ja) * 2007-03-19 2008-10-02 Sony Corp 画像処理装置、画像処理方法
WO2008126663A1 (ja) * 2007-04-06 2008-10-23 Ntt Docomo, Inc. 移動通信端末、情報処理装置及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020521376A (ja) * 2017-05-17 2020-07-16 グーグル エルエルシー イメージデータに少なくとも部分的に基づく、アクションを実行するためのエージェントの決定
JP7121052B2 (ja) 2017-05-17 2022-08-17 グーグル エルエルシー イメージデータに少なくとも部分的に基づく、アクションを実行するためのエージェントの決定
JP2019105632A (ja) * 2017-12-12 2019-06-27 アミューズ トラベル カンパニーリミテッドAmuse Travel Co.,Ltd. イメージ分析に基づく障害者用ナビゲーションサービス提供システム及び方法
JP2020060921A (ja) * 2018-10-09 2020-04-16 富士通コネクテッドテクノロジーズ株式会社 情報処理装置
JP7145718B2 (ja) 2018-10-09 2022-10-03 Fcnt株式会社 情報処理装置

Also Published As

Publication number Publication date
CA2775097C (en) 2021-05-18
KR20120075487A (ko) 2012-07-06
WO2011059761A1 (en) 2011-05-19
EP2494496B1 (en) 2018-11-14
US20120220311A1 (en) 2012-08-30
US8737986B2 (en) 2014-05-27
US9557162B2 (en) 2017-01-31
US8175617B2 (en) 2012-05-08
US20120218436A1 (en) 2012-08-30
JP6011938B2 (ja) 2016-10-25
CN105224075A (zh) 2016-01-06
EP2494496A4 (en) 2015-12-02
CN102741858A (zh) 2012-10-17
US20140071272A1 (en) 2014-03-13
US9234744B2 (en) 2016-01-12
US8489115B2 (en) 2013-07-16
US20140333794A1 (en) 2014-11-13
CA2775097A1 (en) 2011-05-19
EP2494496A1 (en) 2012-09-05
CN105224075B (zh) 2019-06-04
KR101796008B1 (ko) 2017-11-09
US20110098029A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
US11715473B2 (en) Intuitive computing methods and systems
US10666784B2 (en) Intuitive computing methods and systems
JP6011938B2 (ja) センサベースのモバイル検索、関連方法及びシステム
JP5843207B2 (ja) 直観的コンピューティング方法及びシステム
US9256806B2 (en) Methods and systems for determining image processing operations relevant to particular imagery

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141201

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141208

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150806

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20150818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160908

R150 Certificate of patent or registration of utility model

Ref document number: 6011938

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250