JP7222239B2 - アプリケーションプログラム生成のための深層ニューラルネットワーク訓練 - Google Patents

アプリケーションプログラム生成のための深層ニューラルネットワーク訓練 Download PDF

Info

Publication number
JP7222239B2
JP7222239B2 JP2018238048A JP2018238048A JP7222239B2 JP 7222239 B2 JP7222239 B2 JP 7222239B2 JP 2018238048 A JP2018238048 A JP 2018238048A JP 2018238048 A JP2018238048 A JP 2018238048A JP 7222239 B2 JP7222239 B2 JP 7222239B2
Authority
JP
Japan
Prior art keywords
user
expert
data
input
expert user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018238048A
Other languages
English (en)
Other versions
JP2019192207A (ja
Inventor
モンタントス・ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019192207A publication Critical patent/JP2019192207A/ja
Application granted granted Critical
Publication of JP7222239B2 publication Critical patent/JP7222239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Description

本明細書で説明される実施形態は、アプリケーションプログラム生成のための深層ニューラルネットワーク訓練に関係がある。
人間-機械間のインタラクション、機械学習、及び深層学習は、タスクのデジタル化及び自動化のためにますます重要になりつつある。その上、ロボティクスの使用の増加、並列コンピューティング、及び強力なエッジコンピューティング機能の増設は、複雑な、微妙なタスクのための機械学習の実装に関連した技術的課題を生み出してきた。例えば、深層ニューラルネットワーク訓練は、それらの微妙なタスクにとって適切であり得るが、一般に、高度な計算リソースを必要とする。更に、深層ニューラルネットワーク訓練に関与する計算リソースの量は、センサ入力の複雑さが増すにつれて増大する。
本明細書で請求される主題は、記載されている環境においてしか動作しない実施形態、又は記載されている如何なる欠点も解消する実施形態に制限されない。むしろ、この背景は、本明細書で記載されるいくつかの実施形態が実施され得る技術分野の一例を説明するためにのみ提供されている。
実施形態に従って、コンピュータシステムアーキテクチャは、深層ニューラルネットワーク訓練のために構成されてよい。コンピュータシステムアーキテクチャは、プロセッサ、メモリ、及び微分メモリサブシステムを有してよい。メモリは、学習エンジンが記憶され得るランダムアクセスメモリ(RAM)を含む。学習エンジンは、データをエキスパートユーザに提示し、データがエキスパートユーザに提示される場合に、該提示されたデータに関連したエキスパートユーザの反応及びフィードバックを測定する1つ以上のセンサを介してユーザ感覚入力を受け、該ユーザ感覚入力に基づきアテンションマップを生成するよう構成されてよい。アテンションマップは、エキスパートユーザが焦点を合わせた前記提示されたデータの部分を示してよく、1つ以上のデータ分類領域を含んでよい。学習エンジンは、エキスパートユーザの自然言語入力に基づく自然言語入力ラベルによりアテンションマップに注釈を付し、ニューラルネットワークをユーザ感覚入力に基づき訓練するよう構成されてよい。学習エンジンは、エンドユーザアプリケーションの特異なアクティビティのために最適化される前記訓練されたニューラルネットワークに基づくモデルを生成し、エンドユーザアプリケーションの出力目標のためのアプリケーションプログラムを供給し、出力目標に、アプリケーションプログラムを介して、特異なアクティビティを検出し是正するよう指示するよう構成されてよい。微分メモリサブシステムは、メモリ及びプロセッサから物理的に離れておりネットワーク接続されてよい。微分メモリサブシステムは、実験データ処理機能のために学習エンジンからニューラルネットワーク情報及び処理されたユーザ感覚入力を受けるよう構成されてよい。
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせによって、実現及び達成されるだろう。前述の概要及び以下の詳細な説明は、実例及び説明であって、請求されている発明を制限するものではない点が理解されるべきである。
例となる実施形態は、添付の図面の使用を通じて、更なる特定及び詳細を伴って記載及び説明されることになる。
アプリケーションプログラム生成のための深層ニューラルネットワーク訓練が実装され得る環境の例を表す。 図1の環境において実装され得るユーザ感覚入力取得プロセスの例を表す。 図1の環境において実装され得るアプリケーションプログラム生成プロセスの例を表す。 図1の環境において実装され得るトレーナーサーバのコンピュータアーキテクチャの例を表す。 図1の環境において実装され得るトレーナーサーバのコンピュータアーキテクチャの例を表す。 図1の環境において実装され得る表示デバイスの実施形態の例を表す。 第1データ源の選択の後の図5の表示デバイスを表す。 図1の環境において実装され得る、受け取られた入力からの注釈付きアテンションマップの生成のプロセスの例を表す。 選択された第1出力目標のためのアプリケーションプログラムを生成するプロセスを表す。 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練の実装のために構成され得るコンピューティングシステムの例のブロック図である。 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練の方法の例のフローチャートである。 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練の方法の例のフローチャートである。
全ては、本開示で記載される少なくとも1つの実施形態に従う。
従来のニューラルネットワークシステムにおいて、入力が取得されてよく、それは、ニューラルネットワークを訓練するために使用される。通常、入力は、様々な状況からの入力及び出力を示す特定のデータセットに制限される。ニューラルネットワークを訓練することは、計算費用がかかり得る。計算リソースの使用は、ニューラルネットワークへの入力の量及び/又は複雑さが増すにつれて増大し得る。深層学習は、一般に、より高度な計算リソースを必要とする。
本開示で説明される実施形態は、アプリケーションプログラム生成のための深層ニューラルネットワーク訓練に関係がある。いくつかの実施形態において、ニューラルネットワークは、エキスパートユーザの入力に基づき訓練されてよい。特に、そのような実施形態では、データがエキスパートユーザに提示される場合に彼らの微妙な自然な反応を捕捉するために、視線(gaze)センサなどのようなセンサが実装されてよい。その上、他のセンサが、自然言語コメント又は自然テキスト入力を捕捉するために実装されてよい。自然言語コメント又は自然テキスト入力は、センサがエキスパートユーザの自然な反応を測定することによって得られる情報に関連し得る。データに対するエキスパートユーザの自然な反応を表すデータの使用は、従来システムの改良である。特に、データの使用は、実環境における特異なアクティビティのより深い精緻化と、その特異なアクティビティに対する改善措置とを提供することができる。そのような特異なアクティビティ及び改善措置は、入力及び出力を含むデータセットに基づく訓練を通してさもなければ見逃される可能性がある。
訓練されたニューラルネットワークは、アプリケーションプログラムを生成するために使用されてよい。アプリケーションプログラムは、特定の出力目標のために生成されてよい。アプリケーションプログラムは、出力目標に、特異なアクティビティを特定し、エキスパートユーザの自然な反応に一致した改善措置をとるよう指示してよい。
いくつかの実施形態において、ニューラルネットワークの訓練は、微分メモリサブシステムによって少なくとも部分的に実行されてよい。微分メモリサブシステムは、ニューラルネットワーク訓練において使用される一次メモリの他の部分から分離してよい。微分メモリサブシステムは、訓練の実験的部分を実行してよく、これは、一次メモリの計算費用を削減し得る。微分メモリサブシステムの使用は、アプリケーションプログラムの生成及び訓練を実行するサーバの動作を改善し得る。例えば、微分メモリサブシステムは、一次メモリによって従来実行され得る処理又は計算オーバーヘッドの部分を割り当てられてよい。然るに、微分メモリサブシステムの使用は、アプリケーションプログラムが生成される速度を改善することができ、そして、一次メモリを備えるシステムの動作を改善することができる(例えば、速度の改善、正確さの改善、処理リソース割り当ての改善、など)。
それら及び他の実施形態は、添付の図面を参照して記載される。図面において、同じ参照符号は、別なふうに述べられない限りは、同じ機能及び構造を示す。
図1は、アプリケーションプログラム生成のための深層ニューラルネットワーク訓練が実装され得る、例となる環境100を表す。ニューラルネットワーク訓練及びアプリケーションプログラム生成は、トレーナーサーバ118の学習エンジン116によって実行されてよい。学習エンジン116は、データが表示デバイス104で表示される場合にエキスパートユーザ120からユーザ感覚入力を受けるよう構成されてよい。例えば、ユーザセンサ122及び124並びに/又は環境センサ106(集合的に、センサ106/122/124)は、データが表示デバイス104で表示される場合にエキスパートユーザ120の反応及び/又は活動を測定するよう構成されてよい。ユーザ感覚入力に基づき、モデルは、提示されたデータを表す実環境110における出力目標108の動作のために生成又は変更されてよい。
モデルから、学習エンジン116は、アプリケーションプログラムを生成してよい。アプリケーションプログラムは、実環境110における出力目標108の動作を制御してよい。例えば、アプリケーションプログラムは、出力目標108が実環境110において特異なアクティビティを特定し及び/又はそれに対処することを可能にする出力目標108の動作を制御するよう構成されてよい。
環境100におけるモデル及びアプリケーションプログラム生成は、従来のモデル訓練及び従来のアプリケーションプログラム生成を改善し得る。例えば、環境100において、ユーザ感覚入力は、データが表示デバイス104で表示される場合にエキスパートユーザ120から取得されてよい。ユーザ感覚入力は、データの提示中にエキスパートユーザ120が焦点を合わせているもの、及び/又はエキスパートユーザ120によってされたコメントに関係があってよい。学習エンジン116は、エキスパートユーザ120がどこに焦点を合わせているかに基づきアテンションマップを生成し、次いで、エキスパートユーザ120のコメントによりアテンションマップに注釈を付してよい。アテンションマップ及び/又は注釈は、ユーザ感覚入力を分類するために使用されてよく、これは、ニューラルネットワークを訓練することにおいて使用されてよい。例えば、学習エンジン116によって実行される入力の分類は、その全文を参照により本願に援用される米国特許第9324022号又は第9697444号において実行された分類処理に類似し得る。その上、注釈付きアテンションマップは、ニューラルネットワークを訓練するために入力として使用されてよい。
エキスパートユーザ120は、実環境110において特に熟練している個人及び/又は出力目標108を使用している個人を含んでよい。エキスパートユーザ120は、実環境110に基づき変わり得る。例えば、環境100は、セキュリティ/対テロリズム環境を含んでよい。エキスパートユーザ120は、配信動画(video feed)を監視するセキュリティ専門家を含んでよい。
更に、表されている実施形態において、学習エンジン116は、微分メモリサブシステム(differential memory subsystem)(DMS)114とともに実装されてよい。DMS114は、トレーナーサーバ118において学習エンジン116から分離してよい。学習エンジン116は、DMS114とインターフェイス接続してよく、そして、実験データ処理機能のためにDMS114を使用してよい。例えば、学習エンジン116は、ニューラルネットワーク情報及び処理されたユーザ感覚入力をDMS114へ送ってよい。DMS114はまた、ユーザ感覚入力及びニューラルネットワーク情報に独立してアクセスするよう構成されてよい。
DMS114は、受け取られたニューラルネットワーク情報及び処理されたユーザ感覚入力に基づき、1つ以上の実験データ処理機能を適用してよい。DMS114は、本質的に、トレーナーサーバ118において別個のコンピュータとして動作し得る。DMS114は、ニューラルネットワーク訓練に関わる処理を実行するのに適した代替の計算構造としてユーザ感覚入力を処理してよい。DMS114のいくつかの更なる詳細は、その全文を参照により本願に援用されるGraves et al.,HYBRID COMPUTING USING A NEURAL NETWORK WITH DYNAMIC EXTERNAL MEMORY,Nature 538,471-476(2016年10月27日)において見つけられ得る。
DMS114の使用は、アプリケーションプログラムの生成及びトレーナーサーバ118の動作を改善し得る。例えば、DMS114は、学習エンジン116によって従来実行され得る処理又は計算オーバーヘッドの一部を割り当てられてよい。然るに、DMS114の使用は、アプリケーションプログラムが生成される速度を改善することができるとともに、アプリケーションプログラム生成中のトレーナーサーバ118の動作を改善することができる(例えば、速度の改善、正確さの改善、処理リソース割り当ての改善、など)。環境100はDMS114を含むが、いくつかの実施形態はDMS114を省略する。そのような実施形態では、学習エンジン116は、実質的に本実施形態における他の場所に設けられるように動作し得る。
環境100は、トレーナーサーバ118、出力目標108、環境センサ106、データストレージデバイス112、ユーザセンサ122及び124、並びに表示デバイス104のような1つ以上の構成要素を含んでよい。構成要素は、データ及び情報をネットワーク128を介してやり取りするよう構成されてよい。ユーザセンサ122及び124は、エキスパート入力環境102内でエキスパートユーザ120に実装されてよい。出力目標108は、実環境110内で実装されてよい。環境100における構成要素(例えば、118、108、106、112、122、124、104、など)の夫々については、以降の段落で記載される。
ネットワーク128は、環境100の構成要素間の信号、データ、及び情報の通信のために構成された如何なるネットワークも含んでよい。例えば、ネットワーク128は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)(例えば、インターネット)、及び/又は他の相互接続されたデータパスを含んでよく、それらにわたって複数のデバイスが通信し得る。いくつかの実施形態において、ネットワーク128は、ピア・ツー・ピアネットワークを含んでよい。ネットワーク128はまた、多種多様な通信プロトコルにおけるデータの通信を可能にし得る電気通信網の部分へ結合されるか、又はそれらの部分を含んでよい。いくつかの実施形態において、ネットワーク128は、Bluetooth(登録商標)通信網、Wi-Fi通信網、ZigBee通信網、拡張可能メッセージング及びプレゼンスプロトコル(extensible messaging and presence protocol)(XMPP)通信網、セルラー通信網、あらゆる同様の通信網、又はデータの送受信のためのそれらのあらゆる組み合わせを含むか、又はそれらを含むよう構成される。ネットワーク128において通信されるデータは、ショートメッセージングサービス(short messaging service)(SMS)、マルチメディアメッセージングサービス(multimedia messaging service)(MMS)、ハイパーテキスト転送プロトコル(hypertext transfer protocol)(HTTP)、直接データ接続、ワイヤレスアプリケーションプロトコル(wireless application protocol)(WAP)、電子メール、又は環境100において実装され得るあらゆる他のプロトコルを介して通信されるデータを含んでよい。いくつかの実施形態において、ネットワーク128は、環境100の構成要素のうちの2つ以上の間の単純な有線接続を含んでよい。例えば、表示デバイス104は、環境センサ106へ有線接続されてよい。
エキスパート入力環境102において、エキスパートユーザ120は、表示デバイス104に対して位置付けられてよい。エキスパートユーザ120は、権限を付与されたユーザであってよい。例えば、エキスパートユーザ120は、エキスパートユーザ120を認証するために使用され得るログイン情報、セッショントークン、バイオメトリックサンプル、などを供給してよい。いくつかの実施形態において、エキスパートユーザ120によって供給された情報は、ブロックチェーンスタイルの台帳(blockchain-style ledger)のような台帳に格納されてよい。
エキスパートユーザ120は、ユーザセンサ122及び124を取り付けられてよい。その上、又は代替的に、環境センサ106は、エキスパートユーザ120の応答若しくは反応を示す環境条件及び/又はエキスパートユーザ120の観測及び測定を可能にするよう位置付けられてよい。データは、表示デバイス104においてエキスパートユーザ120に提示されてよい。例えば、データは、特定のカメラから捕捉された画像データ、カメラから捕捉されたビデオ情報、圃場のレイアウト、学習ユーザインターフェイス、工場フロアレイアウト、(セキュリティ若しくは他の目的のための)被監視エリアからの映像、臨床試験若しくは認識評価のためのビデオゲーム若しくは画像、医療スキャン(例えば、MRI、X線、など)、設備移動ビデオ画像、他のデータ、又はそれらの組み合わせを含んでよい。表示デバイス104へ送られるデータは、実環境110に関係がある。例えば、表示デバイス104で提示され得るデータは、実環境110で取得された実データ又はその派生物であってよい。
エキスパートユーザ120に提示されるデータは、実環境110におけるシナリオを提供してよい。そのようなシナリオに対するエキスパートユーザ120の反応及び応答は、データが提示される場合にセンサ106/122/124によってモニタされてよい。センサ106/122/124は、ユーザ感覚入力を生成してよく、それは、ネットワーク128を介してトレーナーサーバ118へ送られ及び/又はデータストレージデバイス112へ送られてよい。
センサ106/122/124は、可能な限り自然であるユーザ感覚入力を取得するよう選択されてよい。例えば、センサ106/122/124は、自然言語入力、タッチ入力、視線入力、及び他の感覚入力(例えば、表示デバイス104でのデータの提示中に脳活動を測定するEEG)を取得するよう構成されてよい。ユーザ感覚入力は、エキスパートユーザ120の直感又は特定の知的プロファイルを表し得る。
トレーナーサーバ118は、アプリケーションプログラム生成及び深層ニューラルネットワーク訓練のために構成されるコンピュータベースの又はハードウェアベースのコンピューティングシステムを含んでよい。トレーナーサーバ118は、ネットワーク128を介して環境100の構成要素のうちの1つ以上と通信するよう構成されてよい。トレーナーサーバ118は、学習エンジン116を含んでよい。
学習エンジン116及び本開示の全体を通して記載されるその1つ以上の構成要素又はモジュールは、プロセッサ、マイクロプロセッサ(1つ以上の動作を実行するか若しくはその実行を制御する。)、フィールドプログラマブルゲートアレイ(FPGA)、又は特定用途向け集積回路(ASIC)を含むハードウェアを用いて実装されてよい。いくつかの他の事例では、学習エンジン116又はそのモジュールは、ハードウェアとソフトウェアとの組み合わせを用いて実装されてよい。ソフトウェアにおける実装は、コンピューティングシステム(例えば、トレーナーサーバ118)のハードウェアにおいて含まれ得るような1つ以上のトランジスタ又はトランジスタ素子の急速な活性化及び非活性化を含んでよい。その上、ソフトウェアで定義される命令は、トランジスタ素子内の情報に作用してよい。ソフトウェア命令の実装は、少なくとも一時的に電子経路を再構成し、コンピューティングハードウェアを変形し得る。
学習エンジン116は、データをエキスパートユーザ120に提示するよう構成されてよい。例えば、学習エンジン116は、ネットワーク128を介して表示デバイス104へデータを送ってよい。データがエキスパートユーザ120に提示されると、学習エンジン116はユーザ感覚入力を受け取ってよい。例えば、センサ106/122/124は、提示されたデータに関連したエキスパートユーザ120の測定されたフィードバック及び反応に基づきユーザ感覚入力を捕捉するよう構成されてよい。
学習エンジン116は、アテンションマップを生成するよう構成されてよい。アテンションマップは、ユーザ感覚入力に基づいてよく、エキスパートユーザ120が焦点を合わせた提示されたデータの部分を示すよう構成されてよい。
いくつかの実施形態において、学習エンジン116は、アテンショントランスファー(attention transfer)処理を実行してよい。アテンショントランスファー処理は、勾配に基づく(gradient-based)アテンショントランスファー又は活性化に基づく(activation-based)アテンショントランスファーを含んでよい。いくつかの実施形態において、学習エンジン116は、その全文を参照により本願に援用されるZagoruyko & Komodakis,Paying More Attention to Attention: Improvement the Performance of Convolutional Neural Networks via Attention Transfer,ICLR 2017でconference paperとして公開,2017年2月12日(https://arxiv.org/pdf/1612.03928.pdfから入手可能。)で記載されているアテンショントランスファー処理を実行してよい。
その上、アテンションマップは、1つ以上のデータ分類領域を含んでよい。学習エンジン116は、エキスパートユーザ120の自然言語入力に基づく自然言語入力ラベルによりアテンションマップに注釈を付してよい。学習エンジン116は、ユーザ感覚入力及び注釈付きアテンションマップに基づきニューラルネットワークを訓練してよい。例えば、注釈付きアテンションマップは、ニューラルネットワークへの入力として含まれてよい。学習エンジン116は、訓練されたニューラルネットワークに基づきモデルを生成及び/又は変更してよい。学習エンジン116は、出力目標108によって実装され得る最終使用用途のためにニューラルネットワークを更に最適化してよい。特に、学習エンジン116は、出力目標108によって実装され得る最終使用用途の特異なアクティビティのためにニューラルネットワークを最適化してよい。学習エンジン116は、最終使用用途の出力目標108のためのアプリケーションプログラムを提供してよい。学習エンジン116は、出力目標108に、アプリケーションプログラムを介して、実環境110において特異なアクティビティを検出し是正するよう指示してよい。
トレーナーサーバ118は、DMS114を含んでよい。DMS114は、学習エンジン116から物理的に離れているメモリの部分であってよい。DMS114は、ニューラルネットワークの訓練に関連した実験データ処理機能のために構成されてよい。いくつかの実施形態において、学習エンジン116は、ニューラルネットワーク情報及び処理されたユーザ感覚入力をDMS114へ送るよう構成されてよい。DMS114は、実験データ処理機能のために、受け取られたニューラルネットワーク情報及び処理されたユーザ感覚入力を使用してよい。いくつかの実施形態において、DMS114は、実験データ処理機能のためにニューラルチューリングマシン(neural Turing machine)を模倣する演算を用いてよい。
出力目標108は、実環境110において実装されるデバイスを含んでよい。出力目標108は、学習エンジン116からアプリケーションプログラムを受信するよう構成されてよい。出力目標108は、エキスパートユーザ120と同様に動作してよい。例えば、ユーザ感覚入力は、実環境110をシミュレートするか又はその派生物であるデータに対するエキスパートユーザ120の応答及び反応に基づく。アプリケーションプログラムは、ユーザ感覚入力に基づく。然るに、出力目標108は、エキスパートユーザ120がエキスパート入力環境102において行ったアクションに類似するアクションを実行してよい。例えば、アプリケーションプログラムは、表示デバイス104を介して提示されたデータにおける特異なアクティビティと類似しているか又は同じである実環境110における特異なアクティビティの検出又は識別を可能にし得る。アプリケーションプログラムは、識別された特異なアクティビティに対処するための改善措置又は方法を更に含んでよい。それは、エキスパートユーザ120によって実施される改善措置又はエキスパートユーザ120が特異なアクティビティに対処した方法に類似し得る。
データストレージデバイス112は、環境100において実装されてよい。データストレージデバイス112は、環境100におけるデータ及び情報を記憶するよう構成されてよい。例えば、データストレージデバイス112は、生の(raw)ユーザ感覚入力、訓練されたニューラルネットワーク、最適化されたモデル、アプリケーションプログラム、アテンションマップ、自然言語入力に基づく注釈、センサ入力データ、又はそれらの何らかの組み合わせを記憶してよい。データストレージデバイス112は、後述されるメモリ910に類似した非一時的な媒体を含んでよい。いくつかの実施形態において、データストレージデバイス112に記憶されたデータの少なくともある部分は、データが特定のセッション及び/又は特定のエキスパートユーザ(例えば、120)に明示的に関連付けられるように、一意的にタグを付されてよい。例えば、特定のユーザによって供給されるセンサ入力データの特定の組は、特定の入力セッションの間に供給されるものである。センサ入力データの組は、センサ入力データのその特定の組が特定のエキスパートユーザ及び特定入力セッションに明示的に関連付けられるように、(例えば、エキスパートユーザログイン、時間、日付、などにより)一意的にタグを付されてよい。
環境100は、一般的な意味において記載される。環境100及びその原理は、多数のテストケースにおいて適用可能であり得る。例えば、環境100は、セキュリティ/対テロリズム環境を含んでよい。この例では、エキスパートユーザ120は、セキュリティ専門家を含んでよい。エキスパートユーザ120は、配信動画を監視してよい。学習エンジン116は、エキスパートユーザ120がどんな観察結果及び異常を疑わしいと考え得るかに基づき視線又は他の入力デバイスを用いてアテンションマップを生成してよい。エキスパートユーザ120はまた、自然言語において観察結果を入力し、そして、特定の特異なアクティビティを探すためにスマートエッジデバイスに展開されるべきエキスパートシステムプロファイルを生成してよい。
環境100は、農業環境を含んでよい。エキスパートユーザ120は、例えば、農業主、植物学者、又は温室専門家を含んでよい。エキスパートユーザ120は、映像(ドローンカメラ、温度、衛星、地上センサデータフィード)を観測してよく、アテンションマップは、飛行経路、関心のあるエリア、及びエキスパートシステムが収穫を高め且つ穀物の不作をなくすのを助けるよう訓練するための他の注釈を生成するために使用されてよい。
環境100は、工場環境を含んでよい。この例では、エキスパートユーザ120は、高度な技術を有するメンテナンス又は工場労働者を含んでよい。エキスパートユーザ120は、ドローン、カメラ、又は工場からのデータを観測し、専門的な解析を加えてよい。例えば、エキスパートユーザ120は、注意から恩恵を受け得る危険な実務又は特異なアクティビティを観測してよい。専門的な訓練を受けたシステムは、後に、この学習をエッジデバイスへ受け渡すことができる。
環境100は、行動/認知健康環境を含んでよい。この例となる環境では、エキスパートユーザ120はまた、認知又は発達障害を持った患者の行動特性を観測してよい。そのような観測は、視線をマッピングすることによって、且つ、被験者がビデオゲーム、又はビデオ、画像、又は音響にどのように反応しているかという肉体的及び感情的反応を観測することによって生成されたアテンションマップによって、達成されてよい。
環境100は、医療撮像環境を含んでよい。この例となる環境では、エキスパートユーザ120は、特定の腫瘍又は疾患を探しながらMRIスキャンを見ることができる医師であってよい。視線データ又はタッチ入力に基づき、画像の特定の部分への注意が検出され得る。アテンションマップ及び特異なアクティビティの検出は、医療撮像デバイスに実装されてよい。
環境100は、消防/災害復旧環境を含んでよい。この例となる環境では、エキスパートユーザ120は、火災又は災害エリアの配信動画から知的エージェントを訓練することができる消防士を含んでよい。エキスパートユーザ120は、どんな又はどこで助けが最も必要とされているかを知らせてよい。出力目標108は、アプリケーションプログラムに基づき警告を発せられ得る配備されたドローン又はカメラを含んでよい。
環境100は、ロボット動作環境を含んでよい。この例となる環境では、エキスパートユーザ120は、ロボティクス専門家又はエンジニアを含んでよい。エキスパートユーザ120は、モーションセンサを装備された、及び/又はRBGdカメラによる監視下にあるマシンを観測してよい。モーションセンサ及び/又はRBGdカメラは、動作プロファイルを生成し、エキスパートユーザ120のロボットバージョン又はマシンを訓練するために使用されてよい。
環境100は、認知/学習行動環境を含んでよい。この例となる環境では、エキスパートユーザ120は、学習材料における特定の焦点エリアについてシステムを訓練する教師を含んでよい。生徒は、その場合に、システムを使用してよく、生徒の視線は、その生徒がデータの適切な部分に集中しているかどうかを判定するために、教師の焦点エリアと比較されてよい。
変更、追加、又は削除は、本開示の適用範囲から逸脱することなしに環境100に対して行われてよい。例えば、環境100は、表示デバイス104の1つ以上、センサ106/122/124の1つ以上、トレーナーサーバ118の1つ以上、1つ以上のデータストレージデバイス112、出力目標108の1つ以上、又はそれらのあらゆる組み合わせを含んでよい。更に、本明細書で記載される環境における様々な構成要素及びサーバの分離は、その分離が全ての実施形態で起こることを示すよう意図されない。例えば、いくつかの実施形態では、データストレージデバイス112がトレーナーサーバ118に含まれてよい。更に、記載される構成要素及びサーバは、一般に、単一のコンポーネント又はサーバにまとめられてよく、あるいは、複数の構成要素又はサーバに分けられてよいことが、本願によって理解され得る。例えば、DMS114は、トレーナーサーバ118へ通信上結合されている他のコンピューティングデバイスで実装されてよい。
図2は、図1の環境100において実装され得る、例となるユーザ感覚入力取得プロセス(取得プロセス)200を表す。例えば、取得プロセス200は、図1のエキスパート入力環境102において実装されてよい。図2は、図1を参照して記載されたエキスパートユーザ120及びトレーナーサーバ118を含んでよい。図2は、通信ネットワークを省略する。しかし、情報(例えば、204、206、208、210、及び212)の通信は、図1のネットワーク128のような通信ネットワークによって通信されてよいことが、本開示によって理解され得る。
エキスパートユーザ120は、認証されてよい。例えば、エキスパートユーザ120は、セッショントークン204をトレーナーサーバ118へ送ってよい。セッショントークン204は、トレーナーサーバ118とインターフェイス接続する特定のユーザとしてエキスパートユーザ120を識別し、及び/又は、エキスパートユーザ120がユーザ感覚入力208及び212をトレーナーサーバ118へ供給する特定の期間(例えば、セッション)を識別してよい。
いくつかの実施形態において、エキスパートユーザ120は、セッショントークン204を、表示デバイス104を介して送ってよい。他の実施形態では、エキスパートユーザ120は、セッショントークン204をトレーナーサーバ118へ送るようエキスパートデバイス202とインターフェイス接続してよい。その上、エキスパートユーザ120は、パスワード、バイオメトリックサンプル、又は他の適切な識別子を用いてログイン情報をトレーナーサーバ118へ供給するよう構成されてよい。
数あるデータの中でも特にセッショントークン204並びにユーザ感覚入力208及び212は、ブロックチェーンスタイルの台帳214に格納されてよい。ブロックチェーンスタイルの台帳214は、タイムスタンプ及び他のデータを含み得る暗号で保護された記録のリストを含んでよい。いくつかの実施形態において、ブロックチェーンスタイルの台帳214は、その全文を参照により本願に援用されるTschorsch & Scheuermann,Bitcoin and Beyond: A Technical Survey on Decentralized Digital Currencies,IEEE Communications Surveys & Tutorials 2084-2123,2017年11月24日で記載されているブロックチェーンに類似し得る。他の実施形態では、セッショントークン204並びに/又はユーザ感覚入力208及び212は、他の適切なフォーマット又はデータベースに格納されてよい。
トレーナーサーバ118は、データ210を表示デバイス104へ送るよう構成されてよい。いくつかの実施形態において、データ210のソースは、表示デバイス104を用いてエキスパートユーザ120によって選択されてよい。例えば、エキスパートユーザ120は、表示デバイス104でデータ210の複数のソースを提示されてよい。エキスパートユーザ120は、次いで、提示されたソースの中から1つを選択してよい。例えば、エキスパートユーザ120は、特定の交差点からのストリートカメラを含むデータソースを選択してよい。トレーナーサーバ118は、次いで、ストリートカメラからの映像データを表示デバイス104へ送ってよい。データ210は、表示デバイス104で表示されてよい。例えば、図2では、交差点の画像又は映像が表示デバイス104で表示される。選択の例についてのいくつかの更なる詳細は、図5を参照して与えられる。
エキスパートユーザ120は、複数のセンサ201A、201B、201C、201D、201E、及び201Fを取り付けられ、及び/又はそれらのセンサによって観測されてよい。センサ201A、201B、201C、201D、201E、及び201Fは、センサ106/122/124と実質的に同様であってよく、センサ106/122/124に対応してよい。複数のセンサ201A、201B、201C、201D、201E、及び201Fは、概してセンサ201と呼ばれ得る。例えば、表されている実施形態では、エキスパートユーザ120は、脳電図(EEG)201A、心拍モニタ201B、加速度計201C、及びマイクロホン201Dを取り付けられてよい。その上、視線カメラ201E及びジェスチャ捕捉カメラ201Fが、エキスパートユーザ120を観測するために実装されてよい。他の実施形態では、他のセンサ201が、エキスパートユーザ120を観測及びモニタするよう実装されてよい。例えば、いくつかの実施形態において、センサ201は、RBGd(depth;奥行き)カメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、ブレインコンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、グローバルポジショニングシステム(GPS)、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、及びバーチャルリアリティインターフェイス、又はそれらの何らかの組み合わせを含んでよい。
センサ201は、ユーザ感覚入力208及び212を生成するよう構成されてよい。ユーザ感覚入力208及び212は、トレーナーサーバ118へ送られてよい。ユーザ感覚入力208及び212は、センサ201の夫々の1つ以上から生成された多数のタイプの入力を含んでよい。例えば、第1のユーザ感覚入力212は、視線カメラ201Eによって生成されてよい。視線カメラ201Eは、データ210がエキスパートユーザ120に表示されている場合に表示デバイス104のどこを見ているかを決定してよい。然るに、第1のユーザ感覚入力212は、エキスパートユーザ120が見ている場所のインジケーションによるデータ210の表現を含み得る。第2のユーザ感覚入力208は、EEG201Aによって生成されてよい。然るに、第2のユーザ感覚入力208は、EEG201Aによって生成されたデータを表し得る。
ユーザ感覚入力208及び212は、データ210が表示デバイス104に表示される場合に生成及び通信されてよい。ユーザ感覚入力208及び212は、ユーザ感覚入力208及び212が特定の時点に表示されているデータ210の特定の部分と関連付けられるように、タイムスタンプとともに記憶されてよい。
ユーザ感覚入力208及び212に加えて、自然言語入力206がトレーナーサーバ118へ送られてよい。自然言語入力206は、エキスパートユーザ120によって供給されるコメント213又は他の同様の入力(例えば、タッチ、タイプ入力、マウスクリック、など)を表してよい。コメント213は、自然な話し又は書き言葉において供給されてよく、ユーザ感覚入力208及び212が取得される場合にエキスパートユーザ120の応答又は行動を物語ってよい。自然言語入力206は、学習エンジン116によって訓練されたニューラルネットワークへ入力を供給するよう、ユーザ感覚入力208及び212とともに記憶又は処理されてよい。
図3は、図1の環境100において実装され得る、例となるアプリケーションプログラム生成プロセス(生成プロセス)300を表す。例えば、生成プロセス300は、図1のトレーナーサーバ118によって実装されてよい。図3は、図1を参照して記載される実環境110に含まれ得るトレーナーサーバ118及び出力目標108を含んでよい。図3は、通信ネットワークを省略する。しかし、情報(例えば、206、208、212、及び310)の通信は、図1のネットワーク128のような通信ネットワークによって通信されてよいことが、本開示によって理解され得る。
生成プロセス300において、トレーナーサーバ118は、図2を参照して記載されるようにセンサ201から自然言語入力206及びユーザ感覚入力208/212を受信するよう構成されてよい。自然言語入力206は、ユーザ感覚入力208/212に対応し関連付けられてよい。例えば、自然言語入力206は、エキスパートユーザ(例えば、図1及び2のエキスパートユーザ120)のフィードバック及び反応を測定するユーザ感覚入力208/212と同時に受け取られるコメントであってよい。
学習エンジン116は、ユーザ感覚入力208/212に少なくとも部分的に基づき、アテンションマップ304を生成してよい。アテンションマップ304は、エキスパートユーザが焦点を合わせた提示されているデータ部分を示してよい。アテンションマップ304は、1つ以上の分類領域を含んでよい。その上、学習エンジン116は、自然言語入力206から1つ以上の注釈302を生成してよい。注釈302は、アテンションマップ304に加えられてよい。例えば、学習エンジン116は、エキスパートユーザの自然言語入力206に基づく自然言語入力ラベルによりアテンションマップ304に注釈を付してよい。
学習エンジン116は、ニューラルネットワーク306を訓練してよい。学習エンジン116は、ユーザ感覚入力208/212、自然言語入力206、注釈302、アテンションマップ304、他の情報314(図3では、他の情報314)、又はそれらの組み合わせに基づきニューラルネットワーク306を訓練してよい。他の情報314は、出力目標108に関連したアプリケーション命令及びソースコード、出力目標108に関連した製品仕様、出力目標108のデバイス仕様、又は実環境110の物理的な制約を含んでよい。例えば、注釈302付きのアテンションマップ304は、他の情報314とともにニューラルネットワーク306への入力として使用されてよい。ニューラルネットワーク306を訓練することは、実環境110における特異なアクティビティを示す特定の組の入力を分離又は精緻化し得る。その上、ニューラルネットワーク306の訓練は、実環境110における特異なアクティビティに対処する出力目標108のための改善措置又は動作を分離又は精緻化し得る。
訓練されたニューラルネットワーク306は、最終使用用途の特異なアクティビティのために最適化されてよい。例えば、ニューラルネットワーク306は、実環境110における特定の特異なアクティビティ又は特異なアクティビティの組の検出のために、訓練されてよい。例えば、いくつかの実施形態において、実環境110は農業環境を含んでよい。そのような実施形態では、エキスパートユーザは農業専門家を含む。その上、アテンションマップ304は、ヒートマップ、グリッドをオーバーレイされた画像、又はオブジェクトセグメンテーション選択を含んでよい。ユーザ感覚入力208/212は、視線センサによって捕捉される農業専門家の視線を表すユーザ視線データと、タッチスクリーン上で受け取られた物理接触を表す物理接触データとを含んでよい。農業専門家であるユーザの自然言語入力206は、音声入力又はタッチ機能を含んでよい。注釈302及びアテンションマップ304は、自然言語入力206に基づいてよく、ニューラルネットワーク306を訓練するために使用されてよい。最終使用用途は、農業環境の水やりスケジュールを含んでよい。然るに、ニューラルネットワーク306は、農業環境に関連した特異なアクティビティ(例えば、乾燥地、装置の誤動作、など)を識別するよう訓練されてよい。ニューラルネットワーク306は、出力目標108を用いて農業環境において改善措置(例えば、水やりを増やすこと、装置を交換すること、など)を実施するよう更に訓練されてよい。出力目標108は、実環境110において実装され、そして、学習エンジン116によって直接又は間接に制御されるよう構成された1つの道具(例えば、スプリンクラー)を含んでよい。
その上、いくつかの実施形態において、学習エンジン116は、深層学習エンジン312を含んでよい。深層学習エンジン312は、ニューラルネットワーク306を訓練するのを助けるよう構成されてよい。深層学習エンジン312は、ニューラルネットワーク情報及び処理されたユーザ感覚入力をDMS114へ送ってよい。例えば、深層学習エンジン312は、注釈302、アテンションマップ304、他の情報314、などをDMS114へ送ってよい。DMS114は、実験データ処理機能のために構成されてよい。例えば、DMS114は、実験データ処理機能のためにニューラルチューリングマシンを模倣する演算を用いてよい。
学習エンジン116は、訓練されたニューラルネットワーク306に基づきモデル308を生成し及び/又はモデル308を変更してよい。例えば、学習エンジン116は、ユーザ感覚入力208/212、自然言語入力206、注釈302、アテンションマップ304、他の情報314又はそれらの何らかの組み合わせを評価して、新しいモデル308が生成され得るかどうか、又は既に存在するモデル308が変更され得るかどうかを判定してよい。そのような判定に応えて、モデル308は生成又は変更されてよい。
学習エンジン116は、出力目標108のためのアプリケーションプログラム310を供給してよい。アプリケーションプログラム310は、モデル308に基づいてよい。アプリケーションプログラム310は、最終使用用途のために、特に、1つ以上の特異なアクティビティ及びそれらの特定された特異なアクティビティに対する1つ以上の改善措置を特定するために、最適化されてよい。アプリケーションプログラム310は、出力目標108によって実装されてよい。例えば、アプリケーションプログラム310は、出力目標108に指示するよう構成されてよい。例えば、アプリケーションプログラム310は、出力目標108に、実環境110における特異なアクティビティを検出し是正するよう指示してよい。
いくつかの実施形態において、学習エンジン116は、アプリケーションプログラムの品質チェックを可能にしてよい。品質チェックは、本開示で記載されているエキスパートユーザ120とは異なり得る第2のエキスパートユーザによって品質チェックセッション中に行われてよい。例えば、図2を参照して記載された認証と同様に、品質チェックは、第2のエキスパートユーザから第2のセッショントークンを受け取ることを含んでよい。第2のエキスパートユーザは、第2のセッショントークンに基づき認証され得る。第2のエキスパートユーザの品質チェックセッションは、タイムスタンプを付されてよい。第2のエキスパートユーザは、次いで、アプリケーションプログラム310が正確に且つ有効に特異なアクティビティを識別し、そのような特異なアクティビティに対する改善措置を実施するかどうかを評価してよい。第2のエキスパートユーザによって取得された如何なる情報も、ブロックチェーンスタイルの台帳214に格納されてよい。
図4A及び4Bは、図1~3を参照して記載されたトレーナーサーバ118の、例となるコンピュータアーキテクチャ400を表す。図4Aは、バス480を介して接続されているハードウェアアクセラレータ402、中央演算処理装置(CPU)468、DMS114、ディスプレイアダプタ432、不揮発性ストレージ430、ネットワークインターフェイス428、電源426、バッテリー424、拡張バス460、及びメモリ444を含むコンピュータアーキテクチャ400を表す。
ハードウェアアクセラレータ402は、トレーナーサーバ118においてプロセッシング機能を設けるよう構成されてよい。例えば、ハードウェアアクセラレータ402は、ユーザ感覚入力又は他のデータの部分を処理してよい。これは、CPU468によってさもなければ実行され得る一部の処理を軽減し得る。ハードウェアアクセラレータ402の利点には、ハードウェアアクセラレータ402がないシステムと比較して、ニューラルネットワークが訓練される速度、モデルが生成される速度、アプリケーションプログラムが生成される速度、又はそれらの何らかの組み合わせを増大させることが含まれ得る。表されている実施形態では、ハードウェアアクセラレータ402は、人工知能(AI)アクセラレータ404、メモリスタ(memristor)に基づくアクセラレータ406、グラフィカル処理ユニット(GPU)408、ベクトルプロセッサ410、FPGA412、ビジョン処理ユニット(VPU)414、ASIC416、物理処理ユニット(PPU)418、汎用CPU420、深層学習ユニット(DLU)422、又はそれらの何らかの組み合わせを含んでよい。CPU468は、データ及び情報を、情報の処理のために、ハードウェアアクセラレータ402とやり取りしてよい。
図4AにおけるDMS114は、I/Oコントローラ442、読み取りヘッド440、書き込みヘッド438、メモリ436、及びメモリコントローラ434を含んでよい。DMS114は、トレーナーサーバ118の1つ以上の他の構成要素と通信するようバス480と接続されてよい。いくつかの実施形態において、DMS114と、I/Oコントローラ442、読み取りヘッド440、書き込みヘッド438、メモリ436、及びメモリコントローラ434のうちの1つ以上とは、その全文を参照により本願に援用されるNikhil Buduma and Nicholas Lacascio,FUNDAMENTALS OF DEEP LEARNING,DESIGNING NEXT-GENERATION MACHINE INTELLIGENCE ALGORITHMS,2017年6月で記載されているように動作してよい。
表されている実施形態では、DMS114は、ニューラルネットワークを訓練するために深層学習エンジン312とインターフェイス接続するよう構成されてよい。例えば、深層学習エンジン312は、ニューラルネットワーク情報及び処理されたユーザ感覚入力をDMS114へ送ってよい。DMS114並びにI/Oコントローラ442、読み取りヘッド440、書き込みヘッド438、メモリ436、及びメモリコントローラ434は、受け取られたニューラルネットワーク情報及び処理されたユーザ感覚入力に基づき実験データ処理機能を実行してよい。
メモリ444は、図9を参照して記載されるメモリ910と実質的に同様であってよい。メモリ444は、ランダムアクセスメモリ(RAM)446を含んでよい。RAM446は、リードオンリーメモリ(ROM)448、オペレーティングシステム452、メモリ内ストレージ454、及びアプリケーションスタック456を更に含んでよい。その上、DMS及びメモリ444は、接続されるか又は一緒にネットワーク化されてよい。例えば、DMS114及びメモリ444は、バス480を介して接続されてよい。アプリケーションスタック456は、学習エンジン116及び1つ以上の他のアプリケーション458を含んでよい。学習エンジン116は、数あるアプリケーション及びエンジンの中でも特に、深層学習エンジン312を含んでよい。
図4Bを参照すると、コンピュータアーキテクチャ400のいくつかの更なる詳細が示されている。特に、図4Bは、学習エンジン116、深層学習エンジン312、及び他のアプリケーション458の詳細を含む。図4Bは、図4Aを参照して記載されたハードウェアアクセラレータ402、CPU468、ディスプレイアダプタ432、不揮発性ストレージ430、ネットワークインターフェイス428、電源426、バッテリー424、拡張バス460、又はそれらの何らかの組み合わせを含み得る他の構成要素401を含む。上述されたように、他の構成要素401、DMS114、及びアプリケーションスタック456は、バス480を介して通信上結合されてよい。
表されている実施形態では、他のアプリケーション458は、ランタイムシミュレーション環境437、ソースコード発生器/コンパイラ435、データ分類器433、ブラウザアプリケーション431、ウェブサーバ429、行動解析(behavior analytics)エンジン427、ドメイン固有言語モデル425、統合開発環境423、又はそれらの何らかの組み合わせを含んでよい。他のアプリケーション458は、エキスパートユーザからの入力の処理、アプリケーションプログラムの生成、若しくは出力目標へのアプリケーションプログラムの通信に関連した機能、又は何らかの他の関連機能を提供してよい。例えば、ランタイムシミュレーション環境437は、アプリケーションプログラムの試験を可能にし得る。ソースコード発生器/コンパイラ435は、出力目標(例えば、図1の出力目標108)に関連したソースコードを供給し得る。
学習エンジン116は、ニューラルネットワーク(例えば、図3の306)の訓練に関連した1つ以上のアプリケーションを含んでよい。例えば、図4Bの学習エンジン116は、アテンションマップを生成するアテンションマッピングアプリケーション413、ニューラルネットワーク発生器415、機械学習エンジン417、対話型ニューラルネットワークオプティマイザ/構成アプリケーション419、自動ニューラルネットワークオプティマイザ/構成アプリケーション421、及び深層学習エンジン312を含んでよい。
深層学習エンジン312は、メモリ(例えば、図4Aの444)で実行されるよう意図されてよい。例えば、深層学習エンジン312は、同時に実行され得る、複数の仮想マシンからのライブラリ、フレームワーク、及び他のニューラルネットワークモデルを含んでよい。深層学習エンジン312は、リソースを必要に応じて動的に共有し又は他の構成要素に割り当ててよい。深層学習エンジン312は、最適なニューラルネットワークが見つけられるまで、複数のモデル及びフレームワークが同時に実行及び評価することを可能にし得る。表されている実施形態では、深層学習エンジン312は、深層学習フレームワーク403、ハイブリッド/他のネットワーク405、再帰型ニューラルネットワーク(recurrent neural network)(RNN)ライブラリ407、生成モデル(generative models)409、畳み込みニューラルネットワーク(convolution neural network)(CNN)411、又はそれらの何らかの組み合わせを含んでよい。
図5は、図1のエキスパートユーザ120のようなエキスパートユーザからユーザ入力を受けるよう構成される図1の表示デバイス104の例となる実施形態を表す。表示デバイス104は、複数のアイコン(例えば、522A~522D、506、504、508、510、512、及び520A~520D)が提示され得る画面を含んでよい。表示デバイス104は、表示デバイス104の画面へのタッチを通じてアイコンの1つ以上の選択を可能にし得るタッチスクリーンとして構成されてよい。表されている実施形態では、例えば、表示デバイス104は、登録情報508、入力装置504、データソース522A~522D、出力目標520A~520D、又はそれらの何らかの組み合わせの選択、入力、及び確認を可能にし得る。
表示デバイス104上で、上部分は、1つ以上のデータソース522A~522D(概して、データソース522)を表示してよい。データソース522は、エキスパートユーザに提示されるデータが発せられるか又はアクセスされるデバイス及び/システムを含んでよい。データソース522は、図1の実環境110のような実環境にある1つ以上のデバイスであってよい。例えば、データソース522は、実環境110における複数のカメラ、すなわち、固定カメラ及びドローンに取り付けられたカメラ、実環境110における2つ以上の他のデータソース、又は他の適切なデータソースを含んでよい。
表示デバイス104又は表示デバイス104に接続されたデバイスを用いて、エキスパートユーザは、上部分に提示されているデータソース522から1つを選択してよい。データソース522の選択後、データ(例えば、図2のデータ210)は、表示デバイス104で提示されてよい。エキスパートユーザは、本開示において別な場所で記載されているように、ユーザ感覚入力を供給するよう表示デバイス104と相互作用してよい。例えば、表されている実施形態では、表示デバイス104は、視線検出器502を含んでよい。エキスパートユーザが表示デバイス104と相互作用する場合に、視線検出器502は、エキスパートユーザを観察し、それに基づきユーザ感覚入力を生成してよい。
例えば、いくつかの実施形態において、エキスパートユーザは農業専門家であってよい。この実施形態では、実環境は、例えば、作物畑を含んでよい。表示デバイス104は、作物畑内の第1の位置にある第1のカメラである第1のデータソース522Aを表示してよく、第2のデータソース522Aは、ドローンが撮影した映像を含んでよく、第3のデータソース522Cは、畑の衛星画像を含んでよく、第4のデータソース522Dは、畑のサーマル画像を含んでよい。他の実施形態では、データソース522は、温室の画像、屋内庭園の映像、又は何らかの他の農業に関連した画像/映像のような、他のソースを含んでよい。エキスパートユーザは、次いで、データソース522の中から1つを選択してよい。例えば、エキスパートユーザは、データソース522のうちの1つに対応するアイコンをタッチするか、あるいは、そのデータソース522に対応するアイコンを選択するようマウス(又は他の適切なデバイス)を使用してよい。
表示デバイス104上で、中央部分は、登録情報508に関するアイコンを表示してよい。エキスパートユーザは、表示デバイス104上でプロフィールを作成し、そのプロフィールを、図2のブロックチェーンスタイルの台帳214のようなブロックチェーンスタイルの台帳を用いてセーブしてよい。プロフィールは、エキスパートユーザによって供給された登録情報508を含んでよい。登録情報508はまた、ユーザID及びセッションID506を用いて入力及びアクセスされてよい。ユーザID及びセッションID506は、ブロックチェーンスタイルの台帳を用いてログオンされてよい。
表示デバイス104の中央部分はまた、入力装置504に関するアイコンを表示してよい。入力装置504は、自然言語入力を取得するために使用されてよい。例えば、入力装置504は、エキスパートユーザからの感覚入力、反応、コメント、及び相互作用を取り込んでよく、エキスパートユーザの相互作用及び応答に基づきアテンションマップを生成するために使用されてよい。入力装置はまた、深層学習ニューラルネットワークモデルの重み、クラス情報、又は注釈を変更してよい。入力装置は、いくつかの入力装置オプションを表示してよい。例えば、入力装置は、タッチスクリーン、視線検出器、及び刺激応答中の脳活動を測定するEEGのような、自然言語装置を含んでよい。自然言語装置は、エキスパートユーザの直感又は特定の知的プロファイルを捕捉してよく、それらは、アテンションマップ又はアテンションマップに含まれる注釈を生成するために使用されてよい。
例えば、いくつかの実施形態において、エキスパートユーザは農業専門家であってよい。農業専門家は、ユーザID及びセッションID506を介して登録情報508を供給してよい。農業専門家は、入力装置504を選択してよい。農業専門家は、入力装置504から1つ以上の感覚入力を選択してよい。例えば、農業専門家は、視線追跡器及び音声入力を選択してよい。農業専門家は、データソース522として作物畑を選択していてよい。農業専門家は、その場合に、作物畑の特定の領域に焦点を合わせるために視線センサを利用してよい。音声入力を用いて、農業専門家は、データソース522におけるデータにラベル又は注釈を付してよい。
表示デバイス104上で、下部分は、1つ以上の出力目標520A~520D(概して、出力目標520)に関するアイコンを表示してよい。出力目標520は、学習エンジンによって生成されたアプリケーションプログラムを受け取ってよい。アプリケーションプログラムは、エキスパートユーザの観察を通じて取得されたユーザ感覚入力に基づき作成された命令を含んでよい。出力目標520は、図1の実環境110のような実環境において作動する1つ以上のデバイスであってよい。例えば、出力目標520は、実環境110における複数のカメラ、すなわち、固定カメラ及びドローンに取り付けられたカメラ、スマート灌漑システム、同様の事象を検出するよう訓練されているドローン若しくはカメラ、ウェアラブルセンサシステム、拡張現実ヘッドセット、実環境110における2つ以上の他の出力目標、又は他の適切な出力目標を含んでよい。
図6は、図5の第1のデータソース522Aの選択後の表示デバイス104を表す。選択された第1のデータソース522Aから供給又はアクセスされたデータは、表示デバイス104において提示されてよい。
エキスパートユーザ120が表示デバイス104と相互作用する場合に、ユーザ感覚入力は、エキスパートユーザ120を観察するよう実装された1つ以上のセンサによって、取得されてよい。例えば、図6の表示デバイス104は視線検出器502を含んでよい。視線検出器502は、エキスパートユーザ120の視野602を観測するか、又はエキスパートユーザ120が焦点を合わせている第1のデータソース522Aの部分を決定してよい。その上、又は代替的に、同じく選択され得るマイクロホンは、エキスパートユーザ120によって話されたコメント604の形で自然言語入力を取得してよい。更にその上、表示デバイス104は、エキスパートユーザ120のタッチ606又は他の適切なセンサの形でユーザ感覚入力を取得してよい。自然言語入力及び/又はユーザ感覚入力は、トレーナーサーバ(例えば、本明細書で記載される118)へ送られてよい。
図7は、受け取られた入力750からの注釈付きアテンションマップ716の生成の、例となるプロセス700を表す。プロセス700は、いくつかの実施形態において、トレーナーサーバ(例えば、118)の学習エンジンによって実行されてよい。受け取られた入力750は、図6の表示デバイス104から送られ得る自然言語入力706及び/又はユーザ感覚入力702を含んでよい。自然言語入力706は、ユーザ感覚入力702に対応し関連付けられてよい。然るに、受け取られた入力750は、トレーナーサーバで一緒に受け取られ又は関連付けられてよい。
図7において、ユーザ感覚入力702は、フレーム708又は、表示デバイス104で提示されたデータの表現を含んでよい。フレーム708の部分710は、エキスパートユーザ(図6の120)が焦点を合わせたフレーム708の部分として強調表示されるか又は別なふうに示されてよい。フレーム708の部分710は、注釈付きアテンションマップ716において、分類領域718に対応してよい。分類領域718は、エキスパートユーザが焦点を合わせたフレーム708の部分710を含んでよい。
自然言語入力706は、ユーザ感覚入力702のフレーム708に関連した注釈を生成するために使用される。例えば、自然言語入力706は、環境又は分類領域718のためのラベルを生成するために使用されてよい。例えば、自然言語入力706は、フレーム708内に表されている環境にラベルを付すために使用されてよい。例えば、フレーム708に示されている環境は“トレイ1”であってよく、これは自然言語入力706から引っ張られ得る。その上、自然言語入力706は、分類領域718にラベル720を付すために使用されてよい。図7において、ラベル720は“野菜”を含んでよい。ラベル720は、注釈付きアテンションマップ716を生成するために加えられ得る。
然るに、学習エンジンは、ユーザ感覚入力702及び自然言語入力706に少なくとも部分的に基づき注釈付きアテンションマップ716を生成してよい。学習エンジンは、自然言語入力706から注釈又はラベル712及び720を生成してよい。注釈又はラベル712及び720は、注釈付きアテンションマップ716を生成するために加えられてよい。注釈付きアテンションマップ716は、エキスパートユーザが焦点を合わせた提示されているデータの部分を示してよい。特に、注釈付きアテンションマップ716は、エキスパートユーザによって焦点を合わせられた部分710に対応し得る分類領域718を含んでよい。
図8は、選択された第1の出力目標520のためのアプリケーションプログラム310を生成するプロセス800を表す。例えば、エキスパートユーザは、図5の表示デバイス104を用いて第1の出力目標520を選択してよい。プロセス800は、注釈付きアテンションマップ716及び他の情報314を入力として受けるニューラルネットワーク812の訓練を含んでよい。他の情報314は、選択された第1の出力目標520Aに特有であり得るアプリケーション命令808及び製品仕様810を含んでよい。
ニューラルネットワーク812は、入力として注釈付きアテンションマップ716及び他の情報314を入力層818内に受けてよい。入力層818は、次いで、ノードの1つ以上の隠れ層820A~820C(概して、隠れ層820)を通して処理してよい。隠れ層820は、特異なアクティビティが識別され、そして、その特異なアクティビティに対する改善措置が決定され得るようにニューラルネットワーク812を訓練するための中間計算及び/又は処理を含む。
訓練されたニューラルネットワーク812は、最終使用用途において最適化されてよい。特に、訓練されたニューラルネットワーク812は、特定の選択された出力目標820Aのために最適化されてよい。例えば、他の情報314は、特定の選択された第1の出力目標520Aに対する訓練されたニューラルネットワーク812の最適化を可能にし得る。ニューラルネットワーク812は出力層822を含んでよい。出力層822は、モデル308に供給されるか又はモデル308を生成するために使用され得る最適化された値の組を含んでよい。
モデル308は、アプリケーションプログラム310を生成するために使用されてよい。例えば、アプリケーションプログラム310は、選択された第1の出力目標520Aに特有である訓練されたニューラルネットワーク812の最適値を含んでよい。アプリケーションプログラム310は、実環境110における第1の出力目標520Aへ送られてよい。アプリケーションプログラム310は、第1の出力目標520Aに、特異なアクティビティを識別し、その識別された特異なアクティビティに対する改善措置を実施するよう指示してよい。
表されている実施形態では、例えば、特異なアクティビティは、注釈付きアテンションマップ716において識別されラベルを付されている野菜を含んでよい。野菜は、注釈付きアテンションマップ716に含まれている分類領域718に対応してよい。然るに、第1の出力目標520Aは、次いで、野菜が水を必要とする場合を特定し、解決策(例えば、水源を作動させること。)を実施することが可能であり得る。
図9は、本開示の少なくとも1つの実施形態に従うアプリケーションプログラム生成のための深層ニューラルネットワーク訓練の実施のために構成され得る、例となるコンピューティングシステム900のブロック図である。コンピューティングシステム900は、例えば、図1の環境100において実装されてよい。例えば、コンピューティングシステム900は、出力目標108、表示デバイス104、トレーナーサーバ118、又はエキスパートデバイス202を含んでよい。コンピューティングシステム900は、DMS114、1つ以上のプロセッサ908、メモリ910、通信ユニット912、ユーザインターフェイスデバイス914、及び学習エンジン116を含むデータストレージ906を含んでよい。
プロセッサ908は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む如何なる適切な特別目的又は汎用のコンピュータ、コンピューティングエンティティ、又はプロセッシングデバイスも含んでよく、如何なる適用可能なコンピュータ読み出し可能記憶媒体にも記憶された命令を実行するよう構成されてよい。例えば、プロセッサ908は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、ASIC、FPGA、あるいは、プログラム命令を解釈及び/若しくは実行するよう並びに/又はデータを処理するよう構成された如何なる他のデジタル又はアナログ回路も含んでよい。
図9では単一のプロセッサとして表されているが、プロセッサ908は、より一般的には、本開示で記載されている動作をいくつでも個々に又は集合的に実行するよう構成されたプロセッサをいくつでも含んでよい。その上、プロセッサ908の1つ以上は、1つ以上の異なる電子デバイス又はコンピューティングシステムにおいて存在してよい。いくつかの実施形態において、プロセッサ908は、メモリ910、データストレージ906、又はメモリ910及びデータストレージ906に記憶されているプログラム命令を解釈及び/若しくは実行し、並びに/又は記憶されているデータを処理してよい。いくつかの実施形態において、プロセッサ908は、データストレージ906からプログラム命令をフェッチし、プログラム命令をメモリ910にロードしてよい。プログラム命令がメモリ910にロードされた後、プロセッサ908はプログラム命令を実行してよい。
メモリ910及びデータストレージ906は、コンピュータ実行可能命令又はデータ構造を運ぶか又は記憶しているコンピュータ読み出し可能記憶媒体を含んでよい。そのようなコンピュータ読み出し可能記憶媒体は、プロセッサ908のような汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体も含んでよい。例として、制限なしに、そのようなコンピュータ読み出し可能記憶媒体は、RAM、ROM、EEPROM、CD-ROM若しくは他の光学ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、固体状態メモリデバイス)、あるいは、コンピュータ実行可能命令又はデータ構造の形で所望のプログラムコードを携行又は記憶するために使用され得且つ汎用又は特別目的のコンピュータによってアクセスされ得る如何なる他の記憶媒体も含む有形な又は非一時的なコンピュータ読み出し可能記憶媒体を含んでよい。上記の組み合わせも、コンピュータ読み出し可能記憶媒体の適用範囲内に含まれ得る。コンピュータ実行可能命令は、例えば、プロセッサ908に特定の動作又は動作群を実行させるよう構成された命令及びデータを含んでよい。
通信ユニット912は、通信を受信及び送信するよう構成されたハードウェアの1つ以上の片を含んでよい。いくつかの実施形態において、通信ユニット912は、通信ハードウェアデバイスの中でも特に、アンテナ、有線ポート、及び変調/復調ハードウェアのうちの1つ以上を含んでよい。特に、通信ユニット912は、コンピューティングシステム900の外から通信を受け、通信をプロセッサ908へ渡すよう、あるいは、プロセッサ908から他のデバイス又はネットワークへ通信を送るよう構成されてよい。
ユーザインターフェイスデバイス914は、ユーザから入力を受け及び/又は出力をユーザへ供給するよう構成されたハードウェアの1つ以上の片を含んでよい。いくつかの実施形態において、ユーザインターフェイスデバイス914は、ハードウェアデバイスの中でも特に、スピーカー、マイクロホン、ディスプレイ、キーボード、タッチスクリーン、又はホログラフィック投影のうちの1つ以上を含んでよい。
学習エンジン116は、データストレージ906に記憶されているプログラム命令を含んでよい。プロセッサ908は、学習エンジン116をメモリ910にロードし、そして、学習エンジン116を実行するよう構成されてよい。代替的に、プロセッサ908は、学習エンジン116をメモリ910にロードせずに、データストレージ906からライン・バイ・ラインで学習エンジン116を実行してよい。学習エンジン116を実行する場合に、プロセッサ908は、本開示において他の場所で記載されている未識別ブランチ探索を実行するよう構成されてよい。
変更、追加、又は削除は、本開示の適用範囲から逸脱することなしに、コンピューティングシステム900に対して行われてよい。例えば、いくつかの実施形態において、コンピューティングシステム900は、ユーザインターフェイスデバイス914を含まなくてよい。いくつかの実施形態において、コンピューティングシステム900の異なる構成要素は物理的に分離していてよく、如何なる適切なメカニズムによっても通信上結合されてよい。例えば、データストレージ906は、プロセッサ908、メモリ910、及び記憶デバイスへ通信上結合されている通信ユニット912を含むサーバから分離した記憶デバイスの部分であってよい。本明細書で記載される実施形態は、以下で更に詳細に記載されるように、様々なコンピュータハードウェア又はソフトウェアモジュールを含む特別目的又は汎用のコンピュータの使用を含んでよい。
図10A及び10Bは、アプリケーションプログラム生成のための深層ニューラルネットワーク訓練の、例となる方法1000のフローチャートである。方法1000は、図1の環境100のような環境において実行されてよい。方法1000は、いくつかの実施形態において、学習エンジン116、トレーナーサーバ118、コンピューティングシステム900又はそれらの何らかの組み合わせによってプログラム可能に実行されてよい。いくつかの実施形態において、学習エンジン116を含むコンピューティングシステム(例えば、コンピューティングシステム900)は、コンピューティングシステムに方法1000を実行させるか又はその実行を制御させるよう1つ以上のプロセッサ(例えば、図9のプロセッサ908)によって実行可能であるプログラミングコード又は命令を記憶している非一時的なコンピュータ読み出し可能媒体を含んでよく、あるいは、そのような媒体へ通信上結合されてよい。その上、又は代替的に、学習エンジン116を含むコンピューティングシステム(例えば、コンピューティングシステム900)は、本開示において他の場所に記載されたプロセッサ908を含んでよく、プロセッサ908は、コンピューティングシステムに方法1000を実行させるか又はその実行を制御させるようにコンピュータ命令を実行するよう構成される。別個のブロックとして表されているが、図10A及び10Bにおける様々なブロックは、所望の実施に応じて、更なるブロックに分けられても、より少ないブロックへとまとめられても、あるいは、削除されてもよい。
方法1000は、セッショントークンがエキスパートユーザから受け取られ得るブロック1002から開始してよい。セッショントークンは、エキスパートユーザに関連するエキスパートデバイスから受け取られてよい。セッショントークンは、エキスパートユーザを識別し、及び/又は、エキスパートユーザがトレーナーサーバとインターフェイス接続するか若しくはそれに入力を供給する特定のセッションを識別する識別子を含んでよい。セッショントークンは、図1のネットワーク128のような通信ネットワークを介して送られてよい。ブロック1004で、エキスパートユーザは、セッショントークンに基づき認証されてよい。例えば、トレーナーサーバ118のようなトレーナーサーバは、特定のエキスパートユーザをセッショントークンに基づき認証するよう構成されてよい。ブロック1006で、エキスパートユーザから取得された情報が、ブロックチェーンスタイルの台帳に格納されてよい。例えば、エキスパートユーザ及び/又は入力(後述される。)の識別情報は、ブロックチェーンスタイルの台帳に格納されてよい。
ブロック1008で、ユーザ入力が、エキスパートユーザから受け取られてよい。いくつかの実施形態において、ユーザ入力は、提示されるデータが発せられるデータソースの選択、及び/又は出力目標の選択を含んでよい。出力目標は、例えば、ドローン、カメラ、又は拡張現実ヘッドセットを含んでよい。ブロック1010で、データがエキスパートユーザに提示されてよい。データは、アプリケーションプログラムが生成される実環境に関する情報を含んでよい。例えば、データは、1つ以上の場所からカメラフィード、ドローンからの画像データ、衛星からの画像データ、屋内カメラデータフィード、などを含んでよい。
ブロック1012で、ユーザ感覚入力が1つ以上のセンサを介して受け取られてよい。センサは、提示されているデータに関連した又はそれに応じたエキスパートユーザのアクティビティ及び反応を測定するものであってよい。ユーザ感覚入力は、データがエキスパートユーザに提示される場合に受け取られてよい。例えば、ユーザ感覚入力は、実時間において又は略実時間において受け取られてよい。センサは、RBGdカメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、脳コンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、GPS、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、バーチャルリアリティインターフェイス、又はそれらの何らかの組み合わせを含んでよい。
ブロック1014で、アテンションマップが生成されてよい。アテンションマップは、ユーザ感覚入力に基づき生成されてよい。例えば、アテンションマップは、エキスパートユーザが焦点を合わせた、1つ以上のデータ分類領域を含む提示されているデータの部分を示してよい。ブロック1016で、アテンションマップは注釈を付されてよい。アテンションマップは、エキスパートユーザの自然言語入力に基づく自然言語入力ラベルにより注釈を付されてよい。例えば、エキスパートユーザは、エキスパートユーザが提示されているデータと相互作用する場合に(口頭で又はユーザインターフェイスを介して)コメントすることがある。エキスパートユーザのコメントは、テキスト上で解析され、アテンションマップ上で注釈を付されてよい。注釈は、提示されているデータの部分を参照するラベル及び/又はボックスを含んでよい。
ブロック1018で、ニューラルネットワークは訓練されてよい。ニューラルネットワークは、ユーザ感覚入力に基づき訓練されてよい。例えば、注釈付きアテンションマップが、ニューラルネットワークへの入力として使用されてよく、ニューラルネットワークは、注釈付きアテンションマップに基づき訓練されてよい。いくつかの実施形態において、訓練は、ニューラルネットワーク情報及び/又は処理されたユーザ感覚入力を微分メモリサブシステムへ送ることを含んでよい。微分メモリサブシステムで、ニューラルネットワーク情報及び/又は処理されたユーザ感覚入力は、実験データ処理機能のために使用されてよい。微分メモリサブシステムは、ブロック1002、1004、1006、1008、1010、1012、1014、1016、又はそれらの組み合わせのうちの1つ以上を実行するトレーナーサーバの他の部分から物理的に離れておりネットワーク接続されてよい。
ブロック1020で、モデルが生成又は変更されてよい。モデルは、最終使用用途の1つ以上の特異なアクティビティのために最適化されている訓練されたニューラルネットワークに基づき生成又は変更されてよい。例えば、ブロック1018に従って、ニューラルネットワークは、ユーザ感覚入力及び他の入力に基づき訓練されてよい。ニューラルネットワークは、実環境における特異なアクティビティ及びそれに対する改善措置の検出のために訓練又は最適化されてよい。ブロック1022で、アプリケーションプログラムが、最終使用用途の出力目標のために供給されてよい。例えば、アプリケーションプログラムは、最終使用用途の1つ以上の特定の特異なアクティビティ及びそれらの特異なアクティビティを是正する1つ以上の方法を検出するよう構成されてよい。
ブロック1024で、出力目標は、アプリケーションプログラムを介して、特異なアクティビティを検出し是正するよう指示されてよい。例えば、アプリケーションプログラムは、ユーザ感覚入力に基づく訓練されたニューラルネットワークに基づき、生成されてよい。アプリケーションプログラムは、次いで、出力目標へ送信又は通信されてよい。出力目標は、次いで、アプリケーションプログラムに従って動作してよい。
ブロック1026で、アプリケーションプログラムの品質チェックが有効にされてよい。品質チェックは、1以上の他のエキスパートユーザによって実行されてよい。他のエキスパートユーザは、実環境における出力目標の実行に基づきアプリケーションプログラムにアクセスし及び/又はそれを評価してよい。いくつかの実施形態において、品質チェックは、第2のエキスパートユーザから第2のセッショントークンを受け取ることを含んでよい。第2のエキスパートユーザは、第2のセッショントークンに基づき認証されてよい。第2のエキスパートユーザの品質チェックセッションは、タイムスタンプを付されてよく、アプリケーションプログラムをチェックするために第2のエキスパートユーザから取得された情報は、ブロックチェーンスタイルの台帳に格納されてよい。
例えば、いくつかの実施形態において、エキスパートユーザは農業専門家を含んでよい。そのような及び他の実施形態では、アテンションマップは、ヒートマップ、グリッドをオーバーレイされた画像、オブジェクトセグメンテーション選択を含んでよい。ユーザ感覚入力は、視線センサによって捕捉される農業専門家の視線を表すユーザ視線データと、タッチスクリーン上で受け取られた物理セッションを表す物理接触データとを含んでよい。農業専門家ユーザの自然言語入力は、音声入力又はタッチ機能を含む。モデルは、ユーザ感覚入力に基づき生成されてよく、ニューラルネットワークは、ユーザ感覚入力に基づき訓練されてよい。ニューラルネットワークは、実環境における特異なアクティビティ(例えば、乾燥地、枯れた野菜、故障したスプリンクラー、成熟した野菜、害虫の存在、雑草の存在、など)の検出と、特異なアクティビティを取り除くか又は別なふうにそれに対処するためのドローン又は他のメカニズムによる動作とのために、訓練されてよい。
他の実施形態では、エキスパートユーザはセキュリティ専門家を含んでよい。そのような及び他の実施形態では、アテンションマップは過去の映像を含んでよい。ユーザ感覚入力は、視線センサによって捕捉されるセキュリティ専門家の視線を表すユーザ視線データと、感情的な反応を表すカメラとを含んでよい。セキュリティ専門家ユーザの自然言語入力は、(例えば、マイクロホンによる)音声入力を含んでよい。モデルは、ユーザ感覚入力に基づき生成されてよく、ニューラルネットワークは、ユーザ感覚入力に基づき訓練されてよい。ニューラルネットワークは、モニタされている環境における特異なアクティビティ(例えば、安全保障上の脅威の存在、爆発物の存在、など)の検出と、特異なアクティビティを取り除くか又は別なふうにそれに対処するためのドローン、カメラ、アラーム又は他のメカニズムによる動作とのために、訓練されてよい。
当業者に明らかなように、本明細書で開示されているこの及び他のプロシージャ及び方法に関して、プロセス及び方法において実行される機能は、別の順序で実施されてよい。更に、説明されているステップ及び動作は、単に例として与えられており、ステップ及び動作の一部は、開示されている実施形態から逸脱することなしに、任意であっても、より少ないステップ及び動作へとまとめられても、又は更なるステップへと広げられてもよい。
本明細書で記載される実施形態は、以下で更に詳細に説明されるように、様々なコンピュータハードウェア又はソフトウェアを含む特別目的又は汎用のコンピュータの使用を含んでよい。
本明細書で記載される実施形態は、コンピュータ実行可能命令又はデータ構造を運ぶか又は記憶しているコンピュータ読み出し可能媒体を用いて、実装されてよい。そのようなコンピュータ読み出し可能媒体は、汎用又は特別目的のコンピュータによってアクセスされ得る如何なる利用可能な媒体であってもよい。例として、制限なしに、そのようなコンピュータ読み出し可能媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能なプログラム可能リードオンリーメモリ(EEPROM)、コンパクトディスク・リードオンリーメモリ(CD-ROM)若しくは他の光学ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、固体状態メモリデバイス)、あるいは、コンピュータ実行可能命令又はデータ構造の形で所望のプログラムコードを携行又は記憶するために使用され得且つ汎用又は特別目的のコンピュータによってアクセスされ得る如何なる他の記憶媒体も含む非一時的なコンピュータ読み出し可能記憶媒体を含んでよい。そのような及び他の実施形態において、本明細書で説明される語“一時的な”は、In re Nuijten, 500 F.3d 1346のFederal Circuit判決(Fed. Cir. 2007)において特許可能な対象の適用範囲外にあると認められたような一時的な媒体のみを除くと解釈されるべきである。
コンピュータ実行可能命令は、例えば、汎用のコンピュータ、特別目的のコンピュータ、又は特別目的のプロセッシングデバイス(例えば、1つ以上のプロセッサ)に特定の機能又は機能群を実行させる命令及びデータを含む。構造的な特徴及び/又は方法論的な動作に特有の言語で対象が記載されてきたが、添付の特許請求の範囲で定義されている対象は、必ずしも、上記の具体的な特徴又は動作に制限されないことが理解されるべきである。むしろ、上記の具体的な特徴又は動作は、特許請求の範囲を実施する形態の例として開示されている。
本明細書で使用されるように、語“モジュール”又は“コンポーネント”は、モジュール若しくはコンポーネントの動作を実行するよう構成された特定のハードウェア実施、並びに/又はコンピューティングシステムの汎用ハードウェア(例えば、コンピュータ読み出し可能媒体、プロセッシングデバイス、など)によって記憶及び/若しくは実行され得るソフトウェアオブジェクト若しくはソフトウェアルーチンを指し得る。いくつかの実施形態において、本明細書で記載される種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピューティングシステムで(例えば、別個のスレッドとして)実行するオブジェクト又はプロセスとして実行されてよい。
本明細書で記載されるシステム及び方法の一部は、概して、(汎用ハードウェアによって記憶及び/又は実行される)ソフトウェアにおいて実装されるものとして記載されているが、特定のハードウェア実施、又はソフトウェア及び特定のハードウェア実施の組み合わせも可能であり、考えられている。本明細書において、“コンピューティングエンティティ”は、本明細書で以前に定義されたあらゆるコンピューティングシステム、又はコンピューティングシステムで実行されるあらゆるモジュール若しくはモジュールの組み合わせであってよい。
本明細書で、特に添付の特許請求の範囲(例えば、添付の特許請求の本文)で使用される語は、一般的に、“非限定的な(open)”用語として意図されている(例えば、語「含んでいる(including)」は、“~を含んでいるが、~に制限されない”との意に解釈されるべきであり、語「備えている(having)」は、「少なくとも~を備えている」との意に解釈されるべきであり、語「含む(includes)」は、“~を含むが、~に制限されない”との意に解釈されるべきである、など。)。
加えて、導入されたクレーム記載(introduced claim recitation)において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう(例えば、他に修飾語のない、単なる「2つの記載事項」という記載がある場合、この記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する。)。更に、「A、B及びCなどのうち少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Aのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、及び/又はAとBとCの全て、などを含むよう意図される。例えば、語「及び/又は(and/or)」の使用は、このように解釈されるよう意図される。
更に、2つ以上の選択可能な用語を表す如何なる離接語及び/又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの1つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「A又はB」という句は、「A又はB」、あるいは、「A及びB」の可能性を含むことが理解されるべきである。
加えて、語「第1(first)」、「第2(second)」、「第3(third)」などの使用は、要素の特定の順序又は数を示すために本願で必ずしも使用されているわけではない。一般に、語「第1」、「第2」、「第3」などは、異なる要素どうしを総称的な識別子として区別するために使用される。語「第1」、「第2」、「第3」などが特定の順序を示すとの明示がない限りは、それらの語が特定の順序を示すと理解されるべきではない。更には、語「第1」、「第2」、「第3」などが要素の特定の数を示すとの明示がない限りは、それらの語が要素の特定の数を示すと理解されるべきではない。例えば、第1のウィジェットは、第1の側面を有するものとして記載されることがあり、第2のウィジェットは、第2の側面を有するものとして記載されることがある。第2のウィジェットに対する語「第2の側面」の使用は、第2のウィジェットのその側面を第1のウィジェットの「第1の側面」と区別するためであって、第2のウィジェットが2つの側面を有していることを示すためではない。
ここで挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
深層ニューラルネットワーク訓練のために構成されるコンピュータシステムアーキテクチャであって、
プロセッサと、
学習エンジンが記憶されており、該学習エンジンが
データをエキスパートユーザに提示し、
前記データが前記エキスパートユーザに提示される場合に、該提示されたデータに関連した前記エキスパートユーザの反応及びフィードバックを測定する1つ以上のセンサを介してユーザ感覚入力を受け、
前記エキスパートユーザが焦点を合わせた前記提示されたデータの部分を示し且つ1つ以上のデータ分類領域を含むアテンションマップを、前記ユーザ感覚入力に基づき生成し、
前記エキスパートユーザの自然言語入力に基づく自然言語入力ラベルにより前記アテンションマップに注釈を付し、
前記ユーザ感覚入力に基づきニューラルネットワークを訓練し、
エンドユーザアプリケーションの特異なアクティビティのために最適化される前記訓練されたニューラルネットワークに基づくモデルを生成し、
前記エンドユーザアプリケーションの出力目標のためのアプリケーションプログラムを供給し、
前記出力目標に、前記アプリケーションプログラムを介して、前記特異なアクティビティを検出し是正するよう指示する
よう構成されるメモリと、
前記メモリ及び前記プロセッサと物理的に離れておりネットワーク接続されている微分メモリサブシステムであり、ニューラルネットワーク情報及び処理されたユーザ感覚入力を、実験データ処理機能のために前記学習エンジンから受けるよう構成される前記微分メモリサブシステムと
を有するコンピュータシステムアーキテクチャ。
(付記2)
前記微分メモリサブシステムは、実験データ処理機能のためにニューラルチューリングマシンを模倣する演算を用いる、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記3)
前記学習エンジンは更に、
前記エキスパートユーザからセッショントークン識別子を受け、
前記セッショントークンに基づき前記エキスパートユーザを認証し、
前記エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納する
よう構成される、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記4)
前記学習エンジンは更に、前記アプリケーションプログラムの品質チェックを可能にするよう構成される、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記5)
前記品質チェックは、
第2エキスパートユーザから第2セッショントークン識別子を受けることと、
前記第2セッショントークンに基づき前記第2エキスパートユーザを認証することと、
前記第2エキスパートユーザの品質チェックセッションにタイムスタンプを付すことと、
前記第2エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
を含む、
付記4に記載のコンピュータシステムアーキテクチャ。
(付記6)
前記エキスパートユーザは、農業専門家を含み、
前記アテンションマップは、ヒートマップ、グリッドをオーバーレイされた画像、又はオブジェクトセグメンテーション選択を含み、
前記ユーザ感覚入力は、視線センサによって捕捉される前記農業専門家の視線を表すユーザ視線データと、タッチスクリーンにおいて受け取られる物理接触を表す物理接触データとを含み、
前記農業専門家の自然言語入力は、音声入力又はタッチ機能を含む、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記7)
前記エキスパートユーザは、セキュリティ専門家を含み、
前記アテンションマップは、過去の映像を含み、
前記ユーザ感覚入力は、視線センサによって捕捉される前記セキュリティ専門家の視線を表すユーザ視線データと、情緒反応を表す脳波図及びカメラとを含み、
前記セキュリティ専門家の自然言語入力は、音声入力を含む、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記8)
前記1つ以上のセンサは、RBGdカメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、ブレインコンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、GPS、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、及びバーチャルリアリティインターフェイスの組み合わせの1つ以上を含む、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記9)
前記出力目標は、ドローン、カメラ、又は拡張現実ヘッドセットを含む、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記10)
前記学習エンジンは更に、前記エキスパートユーザからユーザ入力を受けるよう構成され、
前記ユーザ入力は、前記提示されたデータが発せられるデータ源の選択を含み、且つ、前記出力目標の選択を含む、
付記1に記載のコンピュータシステムアーキテクチャ。
(付記11)
アプリケーションプログラムのための深層ニューラルネットワーク訓練の方法であって、
トレーナーサーバによって、データをエキスパートユーザに提示することと、
前記トレーナーサーバによって、前記データが前記エキスパートユーザに提示される場合に、該提示されたデータに関連した前記エキスパートユーザの反応及びアクティビティを測定する1つ以上のセンサを介してユーザ感覚入力を受けることと、
前記トレーナーサーバによって、前記エキスパートユーザが焦点を合わせた前記提示されたデータの部分を示し且つ1つ以上のデータ分類領域を含むアテンションマップを、前記ユーザ感覚入力に基づき生成することと、
前記トレーナーサーバによって、前記エキスパートユーザの自然言語入力に基づく自然言語入力ラベルにより前記アテンションマップに注釈を付すことと、
前記トレーナーサーバによって、前記ユーザ感覚入力に基づきニューラルネットワークを訓練することであり、実験データ処理機能のためにニューラルネットワーク情報及び処理されたユーザ感覚入力を微分メモリサブシステムへ送ることを含む前記訓練することと、
前記トレーナーサーバによって、エンドユーザアプリケーションの特異なアクティビティのために最適化される前記訓練されたニューラルネットワークに基づくモデルを生成することと、
前記トレーナーサーバによって、前記エンドユーザアプリケーションの出力目標のためのアプリケーションプログラムを供給することと、
前記トレーナーサーバによって、前記出力目標に、前記アプリケーションプログラムを介して、前記特異なアクティビティを検出し是正するよう指示することと
を有する方法。
(付記12)
前記エキスパートユーザからユーザ入力を受けることを更に有し、
前記ユーザ入力は、前記提示されたデータが発せられるデータ源の選択を含み、且つ、前記出力目標の選択を含む、
付記11に記載の方法。
(付記13)
前記微分メモリサブシステムは、前記トレーナーサーバの一次メモリから物理的に離れておりネットワーク接続されている、
付記11に記載の方法。
(付記14)
前記エキスパートユーザからセッショントークン識別子を受けることと、
前記セッショントークンに基づき前記エキスパートユーザを認証することと、
前記エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
を更に有する
付記11に記載の方法。
(付記15)
前記アプリケーションプログラムの品質チェックを可能にすることを更に有し、
前記品質チェックは、
第2エキスパートユーザから第2セッショントークン識別子を受けることと、
前記第2セッショントークンに基づき前記第2エキスパートユーザを認証することと、
前記第2エキスパートユーザの品質チェックセッションにタイムスタンプを付すことと、
前記第2エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
を含む、
付記11に記載の方法。
(付記16)
前記エキスパートユーザは、農業専門家を含み、
前記アテンションマップは、ヒートマップ、グリッドをオーバーレイされた画像、又はオブジェクトセグメンテーション選択を含み、
前記ユーザ感覚入力は、視線センサによって捕捉される前記農業専門家の視線を表すユーザ視線データと、タッチスクリーンにおいて受け取られる物理接触を表す物理接触データとを含み、
前記農業専門家の自然言語入力は、音声入力又はタッチ機能を含む、
付記11に記載の方法。
(付記17)
前記エキスパートユーザは、セキュリティ専門家を含み、
前記アテンションマップは、過去の映像を含み、
前記ユーザ感覚入力は、視線センサによって捕捉される前記セキュリティ専門家の視線を表すユーザ視線データと、情緒反応を表す脳波図及びカメラとを含み、
前記セキュリティ専門家の自然言語入力は、音声入力を含む、
付記11に記載の方法。
(付記18)
前記出力目標は、ドローン、カメラ、又は拡張現実ヘッドセットを含む、
付記11に記載の方法。
(付記19)
前記1つ以上のセンサは、RBGdカメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、ブレインコンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、GPS、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、及びバーチャルリアリティインターフェイスの組み合わせの1つ以上を含む、
付記11に記載の方法。
(付記20)
プロセッサによって実行される場合に該プロセッサに付記11に記載の方法を実行させる実行可能コードを記憶している非一時的なコンピュータ読み出し可能な媒体。
100 環境
102 エキスパート入力環境
104 表示デバイス
106 環境センサ
108 出力目標
110 実環境
112 データストレージ
118 トレーナーサーバ
114 微分メモリサブシステム(DMS)
116 学習エンジン
120 エキスパートユーザ
122,124 ユーザセンサ
128 ネットワーク
201A~F センサ
202 エキスパートデバイス
204 セッショントークン
206,706 自然言語入力
208,212,702 ユーザ感覚入力
210 データ
213,604 コメント
214 ブロックチェーンスタイルの台帳
302 注釈
304 アテンションマップ
306,812 ニューラルネットワーク
308 モデル
310 アプリケーションプログラム
312 深層学習エンジン
502 視線検出器
712,720 ラベル
716 注釈付きアテンションマップ
718 分類領域
900 コンピューティングシステム

Claims (20)

  1. 深層ニューラルネットワーク訓練のために構成されるコンピュータシステムアーキテクチャであって、
    プロセッサと、
    学習エンジンが記憶されており、該学習エンジンが
    データをエキスパートユーザに提示し、
    前記データが前記エキスパートユーザに提示される場合に、該提示されたデータに関連した前記エキスパートユーザの反応及びフィードバックを測定する1つ以上のセンサを介してユーザ感覚入力を受け、
    前記エキスパートユーザが焦点を合わせた前記提示されたデータの部分を示し且つ1つ以上のデータ分類領域を含むアテンションマップを、前記ユーザ感覚入力に基づき生成し、
    前記エキスパートユーザの自然言語入力に基づく自然言語入力ラベルにより前記アテンションマップに注釈を付し、
    前記ユーザ感覚入力に基づきニューラルネットワークを訓練し、
    エンドユーザアプリケーションの特異なアクティビティのために最適化される前記訓練されたニューラルネットワークに基づくモデルを生成し、
    前記エンドユーザアプリケーションの出力目標のためのアプリケーションプログラムを供給し、
    前記出力目標に、前記アプリケーションプログラムを介して、前記特異なアクティビティを検出し是正するよう指示する
    よう構成されるメモリと、
    前記メモリ及び前記プロセッサと物理的に離れておりネットワーク接続されている微分メモリサブシステムであり、ニューラルネットワーク情報及び処理されたユーザ感覚入力を、実験データ処理機能のために前記学習エンジンから受けるよう構成される前記微分メモリサブシステムと
    を有するコンピュータシステムアーキテクチャ。
  2. 前記微分メモリサブシステムは、実験データ処理機能のためにニューラルチューリングマシンを模倣する演算を用いる、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  3. 前記学習エンジンは更に、
    前記エキスパートユーザからセッショントークン識別子を受け、
    前記セッショントークンに基づき前記エキスパートユーザを認証し、
    前記エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納する
    よう構成される、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  4. 前記学習エンジンは更に、前記アプリケーションプログラムの品質チェックを可能にするよう構成される、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  5. 前記品質チェックは、
    第2エキスパートユーザから第2セッショントークン識別子を受けることと、
    前記第2セッショントークンに基づき前記第2エキスパートユーザを認証することと、
    前記第2エキスパートユーザの品質チェックセッションにタイムスタンプを付すことと、
    前記第2エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
    を含む、
    請求項4に記載のコンピュータシステムアーキテクチャ。
  6. 前記エキスパートユーザは、農業専門家を含み、
    前記アテンションマップは、ヒートマップ、グリッドをオーバーレイされた画像、又はオブジェクトセグメンテーション選択を含み、
    前記ユーザ感覚入力は、視線センサによって捕捉される前記農業専門家の視線を表すユーザ視線データと、タッチスクリーンにおいて受け取られる物理接触を表す物理接触データとを含み、
    前記農業専門家の自然言語入力は、音声入力又はタッチ機能を含む、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  7. 前記エキスパートユーザは、セキュリティ専門家を含み、
    前記アテンションマップは、過去の映像を含み、
    前記ユーザ感覚入力は、視線センサによって捕捉される前記セキュリティ専門家の視線を表すユーザ視線データと、情緒反応を表す脳波図及びカメラとを含み、
    前記セキュリティ専門家の自然言語入力は、音声入力を含む、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  8. 前記1つ以上のセンサは、RBGdカメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、ブレインコンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、GPS、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、及びバーチャルリアリティインターフェイスの組み合わせの1つ以上を含む、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  9. 前記出力目標は、ドローン、カメラ、又は拡張現実ヘッドセットを含む、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  10. 前記学習エンジンは更に、前記エキスパートユーザからユーザ入力を受けるよう構成され、
    前記ユーザ入力は、前記提示されたデータが発せられるデータ源の選択を含み、且つ、前記出力目標の選択を含む、
    請求項1に記載のコンピュータシステムアーキテクチャ。
  11. アプリケーションプログラムのための深層ニューラルネットワーク訓練の方法であって、
    トレーナーサーバによって、データをエキスパートユーザに提示することと、
    前記トレーナーサーバによって、前記データが前記エキスパートユーザに提示される場合に、該提示されたデータに関連した前記エキスパートユーザの反応及びアクティビティを測定する1つ以上のセンサを介してユーザ感覚入力を受けることと、
    前記トレーナーサーバによって、前記エキスパートユーザが焦点を合わせた前記提示されたデータの部分を示し且つ1つ以上のデータ分類領域を含むアテンションマップを、前記ユーザ感覚入力に基づき生成することと、
    前記トレーナーサーバによって、前記エキスパートユーザの自然言語入力に基づく自然言語入力ラベルにより前記アテンションマップに注釈を付すことと、
    前記トレーナーサーバによって、前記ユーザ感覚入力に基づきニューラルネットワークを訓練することであり、実験データ処理機能のためにニューラルネットワーク情報及び処理されたユーザ感覚入力を微分メモリサブシステムへ送ることを含む前記訓練することと、
    前記トレーナーサーバによって、エンドユーザアプリケーションの特異なアクティビティのために最適化される前記訓練されたニューラルネットワークに基づくモデルを生成することと、
    前記トレーナーサーバによって、前記エンドユーザアプリケーションの出力目標のためのアプリケーションプログラムを供給することと、
    前記トレーナーサーバによって、前記出力目標に、前記アプリケーションプログラムを介して、前記特異なアクティビティを検出し是正するよう指示することと
    を有する方法。
  12. 前記エキスパートユーザからユーザ入力を受けることを更に有し、
    前記ユーザ入力は、前記提示されたデータが発せられるデータ源の選択を含み、且つ、前記出力目標の選択を含む、
    請求項11に記載の方法。
  13. 前記微分メモリサブシステムは、前記トレーナーサーバの一次メモリから物理的に離れておりネットワーク接続されている、
    請求項11に記載の方法。
  14. 前記エキスパートユーザからセッショントークン識別子を受けることと、
    前記セッショントークンに基づき前記エキスパートユーザを認証することと、
    前記エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
    を更に有する
    請求項11に記載の方法。
  15. 前記アプリケーションプログラムの品質チェックを可能にすることを更に有し、
    前記品質チェックは、
    第2エキスパートユーザから第2セッショントークン識別子を受けることと、
    前記第2セッショントークンに基づき前記第2エキスパートユーザを認証することと、
    前記第2エキスパートユーザの品質チェックセッションにタイムスタンプを付すことと、
    前記第2エキスパートユーザから得られた情報をブロックチェーンスタイルの台帳に格納することと
    を含む、
    請求項11に記載の方法。
  16. 前記エキスパートユーザは、農業専門家を含み、
    前記アテンションマップは、ヒートマップ、グリッドをオーバーレイされた画像、又はオブジェクトセグメンテーション選択を含み、
    前記ユーザ感覚入力は、視線センサによって捕捉される前記農業専門家の視線を表すユーザ視線データと、タッチスクリーンにおいて受け取られる物理接触を表す物理接触データとを含み、
    前記農業専門家の自然言語入力は、音声入力又はタッチ機能を含む、
    請求項11に記載の方法。
  17. 前記エキスパートユーザは、セキュリティ専門家を含み、
    前記アテンションマップは、過去の映像を含み、
    前記ユーザ感覚入力は、視線センサによって捕捉される前記セキュリティ専門家の視線を表すユーザ視線データと、情緒反応を表す脳波図及びカメラとを含み、
    前記セキュリティ専門家の自然言語入力は、音声入力を含む、
    請求項11に記載の方法。
  18. 前記出力目標は、ドローン、カメラ、又は拡張現実ヘッドセットを含む、
    請求項11に記載の方法。
  19. 前記1つ以上のセンサは、RBGdカメラ、ジェスチャ捕捉センサ、バイオメトリック捕捉システム、ウェアラブルセンサシステム、デジタルI/Oインターフェイス、ウェアラブルリング型入力、キーボード、マウス、感情認識システム、視線追跡システム、ビデオインターフェイス、マイクロホン、ブレインコンピュータインターフェイス、触覚インターフェイス、ワイヤレス受信器、高解像度カメラ、温度又は赤外線カメラ、光センサ、GPS、ワイヤレス送信器、360度カメラ、デジタル光学インターフェイス、及びバーチャルリアリティインターフェイスの組み合わせの1つ以上を含む、
    請求項11に記載の方法。
  20. プロセッサによって実行される場合に該プロセッサに請求項11に記載の方法を実行させる実行可能コードを記憶している非一時的なコンピュータ読み出し可能な媒体。
JP2018238048A 2018-04-25 2018-12-20 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練 Active JP7222239B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/963011 2018-04-25
US15/963,011 US11537871B2 (en) 2018-04-25 2018-04-25 Deep neural network training for application program generation

Publications (2)

Publication Number Publication Date
JP2019192207A JP2019192207A (ja) 2019-10-31
JP7222239B2 true JP7222239B2 (ja) 2023-02-15

Family

ID=64048697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018238048A Active JP7222239B2 (ja) 2018-04-25 2018-12-20 アプリケーションプログラム生成のための深層ニューラルネットワーク訓練

Country Status (3)

Country Link
US (1) US11537871B2 (ja)
EP (1) EP3561645A1 (ja)
JP (1) JP7222239B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201811263D0 (en) * 2018-07-10 2018-08-29 Netmaster Solutions Ltd A method and system for managing digital using a blockchain
EP3970060A1 (en) * 2019-06-10 2022-03-23 Huawei Technologies Co., Ltd. Driver attention detection using heat maps
CN110795858B (zh) * 2019-11-06 2023-04-07 广东博智林机器人有限公司 家装设计图纸的生成方法和装置
CN111027551B (zh) * 2019-12-17 2023-07-07 腾讯科技(深圳)有限公司 图像处理方法、设备和介质
US11625037B2 (en) * 2020-02-13 2023-04-11 Honeywell International Inc. Methods and systems for searchlight control for aerial vehicles
CN111368970B (zh) * 2020-02-17 2020-10-16 哈尔滨工业大学 一种基于深度强化学习的传感器优化布置方法
US11335104B2 (en) 2020-03-31 2022-05-17 Toyota Research Institute, Inc. Methods and system for predicting driver awareness of a feature in a scene
JP7440065B2 (ja) 2020-04-03 2024-02-28 国立大学法人京都大学 ブロックチェーンネットワークシステム
US10970598B1 (en) * 2020-05-13 2021-04-06 StradVision, Inc. Learning method and learning device for training an object detection network by using attention maps and testing method and testing device using the same
CN111787624B (zh) * 2020-06-28 2022-04-26 重庆邮电大学 一种基于深度学习的可变维度资源分配方法
CN114157829A (zh) * 2020-09-08 2022-03-08 顺丰科技有限公司 模型训练优化方法、装置、计算机设备及存储介质
US11620583B2 (en) 2020-09-08 2023-04-04 International Business Machines Corporation Federated machine learning using locality sensitive hashing
CN112162634A (zh) * 2020-09-24 2021-01-01 华南理工大学 一种基于seeg信号的数字输入脑机接口系统
US11664010B2 (en) 2020-11-03 2023-05-30 Florida Power & Light Company Natural language domain corpus data set creation based on enhanced root utterances
KR102483693B1 (ko) * 2020-12-02 2023-01-03 울산대학교 산학협력단 설명 가능한 다중 심전도 부정맥 진단 장치 및 방법
CN112633473A (zh) * 2020-12-18 2021-04-09 展讯通信(上海)有限公司 基于ai的可穿戴设备及其应用数据处理方法
KR102244678B1 (ko) * 2020-12-28 2021-04-26 (주)컨텍 인공지능 기반의 위성영상을 이용한 교육서비스 제공 방법 및 장치
CN113693613A (zh) * 2021-02-26 2021-11-26 腾讯科技(深圳)有限公司 脑电信号分类方法、装置、计算机设备及存储介质
JP2022144514A (ja) 2021-03-19 2022-10-03 株式会社リコー 学習装置、学習システム、非言語情報学習方法およびプログラム
US11934489B2 (en) 2021-05-31 2024-03-19 Cibo Technologies, Inc. Method and apparatus for employing deep learning to infer implementation of regenerative irrigation practices
US11880430B2 (en) * 2021-05-31 2024-01-23 Cibo Technologies, Inc. Method and apparatus for employing deep learning neural network to predict management zones
US11790018B1 (en) * 2022-07-25 2023-10-17 Gravystack, Inc. Apparatus for attribute traversal
NL1044409B1 (en) * 2022-08-30 2024-03-15 Zander Laboratories B V A method performed by an information processing device, a program product, and a system for acquiring artificial intelligence from processing context related operational, human bio-signal and human conduct data.
WO2024053846A1 (en) * 2022-09-07 2024-03-14 Samsung Electronics Co., Ltd. A method and device for personalised image segmentation and processing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150339589A1 (en) 2014-05-21 2015-11-26 Brain Corporation Apparatus and methods for training robots utilizing gaze-based saliency maps
JP2017191490A (ja) 2016-04-14 2017-10-19 株式会社フジタ 技能伝承システム及び方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181768B1 (en) * 1999-10-28 2007-02-20 Cigital Computer intrusion detection system and method based on application monitoring
US20040004861A1 (en) * 2002-07-05 2004-01-08 Impinj, Inc. A Delware Corporation Differential EEPROM using pFET floating gate transistors
US20100004924A1 (en) 2008-07-03 2010-01-07 Yuri Luis Paez Method and system context-aware for identifying, activating and executing software that best respond to user requests generated in natural language
US8442321B1 (en) 2011-09-14 2013-05-14 Google Inc. Object recognition in images
CN104346622A (zh) 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
WO2015134665A1 (en) 2014-03-04 2015-09-11 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
JP2016134118A (ja) * 2015-01-22 2016-07-25 京セラドキュメントソリューションズ株式会社 配線回路及び画像形成装置
AU2016354668A1 (en) 2015-11-09 2018-06-28 Roger Hanna A distributed user profile identity verification system for e-commerce transaction security
WO2017192183A1 (en) 2016-05-04 2017-11-09 Google Llc Augmenting neural networks with external memory using reinforcement learning
EP3455996A4 (en) 2016-05-09 2020-01-22 Nokia Technologies Oy BLOCK CHAIN-BASED RESOURCE MANAGEMENT
US10484675B2 (en) * 2017-04-16 2019-11-19 Facebook, Inc. Systems and methods for presenting content
US11157782B2 (en) * 2017-11-16 2021-10-26 International Business Machines Corporation Anomaly detection in multidimensional time series data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150339589A1 (en) 2014-05-21 2015-11-26 Brain Corporation Apparatus and methods for training robots utilizing gaze-based saliency maps
JP2017191490A (ja) 2016-04-14 2017-10-19 株式会社フジタ 技能伝承システム及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GRAVES, Alex et al.,"Hybrid computing using a neural network with dynamic external memory",Nature [online],Vol.538,2016年10月,p.471-476,[2022年07月11日検索],インターネット<URL:https://doi.org/10.1038/nature20101,DOI: 10.1038/nature20101

Also Published As

Publication number Publication date
EP3561645A1 (en) 2019-10-30
US11537871B2 (en) 2022-12-27
JP2019192207A (ja) 2019-10-31
US20190332931A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
JP7222239B2 (ja) アプリケーションプログラム生成のための深層ニューラルネットワーク訓練
KR102643027B1 (ko) 전자 장치, 그의 제어 방법
CN104838337B (zh) 用于用户界面的无触摸输入
Bhattacharya et al. Metaverse assisted telesurgery in healthcare 5.0: An interplay of blockchain and explainable AI
Henderson et al. Improving affect detection in game-based learning with multimodal data fusion
US20200327986A1 (en) Integrated predictive analysis apparatus for interactive telehealth and operating method therefor
KR20240032779A (ko) 전자 장치, 그의 제어 방법
KR102397248B1 (ko) 영상 분석 기반의 환자 동작 모니터링 시스템 및 그의 제공 방법
US20200253548A1 (en) Classifying a disease or disability of a subject
Cheng et al. Computer-aided autism spectrum disorder diagnosis with behavior signal processing
Klamma et al. Immersive community analytics for wearable enhanced learning
Real et al. VES: a mixed-reality development platform of navigation systems for blind and visually impaired
Ntouskos et al. Saliency prediction in the coherence theory of attention
Xie et al. PhysioLabXR: A Python Platform for Real-Time, Multi-modal, Brain–Computer Interfaces and Extended Reality Experiments
Kousidis et al. Investigating speaker gaze and pointing behaviour in human-computer interaction with the mint. tools collection
Bărbuceanu et al. Evaluation of the average selection speed ratio between an eye tracking and a head tracking interaction interface
Gutiérrez López de la Franca et al. Extended Body-Angles Algorithm to recognize activities within intelligent environments
Webb et al. A systems approach for augmented reality design
Colby American sign language gesture recognition using motion tracking gloves in vr
Pfeiffer et al. Quantifying the interplay of gaze and gesture in deixis using an experimental-simulative approach
Mastinu et al. HANDdata–first-person dataset including proximity and kinematics measurements from reach-to-grasp actions
Baba et al. Application development for wearable internet of things using Hexiwear
Samonte et al. AcneCheck: An Acne Severity Grading in Teledermatology Through Computer Vision
Sharma et al. Experience capturing with wearable technology in the WEKIT project
Vladutu et al. Framework for Posture and Face Recognition using Kinect an ambient-intelligence method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230117

R150 Certificate of patent or registration of utility model

Ref document number: 7222239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150