JP2023524134A - 分散型データ分析のためのシステムおよび方法 - Google Patents
分散型データ分析のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023524134A JP2023524134A JP2022567287A JP2022567287A JP2023524134A JP 2023524134 A JP2023524134 A JP 2023524134A JP 2022567287 A JP2022567287 A JP 2022567287A JP 2022567287 A JP2022567287 A JP 2022567287A JP 2023524134 A JP2023524134 A JP 2023524134A
- Authority
- JP
- Japan
- Prior art keywords
- image
- data
- ann
- interest
- ann model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000007405 data analysis Methods 0.000 title description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 201
- 238000012549 training Methods 0.000 claims abstract description 103
- 238000009826 distribution Methods 0.000 claims abstract description 22
- 238000013473 artificial intelligence Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 7
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 20
- 238000000275 quality assurance Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 19
- 238000001514 detection method Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 10
- 238000012423 maintenance Methods 0.000 description 8
- 238000012552 review Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 8
- 230000010332 selective attention Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000009434 installation Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000035484 reaction time Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- HWWIYXKSCZCMFV-ZETCQYMHSA-N 2-[[(2s)-1-acetylpyrrolidine-2-carbonyl]-nitrosoamino]acetic acid Chemical compound CC(=O)N1CCC[C@H]1C(=O)N(CC(O)=O)N=O HWWIYXKSCZCMFV-ZETCQYMHSA-N 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000000785 Invasive Pulmonary Aspergillosis Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101150075622 UL80 gene Proteins 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本発明は、ユーザデバイス(105)を横断した分散のためのデバイス特有の人工ニューラルネットワーク(ANN)モデルを生成するためのシステムおよび方法を提供する。サンプルデータセット(140)が、特定の環境またはユースケースにおけるデバイスから収集され、ユーザデバイス上で実行されるデバイス特有のANNモデルによる予測を含む。受信されたデータセットは、既存のデータセットおよび記憶されたANNモデルと併用され、訓練データに基づいて、更新されたデバイス特有のANNモデルをデバイスANNモデルの記憶されたインスタンスのそれぞれから生成する。【選択図】図1
Description
(関連出願の相互参照)
本願は、その開示全体が、参照することによって本明細書に組み込まれる、「Systems and Methods for Distributed Data Analytics」と題され、2020年5月8日に出願された、米国仮特許出願第63/021,735号の優先権および利益を主張する。
本願は、その開示全体が、参照することによって本明細書に組み込まれる、「Systems and Methods for Distributed Data Analytics」と題され、2020年5月8日に出願された、米国仮特許出願第63/021,735号の優先権および利益を主張する。
以下の開示は、データ分析における方法およびシステムを対象とし、より具体的には、データ分析フレームワークおよびそれに関連するデータツールの分散を対象とする。
知的システムの発達に伴い、読み出され、伝送され、さらに処理される、データの量は、持続的に増えつつある。
複雑なデータ分析は、機械学習機構を実装し、大訓練データセットを使用して、ニューラルネットワークを訓練し得る。これらのニューラルネットワークは、次いで、大訓練データセットと類似ドメイン内の入力データを処理するために使用され得る。そのような複雑なニューラルネットワーク論理を入力データのより広範かつより大きいデータセットに適用することは、困難かつ算出上集約的であることが証明され得る。したがって、本明細書に開示されるように、データ処理ツールおよび分散可能データ分析プラットフォームへのアクセスを提供するための方法およびシステムは、そのようなシステムに、より高いプラットフォーム採用および分散率、より大きいデータ入手、向上された訓練有効性、および改良された実行効率の利益を提供する。
したがって、ニューラルネットワークを使用するデータ処理のための改良された方法およびシステムは、改良された実行効率から大幅に利益を享受し得る。
現在のデータ分析プラットフォームは、種々の外部ツールを使用して、特定のタスクを遂行する。本開示は、均一プラットフォームにおいて、遠隔でアクセスされる、または別様に、定義された分析フレームワークを使用して、多数のデバイスを横断して分散され得る、ツールを使用して、複雑なデータ分析を促進する、技法および関連システムを説明する。
本明細書に開示されるものは、幅広いデータ記憶装置、ニューラルネットワーク、および他のデータ科学ツールを使用して、データ分析を促進する、方法およびサポートシステムの例示的実施形態である。そのような強力なツールへのアクセスを提供することは、より広い採用ベースをサポートし、したがって、訓練および開発目的のために、より大きいおよびより正確なデータセットをもたらす。ユーザ相互作用の容易性は、主に、プラットフォームによって提供される、ユーザインターフェース、ならびに強力なデータ分析ツール、モデル訓練機構、およびその中に実装されるニューラルネットワークへのアクセスを提供するために使用される、方法に依存する。本発明によって提供される種々のシステムおよび方法は、連動して稼働し、入力データを処理し、着目ゾーンおよび/またはゾーン内の着目オブジェクトを識別する一方、ユーザに、入力および訓練データを精査し、ネットワークによって使用されるモデルの正確度を向上させ、結果を可視化するために、見やすくかつ読みやすいインターフェースを提供する、多数のニューラルネットワークを能動的に採用する。
オブジェクトは、例えば、顔認識、文字認識、または類似技法の組み合わせに基づいて、無生物オブジェクトであって、概して識別される(例えば、「車」または「歩行者」)、または具体的オブジェクトであって、具体的に識別されることができる。
したがって、第1の側面では、本発明は、スマートフォン、カメラ、および他のモノのインターネット(IoT)デバイス等のユーザデバイスを横断した分散のためのデバイス特有の人工ニューラルネットワーク(ANN)モデルを生成するための方法を提供する。種々の実施形態では、本方法は、プロセッサによって、サンプルデータセットをユーザ環境のユーザデバイスから受信するステップであって、サンプルデータセットは、メディアデータと、ユーザデバイス上で実行されるデバイス特有のANNモデルによる予測とを備える、ステップと、プロセッサによって、サンプルデータセットを訓練データ記憶装置に書き込むステップとを含む。本方法はまた、プロセッサによって、データ記憶装置内において、(i)ユースケースデータセットであって、少なくとも訓練データパラメータを備える、ユースケースデータセットと、(ii)サンプルデータセットからの、ユースケースデータセット内に提供される訓練データパラメータを満たす、訓練データと、(iii)デバイス特有のANNモデルの記憶されたインスタンスとを識別するステップを含む。プロセッサは、次いで、少なくとも部分的に、識別された訓練データに基づいて、更新されたデバイス特有のANNモデルをデバイスANNモデルの記憶されたインスタンスのそれぞれから生成する。ある場合には、デバイス特有のパラメータおよび訓練データのライブラリは、維持され、更新されたデバイス特有のANNモデルの生成はさらに、デバイス特有のパラメータおよび訓練データに基づく。
いくつかの実施形態では、メディアデータは、画像データを備え、ANNモデルの画像データへの適用は、画像データ内の着目オブジェクトの識別を促進する。訓練データパラメータは、色インデックス、明度インデックス、コントラストインデックス、画像温度、色調、1つまたはそれを上回る色相値、および/またはガンマ値等のメディアデータパラメータ、ならびに/もしくは利用可能なメモリ、処理速度、画像分解能、および/または捕捉フレームレート等のデバイスパラメータを含んでもよい。
ある場合には、ユースケースデータセットは、特定のユースケースに特有であって、いくつかのインスタンスでは、環境側面(屋外環境内におけるデバイスの設置、屋内環境内におけるデバイスの設置、照明良好環境内におけるデバイスの設置、または照明不良環境内におけるデバイスの設置等)と、機能的側面(例えば、顔認識、文字認識、ドキュメント証明書等)とを含んでもよい。いくつかの実施形態では、デバイス特有のANNモデルによって生成される予測は、メディアファイルが着目オブジェクトを含有する尤度を示す、画像毎の定量的画像顕著性メトリックを含み、ある場合には、少なくとも部分的に、画像毎の定量的画像顕著性メトリックに基づいて、閾値モデル正確度を達成するために必要である最小数の画像を決定する。
ある場合には、本方法はさらに、デバイス特有の更新されたANNモデルをそれと関連付けられるユーザデバイスの少なくともサブセットに分散させるステップを含む。
別の側面では、本発明は、スマートフォン、カメラ、および他のモノのインターネット(IoT)デバイス等のユーザデバイスを横断した分散のためのデバイス特有の人工ニューラルネットワーク(ANN)モデルを生成するためのシステムを提供する。本システムは、1つまたはそれを上回るプロセッサと、プロセッサと結合される、メモリとを含み、プロセッサは、メモリ内に記憶される複数のモジュールを実行する。モジュールは、命令をユーザから受信する、ユーザインターフェースであって、命令は、1つまたはそれを上回るサンプルデータセットをユーザ環境のユーザデバイスから識別し、サンプルデータセットは、メディアデータと、ユーザデバイス上で実行されるデバイス特有のANNモデルによる予測とを備える、ユーザインターフェースと、サンプルデータセットを備える、データ記憶装置と、実行されると、(i)データ記憶装置内に記憶される、ユースケースデータセットを識別し、ユースケースデータセットは、少なくとも訓練データパラメータを備え、(ii)ユースケースデータセット内に提供される訓練データパラメータを満たす、訓練データをサンプルデータセットから識別し、(iii)データ記憶装置内に記憶される、デバイス特有のANNモデルを識別する、ビジネスロジックモジュールと、実行されると、訓練データに基づいて、更新されたデバイス特有のANNモデルをデバイスANNモデルの記憶されたインスタンスのそれぞれから生成する、人工知能機械学習モジュールとを含む。
いくつかの実施形態では、メディアデータは、画像データを備え、ANNモデルの画像データへの適用は、画像データ内の着目オブジェクトの識別を促進する。訓練データパラメータは、色インデックス、明度インデックス、コントラストインデックス、画像温度、色調、1つまたはそれを上回る色相値、および/またはガンマ値等のメディアデータパラメータ、ならびに/もしくは利用可能なメモリ、処理速度、画像分解能、および/または捕捉フレームレート等のデバイスパラメータを含んでもよい。
ある場合には、ユースケースデータセットは、特定のユースケースに特有であって、いくつかのインスタンスでは、環境側面(屋外環境内におけるデバイスの設置、屋内環境内におけるデバイスの設置、照明良好環境内におけるデバイスの設置、または照明不良環境内におけるデバイスの設置等)と、機能的側面(例えば、顔認識、文字認識、ドキュメント証明書等)とを含んでもよい。いくつかの実施形態では、デバイス特有のANNモデルによって生成される予測は、メディアファイルが着目オブジェクトを含有する尤度を示す、画像毎の定量的画像顕著性メトリックを含み、ある場合には、少なくとも部分的に、画像毎の定量的画像顕著性メトリックに基づいて、閾値モデル正確度を達成するために必要である最小数の画像を決定する。
ある場合には、分散モジュールは、デバイス特有の更新されたANNモデルをそれと関連付けられるユーザデバイスの少なくともサブセットに分散させる。
別の側面では、本発明は、(スマートフォン、カメラ、および他のモノのインターネット(IoT)デバイス等)エッジデバイス上におけるデバイス特有の訓練された人工ニューラルネットワーク(ANN)モデルの実行を最適化するための方法を提供し、これは、プロセッサによって、第1の訓練されたANNモデルおよび第2のANNモデルを受信するステップであって、第1のANNモデルおよび第2のANNモデルはそれぞれ、異なる推定を入力データ上で実行し、第1のANNモデルの出力は、第2のANNモデルへの入力としての役割を果たす、ステップと、制御フロー命令に従って、その上での実行のために、エッジデバイスへの展開のために、第1のANNモデル、第2のANNモデル、および制御フロー実行命令を組み合わせられたソフトウェアパッケージの中にマージするステップとを含む。
ある実施形態では、第1の訓練されたANNモデルおよび第2の訓練されたANNモデルはそれぞれ、個別の分析基準と、ユースケースデータとを備え、プロセッサは、少なくとも部分的に、その中の分析基準に基づいて第1および第2のANNモデルを選択する。親ANNが、第1のANNモデルアーキテクチャおよび第2のANNモデルアーキテクチャに基づいて、メタアーキテクチャとして生成されてもよく、メタアーキテクチャは、次いで、それが単一ANNモデルとして実行するように、エッジデバイスに送達されることができる。実施形態では、エッジデバイスは、カメラであって、カメラ上での第1のANNモデルおよび第2のANNモデルの実行は、カメラ上で捕捉された画像ファイル内の着目オブジェクトを識別することができる。
別の側面では、本発明は、エッジデバイス(スマートフォン、カメラ、および他のモノのインターネット(IoT)デバイス等)上におけるデバイス特有の訓練された人工ニューラルネットワーク(ANN)モデルの実行を最適化するためのシステムを提供する。本システムは、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサと結合される、メモリであって、1つまたはそれを上回るプロセッサは、メモリ内に記憶される、コンピュータ実行可能命令を実行する、メモリとを含む。実行されると、命令は、データ記憶装置内において、第1の訓練されたANNモデルおよび第2のANNモデルを識別し、第1のANNモデルおよび第2のANNモデルはそれぞれ、異なる推定を入力データ上で実行し、第1のANNモデルの出力は、第2のANNモデルへの入力としての役割を果たし、第1のANNモデル、第2のANNモデル、および制御フロー実行命令を組み合わせられたソフトウェアパッケージの中にマージし、分散モジュールを使用して、制御フロー命令に従って、その上での実行のために、組み合わせられたソフトウェアパッケージをエッジデバイスに展開する。
ある実施形態では、第1の訓練されたANNモデルおよび第2の訓練されたANNモデルはそれぞれ、個別の分析基準と、ユースケースデータとを備え、プロセッサは、少なくとも部分的に、その中の分析基準に基づいて第1および第2のANNモデルを選択する。親ANNが、第1のANNモデルアーキテクチャおよび第2のANNモデルアーキテクチャに基づいて、メタアーキテクチャとして生成されてもよく、メタアーキテクチャは、次いで、それが単一ANNモデルとして実行するように、エッジデバイスに送達されることができる。実施形態では、エッジデバイスは、カメラであって、カメラ上での第1のANNモデルおよび第2のANNモデルの実行は、カメラ上で捕捉された画像ファイル内の着目オブジェクトを識別することができる。
別の側面では、本発明は、画像ファイル内の着目オブジェクトを識別するための方法を提供する。本方法は、1つまたはそれを上回る画像ファイルを受信するステップであって、各画像ファイルは、潜在的に、着目オブジェクトを含む、ステップと、非バイナリグラウンドトゥルースラベルを各画像ファイルに適用するステップであって、非バイナリグラウンドトゥルースラベルは、特定のピクセルが着目オブジェクトの一部であることの尤度を示す、ピクセル特有の顕著性値の分布を備える、ステップとを含む。グラウンドトゥルースラベルに基づいて、x軸、y軸、およびz軸を有する、3次元顕著性表面マップが、生成され、x軸およびy軸値は、画像内のピクセルの場所を定義し、z軸値は、ピクセル特有の顕著性値である。曲線形状が、曲線形状のライブラリから選択され、曲線形状を顕著性表面マップに適用し、曲線形状と3次元表面との間の適合を決定し、適合に基づいて、画像ファイルが着目オブジェクトを含むかどうかを決定する。
いくつかの実施形態では、曲線形状は、着目オブジェクトに基づいて選択され、少なくとも部分的に、ガウス分布、ポワソン分布、またはハイブリッド分布等の1つまたはそれを上回る統計的分布に基づいてもよい。ある場合には、画像ファイルが、人工ニューラルネットワーク(ANN)を訓練する際に使用するための画像ファイルのライブラリに追加され、ANNは、後続メディアファイル内の着目オブジェクトを識別し、および/または後続メディアファイル内のオブジェクトをセグメント化するように訓練されてもよい。
別の側面では、本発明は、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサと結合される、メモリであって、1つまたはそれを上回るプロセッサは、メモリ内に記憶される、コンピュータ実行可能命令を実行する、メモリとを含む、画像ファイル内の着目オブジェクトを識別するためのシステムを提供する。実行されると、本システムは、1つまたはそれを上回る画像ファイルを受信し、各画像ファイルは、潜在的に、着目オブジェクトを含み、非バイナリグラウンドトゥルースラベルを各画像ファイルに適用し、非バイナリグラウンドトゥルースラベルは、特定のピクセルが着目オブジェクトの一部であることの尤度を示す、ピクセル特有の顕著性値の分布を備える。グラウンドトゥルースラベルに基づいて、x軸、y軸、およびz軸を有する、3次元表面が、生成され、x軸およびy軸値は、画像内のピクセルの場所を定義し、z軸値は、ピクセル特有の顕著性値である。曲線形状が、曲線形状のライブラリから選択され、曲線形状をグラウンドトゥルースラベルに適用し、曲線形状と3次元表面との間の適合を決定し、適合に基づいて、画像ファイルが着目オブジェクトを含むかどうかを決定する。
いくつかの実施形態では、曲線形状は、着目オブジェクトに基づいて選択され、少なくとも部分的に、ガウス分布、ポワソン分布、またはハイブリッド分布等の1つまたはそれを上回る統計的分布に基づいてもよい。ある場合には、画像ファイルが、人工ニューラルネットワーク(ANN)を訓練する際に使用するための画像ファイルのライブラリに追加され、ANNは、後続メディアファイル内の着目オブジェクトを識別し、および/または後続メディアファイル内のオブジェクトをセグメント化するように訓練されてもよい。
さらに別の側面では、本発明は、標準的ビデオデータフォーマット(H.264等)におけるビデオデータをエッジデバイスにおいて受信するステップと、画像スライスをビデオデータから抽出するステップであって、画像スライスは、画像と、ビデオデータ内の画像スライスの時間的場所を示す、開始インデックス時間および終了インデックス時間と、画像内の着目領域の2次元座標を記述する、着目領域パラメータとを備える、ステップとを含む、ビデオデータの伝送のための画像データを記憶するための方法を提供する。
ある実施形態では、ビデオデータの受信および画像スライスの抽出は、エッジデバイス上で実行される。画像スライスは、次いで、1つまたはそれを上回る人工ニューラルネットワークをエッジデバイス上で使用して分析され、着目領域および着目領域が着目オブジェクトを含むかどうかを決定してもよい。ある場合には、画像スライスは、画像スライスが着目オブジェクトを含む場合、高分解能として識別され、そうでなければ、低分解能として識別される。本方法はさらに、その上で画像が捕捉されたエッジデバイスに特有の訓練データセットの人工ニューラルネットワーク内への含有のために、高分解能画像スライスを人工知能機械学習モジュールに伝送するステップを含んでもよい。
別の側面では、本発明は、1つまたはそれを上回るプロセッサと、1つまたはそれを上回るプロセッサと結合される、メモリであって、1つまたはそれを上回るプロセッサは、メモリ内に記憶される、コンピュータ実行可能命令を実行する、メモリとを含む、ビデオデータの伝送のための画像データを記憶するためのシステムを提供する。命令が、実行されると、本システムは、複数の標準的ビデオデータフォーマット(例えば、H.264)のうちの1つにおけるビデオデータをエッジデバイスにおいて受信し、画像スライスをビデオデータから抽出し、画像スライスは、画像と、ビデオデータ内の画像スライスの時間的場所を示す、開始インデックス時間および終了インデックス時間と、画像内の着目領域の2次元座標を記述する、着目領域パラメータとを備える。
ある実施形態では、ビデオデータの受信および画像スライスの抽出は、エッジデバイス上で実行される。画像スライスは、次いで、1つまたはそれを上回る人工ニューラルネットワークをエッジデバイス上で使用して分析され、着目領域および着目領域が着目オブジェクトを含むかどうかを決定してもよい。ある場合には、画像スライスは、画像スライスが着目オブジェクトを含む場合、高分解能として識別され、そうでなければ、低分解能として識別される。本方法はさらに、その上で画像が捕捉されたエッジデバイスに特有の訓練データセットの人工ニューラルネットワーク内への含有のために、高分解能画像スライスを人工知能機械学習モジュールに伝送するステップを含んでもよい。
本発明の別個の側面および/または実施形態の文脈において説明される、特徴は、可能な場合、ともに使用され、および/または相互交換可能であってもよい。同様に、特徴が、簡潔にするために、単一実施形態の文脈において説明される場合、それらの特徴はまた、別個に、または任意の好適な副次的組み合わせにおいて、提供されてもよい。システムに関連して説明される特徴は、方法に関して定義可能および/または組み合わせ可能な対応する特徴を有する、またはその逆であってもよく、これらの実施形態は、具体的に想定される。
図面では、同様の参照文字は、概して、異なる図全体を通して、同一部分を指す。また、図面は、必ずしも、縮尺通りではなく、代わりに、概して、実装の原理の例証に強調が置かれる。以下の説明では、種々の実装が、以下の図面を参照して説明される。
詳細な説明
本明細書に説明されるものは、一実施形態では、包括的プラットフォームとして実装される、エンドポイント展開可能人工知的システム、機械学習機構、およびデータモデルを生成し、展開し、さらに維持するための方法およびサポートシステムである。図1に示されるように、プラットフォーム100は、ユーザとの相互作用のためのフロントエンドユーザインターフェース(「ユーザインターフェース」)105と、ビジネスロジックモジュール110と、データ記憶装置115と、人工知能/機械学習(「AI/ML」)訓練モジュール120と、ユーザ環境125の中に統合される展開ツールとを含有する、フレームワークを実装する。フレームワークコンポーネントは、プラットフォーム100によって提供されるような1つまたはそれを上回るAPI(130a、130b、130c、および130d)を用いて、通信可能に結合されてもよい。
本明細書に説明されるものは、一実施形態では、包括的プラットフォームとして実装される、エンドポイント展開可能人工知的システム、機械学習機構、およびデータモデルを生成し、展開し、さらに維持するための方法およびサポートシステムである。図1に示されるように、プラットフォーム100は、ユーザとの相互作用のためのフロントエンドユーザインターフェース(「ユーザインターフェース」)105と、ビジネスロジックモジュール110と、データ記憶装置115と、人工知能/機械学習(「AI/ML」)訓練モジュール120と、ユーザ環境125の中に統合される展開ツールとを含有する、フレームワークを実装する。フレームワークコンポーネントは、プラットフォーム100によって提供されるような1つまたはそれを上回るAPI(130a、130b、130c、および130d)を用いて、通信可能に結合されてもよい。
いくつかの実施形態によると、プラットフォーム100は、プラットフォームのユーザに、ユーザによって提供され、エンドポイントデバイスから収集されるようなデータセット140にアクセスし、かつ別様に、データ分析をその上で実施するための1つまたはそれを上回るユーザインターフェース105を提供する。これらのユーザインターフェース105は、とりわけ、分散され、ローカライズされたアプリケーション(例えば、SDK、APK、IPA、JVMファイル、他のローカライズされた実行可能ファイル、および同等物)、API(例えば、JSON、REST、他のデータ転送プロトコル、および同等物)、ウェブサイト、またはウェブアプリケーション機能の集合を使用して、組み合わせて、または別個に、提供されてもよい。ユーザインターフェース105は、基準収集システムへの分析基準の提供を促進する。分析基準は、構成、パラメータ、およびユーザのデータセットへのアクセスを含んでもよい。いくつかの実施形態によると、構成およびパラメータは、ユースケースデータとして使用される、または別様に、そのように称されてもよい。ユースケースは、顔認識、ナンバープレートおよび他の文字認識、身分証明書認証のための画像検出プロセス、自動運転用途のためのオブジェクト検出、運動検出および侵入者アラート、ならびにその他等の機能的プロセスを含んでもよい。ユースケースはまた、屋外対屋内設置、夜間対日中、過密空間(例えば、空港、乗換駅)対過疎空間(銀行用セキュリティカメラの配設、自宅用カメラの配設等)等の環境側面を含んでもよい。
重要なこととして、各ユースケース内で使用されるエッジデバイスは、異なり得、多くの場合、本発明の多くの実施形態では、それらのデバイスで使用されるモデルによって考慮される、および/またはその中に組み込まれる、デバイス特有の特性および処理限界を有する。デバイス特有の特性の実施例は、デバイス固有の特性、例えば、利用可能なメモリ、処理速度、画像分解能、捕捉フレームレート、およびその他を含むことができる。
例えば、ユーザインターフェース105は、ユーザに、アップロードされたデータセット140に基づいて、分析フィードバックを提供することができる。ユーザによって提供されるデータセット(本明細書では、「メディアデータセット」と称される)は、限定ではないが、とりわけ、単一画像ファイル、複数の画像ファイル、その中に複数の画像(例えば、とりわけ、GIF、APNG、WebP)が含有される、複合画像ファイル、1つまたはそれを上回るフレームを含有する、ビデオファイル、複数のビデオファイル、オーディオファイルを含んでもよい。フィードバックは、画像データセットの分類および平衡等のさらなる動作をそのようなデータセット上で実施する前に、データセットを特性評価する、データを含んでもよい。フィードバックは、性質上、例えば、画像および画像内の潜在的着目オブジェクトの種々の測光性質(明度、輝度、色スペクトル等)および幾何学的性質(形状、縁定義等)を記述する、訓練データセットに関する1つまたはそれを上回る品質メトリック等、定質的(例えば、高品質、低品質等)または定量的であってもよい。
画像を含有する、データセットは、さらに分析され、画像およびその中に含有される他のオブジェクトのメディア性質を抽出または別様に生成してもよい。メディア性質は、限定ではないが、とりわけ、色インデックス、明度インデックス、コントラストインデックス、および他の画像性質(例えば、温度、色調、色相、ガンマ)を含んでもよい。複合画像ファイルまたはビデオファイル等の1つを上回る画像を含有する、データセットは、バッチとして分析され、データセットの複数の画像ファイルまたはビデオファイルに関するメディア性質を識別、抽出、または別様に生成してもよい。
プラットフォーム100はまた、ユーザによって提供されるメディアデータセットから、複雑性インデックス等の他のメディア性質を生成する。複雑性インデックスは、メディアデータセットの画像または1つまたはそれを上回るビデオのフレームの複雑性を表す、診断データのセットであってもよい。プラットフォームはさらに、画像、ビデオファイルのフレーム、ビデオファイル間のフレームと関連付けられるもの等のユーザによって提供されるメディアデータセットの中、またはビデオファイル自体間でメディア性質を比較してもよい。プラットフォーム100のユーザインターフェース105はまた、メディアデータセットの、またはメディアデータセット間の、メディア性質もしくは他の特性の比較を識別またはさらに生成するために使用されてもよい。例えば、プラットフォームは、個々の画像または個々のビデオのフレームに見出されるもの等の画像データセットの背景および前景の比較を生成することができる。同様に、プラットフォームはまた、画像内の人々を背景オブジェクトから区別する等、メディアデータセット内に含有されるような着目オブジェクトおよび着目されない他のオブジェクトの比較を生成することができる。さらに、プラットフォームは、その間でさらに比較されるために、クラスをメディアデータセットに割り当ててもよい。クラスの実施例は、人物、人間の顔、車、動物、製造された商品における欠陥等の一般的カテゴリ、またはある近傍の人物、ある距離内の人物、成獣GermanShepherd、成獣Dalmatian、幼獣Labrador、または材料内の亀裂、汚染された材料、もしくは材料上の欠け等の具体的クラスを含んでもよい。
他の実施形態では、プラットフォーム100は、画像データセット内の画像に関する定量的画像顕著性メトリックを生成することができ、これは、単一数または数の行列もしくは領域またはピクセルレベルで割り当てられる他の測定値を備えてもよく、これは、難易度を予測するために使用され得、それを用いて、算出プロセスが、着目オブジェクトの中および/または画像内の着目オブジェクトと背景との間で区別することができる。画像顕著性メトリックに基づいて、規定された正確度を達成するために、モデルを訓練するために必要である、最小数の画像が、決定されることができる。プロセスは、明度、コントラスト、カメラからの距離等の人間可読基準を用いて拡張され、訓練データセットをさらに向上および改良するために、さらなる画像収集推奨を提供することができる。例えば、プラットフォームは、訓練データが、暗い/離れた画像および暗い/近くの画像のセットを含有するが、より明るい/離れた画像を追加することが、著しく改良された訓練データセットをもたらすであろうことを識別してもよい。同様に、訓練データが、顕著なコントラスト値を伴う、高品質画像を含有する場合、付加的画像を訓練データに追加することは、必要ではない場合がある、またはモデルの正確度をわずかにのみ増加させ得る。
いくつかの実施形態によると、ユーザインターフェース105は、そのメディアデータセット140と関連付けられるフィードバックに基づいて、推奨をユーザに提供することができる。いくつかの実施例では、推奨は、フィードバックとともに提供される、または別様に、その中に含まれてもよい。プラットフォームによって提供されるような推奨は、限定ではないが、ユーザが収集し、メディアデータセット内に含むための付加的データの提案、ならびに改良をそこに適用するための1つまたはそれを上回るメディアデータセットに対して提案される拡張を含んでもよい。
いくつかの実施形態によると、プラットフォーム100によって実施される分析は、機械学習機構または人工ニューラルネットワーク(「ANN」)によって実装されてもよい。そのような分析を実装するために、プラットフォームはさらに、基準収集システムを含み、ユーザに、人工知的ツールへのアクセスおよびフロントエンドユーザインターフェースを使用する能力を提供してもよい。例えば、1つまたはそれを上回るユーザインターフェースが、それによってプラットフォームがユーザのメディアデータセットを分析するために使用し得る、要件または他の選好に関する主要分析基準をユーザから収集するために提供されてもよい。例えば、ユーザは、限定ではないが、とりわけ、ユーザの実装によって要求されるような速度および待ち時間要件、ユーザの実装によって要求されるようなハードウェアおよびネットワーク要件、メディアデータセット内で識別されるべきオブジェクトのサイズ、ユーザの実装によって要求されるような反応時間許容度、プラットフォームによって識別されるような誤検出に関する許容度プラットフォームによって識別されるような未検出に関する許容度、プラットフォームによって行われる予測の精度要件を含む、分析基準を識別してもよい。いくつかのインスタンスでは、基準収集システムはまた、ある画像基準またはサイズ限界を満たす、データセットまでの、大量データセットのフィルタリングを促進し得る。
いくつかの実施形態によると、プラットフォームは、プラットフォームの知的システム(例えば、機械学習機構、人工ニューラルネットワーク、および同等物)を使用して、ユーザの実装のために最良に適合される、主要分析基準を識別する。プラットフォームの基準収集システムのいくつかの実施形態は、二重(または複数の)ANNを使用して、ユーザに、最良人工知的ツールへのアクセスおよびその関連付けられるユースケースのための能力を提供する。換言すると、第1のニューラルネットワークは、ユーザによって提供されるようなメディアデータセットを受信し、特定の分析をユーザによって提供されるような同一または他のメディアデータセット上で実施するために、第2のニューラルネットワークによって使用されるための最良分析基準を決定してもよい。例えば、ユーザは、サンプルユースケースのビデオクリップを第1のニューラルネットワークにアップロードしてもよい。ユーザは、ビデオクリップ分析のために使用されるために、リストから選択されるか、またはユーザによるカスタム様式で識別されるかどうかにかかわらず、共通ユースケースまたはオブジェクトを識別してもよい。ユーザの選択に基づいて、第1のニューラルネットワークは、ユーザによって提供されるビデオクリップを分析し、第2のニューラルネットワークがアップロードされたビデオクリップをさらに適切に分析するために必要な分析基準を決定する。例えば、第1のANNは、複数の他のオブジェクトを有する画像内の、人物を含有する可能性が高い、画像内の着目領域を識別するために使用されてもよい一方、第2のANNは、着目領域を処理し、顔認識を人物の画像上で実施するために使用されてもよい。ある場合には、分析基準は、ビデオクリップから自動的に抽出されてもよく、反応時間と、正確度メトリックの具体的定義と、メトリックの定量的値とを含んでもよい。第1のニューラルネットワークは、第2のニューラルネットワークの必要な「反応時間」、第2のニューラルネットワークによって識別されるべきオブジェクトのサイズを決定する、またはさらに、第2のニューラルネットワークが「反応」を正しく決定するためにランタイムで使用し得る、ビデオのフレームの理想的数を決定してもよい。
いくつかの実施形態によると、プラットフォームはさらに、知能動作ツールを含み、ユーザの知的システム(例えば、機械学習機構、人工ニューラルネットワーク、および同等物)の実装およびその保守を促進してもよい。例えば、プラットフォームは、ユーザに、ユーザの特定の標的ハードウェアのためのソフトウェアアプリケーションまたはソフトウェア開発キット(SDK)の統合されたコンパイルを提供してもよい。SDKコンパイルは、その中に内蔵される、またはそれと関連付けられる、一意のライセンス(例えば、トークン)を含有してもよいが、しかしながら、他の許諾モデルも、使用されてもよい。ソフトウェア(例えば、SDK、他のソフトウェアアプリケーション等)は、ソフトウェアを実行するハードウェアならびに種々のプラットフォームコンポーネント間のソフトウェアおよび通信についての統計的情報および/またはその性能の監視を促進する。ソフトウェアはさらに、訓練データについての統計的情報に対する視野についての統計的情報の比較を提供してもよい。
いくつかの実施例では、プラットフォームは、ユーザのハードウェアを横断して分散されるソフトウェアによって入手されたデータを使用して、訓練データおよび知的システムの構成に関する推奨をユーザに提供する。プラットフォームはまた、その中に重畳された予測を備える、ユーザのハードウェアによってランタイム時に収集されるようなメディアデータセットを提供してもよい。そうすることによって、プラットフォームはさらに、半教師あり学習環境を促進するために、ユーザが、ランタイムデータ内に提供される予測が正しい、正しくないものとしてマークする、または、ある場合には、正確性の段階に沿って等級付けする(例えば、予測が正しい尤度を表す、数値、確率、定質的タグ等)ために、ユーザインターフェースを提供してもよい。予測が正しいことのインジケーションの受信に応じて、プラットフォームは、関連付けられるランタイムデータを補助訓練データセットに追加してもよい。正しいまたは補正された予測を伴うランタイムデータを補助訓練データセットに追加することは、ユーザの知的システムによる使用のためのANNモデル(または他の人工知的モデル)を更新する、半教師あり機械学習プロシージャの持続的訓練を促進する。いったん更新されると、ANNモデルは、ユーザのハードウェアに展開され、向上をユーザの知的システムに分散させる。
AI/ML訓練システムは、分析基準の構成およびパラメータに従って、ユーザによって提供されるようなユーザのデータセットにアクセスし、訓練データのサブサンプルを生成する。例えば、分析基準によって提供されるような構成およびパラメータは、訓練データをカメラに近い顔を伴うデータセットに限定し、離れた顔を除外するための要求を含んでもよい。いくつかの実施形態によると、訓練データを生成するステップは、メディアデータセットを収集する、デバイスのタイプに基づいて、拡張またはさらに規定されることができる。デバイスタイプデータは、下記に説明されるように、適応放散を使用して実装されることができる。
いったん適切な訓練データが、収集されると、AI/ML訓練システムは、新しいANNモデルを生成し、分析基準に従って、それを訓練する。プラットフォームのAI/ML訓練システムは、要求されるとき、読み出すために、訓練されたANNモデルおよび他のモデルをデータ記憶装置内に記憶してもよい。訓練されたモデルを記憶するステップはさらに、関連付けられる訓練メタデータおよび関連付けられる分析基準(例えば、構成およびパラメータ)を記憶するステップを含んでもよく、その両方とも、ユースケースデータとして含まれてもよい。いくつかの実施形態によると、ユースケースデータは、特定のモデルが使用され得る方法および/またはそのようなモデルの目的とし得る内容を示し得る。例えば、モデルは、選択的注意をメディアデータセット上で実装するために使用される、またはさらに、その中のエリアを抽出するために使用されてもよい。
いくつかの実施形態によると、AI/ML訓練システムは、ユースケースデータによって示されるデータを最良に実装または別様にハンドリングすることが可能なメタアーキテクチャを用いて、訓練されたモデルに関して、データ記憶装置を検索する。故に、データ記憶装置は、記憶されたモデルのユースケースデータ(例えば、分析基準、を訓練するメタデータ)に基づいて、検索または別様にフィルタリングされてもよい。いくつかの実施形態によると、複数のモデルを横断した類似ユースケースデータは、その中に記憶されるモデルのメタアーキテクチャを示し得る。
例えば、AI/ML訓練システムは、特定のサイズの着目オブジェクトを検出するように訓練される、ANNモデルに関して、その関連付けられるデータ記憶装置を検索してもよい。したがって、本検索によって識別されるモデルは、特定のサイズにおける着目オブジェクトを識別することが可能なアーキテクチャを表す、特定のメタアーキテクチャとして定義されてもよい。同様に、AI/ML訓練システムは、入力として受信されたメディアデータセットの前景および背景の相対的複雑性を分析するように訓練される、ANNモデルに関して、その関連付けられるデータ記憶装置を検索してもよい。したがって、本検索によって識別されるモデルは、メディアデータセットの前景および背景の相対的複雑性を分析することが可能なアーキテクチャを表す、特定のメタアーキテクチャとして定義されてもよい。
いくつかの実施形態によると、メタアーキテクチャは、データ記憶装置内でカスタムメタアーキテクチャとしてさらに識別または別様に編成されてもよい。カスタムメタアーキテクチャは、選択的注意のために使用されるモデルまたはオブジェクト検出のために使用されるモデル等、下層モデルに関するユースケースによって識別されてもよい。いくつかの実施形態によると、ANN自体ならびに他の訓練された検索モデルが、AI/ML訓練システムと関連付けられるデータ記憶装置からの結果の検索を実施または別様に抽出するために使用されてもよい。故に、1つまたはそれを上回る検索するANNは、ユーザによって識別されるユースケースのものに類似するモデル(または別様にモデル自体)を含有する、メタアーキテクチャ候補を識別するために使用されてもよい。例えば、ユーザは、検索ANNに、メディアデータセットの複雑性を決定するためのモデルを示す、分析基準または他のデータを提供してもよく、結果として、検索ANNは、そのようなユースケースを示す、メタアーキテクチャ(または別様にその中のモデル)を返す。
いくつかの実施形態によると、検索ANNのために使用される、メタアーキテクチャ検索は、プラットフォームによって提供される他のANNに従って、同様に訓練されてもよい。検索ANNはさらに、一意の損失関数に従って、訓練されてもよい。例えば、検索ANNは、技法の中でもとりわけ、選択的注意メトリックを使用して、訓練されてもよい。さらに、検索ANNは、とりわけ、特定の検索順序、優先順位、密度、および検索空間の深度等の特定の検索によって必要とされる種々の特性に従って、最適化されてもよい。同様に、検索ANNは、ベイズ最適化方略、ガウスプロセスに従って、または別様に、統計的加重を使用して、最適化され、分析基準(例えば、訓練サイクルパラメータ)と訓練データおよび/またはユースケースデータと関連付けられるデータの相関を決定してもよい。
AI/ML訓練システムは、データの中でもとりわけ、ユーザによって提供されるような分析基準に従って、特定のモデルおよびユースケースに関する最適誤差閾値を見出すために、ANNを使用してもよい。例えば、入力の3次元マップ(例えば、x場所、y場所、および着目オブジェクトがその場所に存在する確率)に基づいて、着目オブジェクトを表す、ピクセルのクラスタ(または着目領域もしくは「ROI」)を見出すためのユースケースを伴うモデルは、特定の誤差閾値を与えられてもよい。故に、ANNは、別の入力次元(例えば、x場所、y場所、着目オブジェクトがその場所に存在する確率、および特定のフレームの時間インデックス)等の付加的レベルの複雑性を伴う、類似ユースケースを伴うモデルに関して、より高い誤差閾値を決定してもよい。着目領域およびそれらの領域内のオブジェクトを識別するためのあるアプローチは、米国特許出願第16/953,585号(その開示全体は、参照することによって本明細書に組み込まれる)に説明される。
本発明のある実施形態では、グラウンドトゥルースポリゴンマスク(または「グラウンドトゥルースラベル」)が、画像内のROIを定義するために使用されてもよい。従来の技法では、バイナリ決定が、ポリゴンの内側のピクセルが、オブジェクトの一部と見なされる一方、ポリゴンの外側のピクセルが、「オブジェクトではない」と見なされるように、ピクセル値に基づいて行われる。本発明のある実施形態では、「ピクセル顕著性値」が、ピクセルが当該オブジェクトの一部であることの尤度を表す、グラウンドトゥルースポリゴン内のx-yピクセル場所毎に、z値として、割り当てられることができ、顕著性表面マップが、ROIから生成されることができる。ある場合には、ある尤度閾値を満たす、ピクセルまたはピクセルのグループは、オブジェクトの一部であると推測されることができる。
ある場合には、顕著性値を独立して計算する、またはそれを各ピクセルに割り当てる代わりに(またはそれに加え)、曲線形状が、例えば、人物の顔が予期される場合、頭部形状等のROI内の予期されるオブジェクトに基づいて、顕著性表面マップに適用されることができる。「頭部」(例えば、帽子)と関連付けられる曲線形状が、オブジェクトが頭部であるかどうかに関する推定を行うために使用されることができる。いくつかのインスタンスでは、各ピクセルは、当該オブジェクトに関する所定の分布に基づいて、初期値を割り当てられ、差異値が、計算されてもよい。例えば、顔認識は、「ハイブリッドガウス」曲線を用いて、最良に予測され得、顕著性における初期漸増は、ROIの縁において生じ、ROIを横断した値は、ROIの中心により近いピクセルが縁に沿ってのものより高い顕著性値を有するように、ガウス勾配形状に従う。ある場合には、異なる曲線形状が、ROI内の異なる着目オブジェクトの存在を推測するために使用されてもよい。例えば、道路標識等のより小さい持続的オブジェクトに関して、ポワソン分布が、顕著性値をピクセルに割り当てるために使用されてもよい一方、異なる分布が、車または他の車両等、縁境界が重要である、より大きいオブジェクトのために使用されてもよい。特定の形状(または一連の形状)と着目オブジェクトとの間の「適合」が、次いで、後続オブジェクト検出のために、オブジェクトANNモデルをさらに訓練するために使用されることができる。
これらの勾配値は、種々の画像に適用され、適合度および正確度に基づいて、訓練ステップの中への入力として使用され、具体的オブジェクトユースケース、デバイス、またはそれらの組み合わせのために、各モデルをさらに精緻化することができる。
いくつかの実施形態によると、いったんモデルが、AI/ML訓練システムによって識別されると、例えば、下記に説明されるように、転移学習(例えば、適応放散)を使用して、さらに訓練または別様に最適化されてもよい。
いくつかの実施形態によると、AI/ML訓練システムはさらに、顧客環境の遠隔ハードウェアを横断して、ある場合には、2つまたはそれを上回るモデルを使用およびマージして、モデル協働構造を決定し、データの知的分布を促進してもよい。例えば、選択的注意のために使用されるモデルは、それが最初に受信した画像データに作用するのではなく、特徴マップをオブジェクト検出モデル等の第2のモデルに転送するように構造化または別様に編成されてもよい。本展開オプションは、例えば、初期選択的注意モデルおよび第2のオブジェクト検出モデルが、単一ラッパ関数に組み合わせられ、制御フローソフトウェアを介して提供される、エンドポイントデバイスに展開される、インスタンスにおいて有用であり得る。そのような実施例では、「切替式パイプライン」実装が、使用されてもよく、2つの(またはある場合には、2つを上回る)モデルが、ユーザまたは事前に構成されたスイッチによって指示されるように、並行して、または順次のいずれかにおいて、同一入力データに対して実行されることができる。したがって、プロセッサおよび/または電力制約に起因して、単一モデルの実行のみをサポートし得る、デバイスは、2つの明確に異なるが、「マージされた」ANNモデルを使用して、2つの異なる推定を実施する(例えば、画像内の着目エリア、次いで、着目エリア内のオブジェクトを見出す)ことができる。
AI/ML訓練システムによって決定されるようなモデル協働構造は、プラットフォームのビジネスロジックコンポーネントと関連付けられる、データ記憶装置によって記憶される、または別様に示されてもよい。
いくつかの実施形態によると、プラットフォームは、SDKおよび他のソフトウェアをAI/ML訓練システムによって提供されるような単一ANNモデルから構築してもよい。故に、プラットフォームによって実装されるようなコンパイラは、顧客環境内に位置する具体的ハードウェア上での実行のために、複数の異なるハードウェアアーキテクチャ標的のためのモデルをコンパイルすることができる。従来の実装では、ANNモデルは、ハードウェア非依存型パラメータを使用して訓練される。本アプローチは、訓練および展開を簡略化するが、正確度および性能に悩まされる。そうすることによって、モデルが、コンパイルされると、処理に対するわずかな変化が、導入され得、これは、準最適処理をあるハードウェアデバイス上にもたらし得る。本問題に対処するために、本発明のいくつかの実施形態では、訓練プロセスは、エッジデバイスハードウェア(例えば、カメラの特定のモデル)に特有のプロセッサ(またはエミュレータ)上で実行される。特定のハードウェア上で生じる訓練ステップの結果を分析するステップは、モデルがその特定のデバイスのために訓練されることを可能にし、そのデバイス内で使用されるプロセッサのために最適化されたモデルのハードウェア特有のバリアントをもたらす。ある場合には、エミュレータの「ライブラリ」が、具体的デバイス毎に、訓練データおよびモデルを処理するために提供される。
いくつかの実施形態によると、SDKおよび他のソフトウェアは、一意のDRMシステムを使用して分散される。一実施例では、一意のDRMシステムは、心拍様システムを提供し、データが、所定の時間周期に基づいて、中心許諾認可サーバに伝送され得る。心拍様システムの各拍動の間に伝送されるデータは、限定ではないが、場面のインジケーション、場所(例えば、GPS座標)、幅、高さ、および時間インデックス等の検出イベントデータ、推定の速度、SDK使用の頻度、およびそれと関連付けられる他のデータ等、メディアデータセットおよび画像自体のデータおよびメタデータを含んでもよい。所定の時間周期は、各ユーザ環境または各デバイスに一意であってもよい。いくつかの実施例では、リスクエンジンが、顧客環境と関連付けられるライセンスが、より長い所定の時間周期またはより短い所定の時間周期を利用するかどうかを決定するために、一意のDRMシステムの中に組み込まれてもよい。リスクエンジンはまた、ライセンスが、1つまたはそれを上回るライセンス制限、使用限界、時間周期等に基づいて、否認されるべきかどうかを決定してもよい。さらに、疑わしいまたは別様に不審であると見なされる、デバイスまたは他のエンドポイントから、DRMシステムに受信されたデータは、ユーザの注意に向けられてもよい。
いくつかの実施形態によると、一意のDRMシステムはさらに、ソフトウェアおよび他のデータが顧客環境のハードウェアによって使用される方法を追跡してもよい。例えば、DRMシステムは、データの中でもとりわけ、特定のモデルの使用、各モデルと関連付けられる検出、ユースケース検出を追跡してもよい。故に、DRMシステムは、ユーザ環境の各デバイスまたはハードウェア上で追跡されたソフトウェアおよびデータ使用量に基づいて、ユーザのための価格を決定することができる。
いくつかの実施形態によると、心拍様システム内に提供されるデータは、ヒューリスティックまたはリスクエンジンタイプシステムを通して、故障中のデバイスまたは改竄もしくは妨害されているデバイスを識別するために使用されてもよい。
プラットフォームはさらに、視覚的知能SDKに、種々の人工知的(AI)検出機構を提供する。いくつかの実施形態によると、視覚的知能SDKは、とりわけ、推定、画像処理、一意のDRM、品質制御サンプリング、および無線更新等の特徴を含んでもよい。視覚的知能SDKは、動的後処理分析エンジンを実装し、ユーザ環境を横断した1つまたはそれを上回るデバイスから、1つまたはそれを上回るシーケンシャル画像を横断した共有項を検出してもよい。
同様に、視覚的知能SDKの共有項検出は、1つまたはそれを上回るユーザ環境を横断した共有項を検出するために、1つまたはそれを上回るユーザ環境を横断して同様に実装されてもよい。そのような場合、プロセスは、エッジ展開に先立って、不一致が、軽減され、故に、モデルの正確度を改良し得るように、画像の複数のフレームを横断して、分類されるフレームおよび投票方略の数を増加させる。より具体的には、ユーザは、複数の推定をそのウィンドウ内のいくつかまたは全てのフレーム上で行うために、ビデオファイルからのフレームの時間的ウィンドウ(例えば、10フレーム)を規定することができる。比較が、当該オブジェクト(例えば、特定の人物の顔)を含むことが既知の画像と各フレーム内の画像との間の差異を測定するように実施される。フレーム埋込のあるパーセンテージ(例えば、50%であって、これは、ユーザ定義され得る)が、指定される距離閾値を下回る(再び、これはまた、ユーザ定義され得る)場合、オブジェクトは、複数のフレームから捕捉されたオブジェクトと同一であると見なされる。
視覚的知能SDKはまた、プラットフォームのプライバシANNまたは他の人工知的モデルによって提供されるようなプライバシ特徴を実装してもよい。例えば、選択的注意のために訓練されたモデルが、プラットフォームによる品質保証(QA)サンプリングにおいて使用するための取扱に注意を要する情報(例えば、顔、PPI、裸、または他の取扱に注意を要するデータ)をフィルタリング除去するために実装されてもよい。同様に、選択的注意のために訓練されたモデルが、ユーザ環境内のエッジデバイスまたは他のハードウェア内に分散され、さらなる分析または他のデバイスへの伝送の前に、取扱に注意を要する情報をフィルタリング除去してもよい。モデルは、メディアデータセットの視野を暗号化する、改訂する、難読化する、または圧縮する、もしくは別様に、クロップピング特徴を使用して、取扱に注意を要するデータを除去することによって、そのようなプライバシフィルタリングを遂行してもよい。モデルはまた、プライバシ目的のために、特定のエリア(例えば、着目オブジェクト)をメディアデータセットから抽出してもよい(データセットの残りを除去する)。例えば、メディアデータセット内の着目オブジェクトを識別後、1つまたはそれを上回るモデルは、着目オブジェクトのみを抽出し、視野内の環境の残りを除去し、環境内の残り内のその他のプライバシを維持してもよい。故に、モデルによって抽出されたより小さい画像はさらに、データ注釈をその中に含み、オリジナル視野内の抽出された画像の場所を識別し、重要ではないデータが除去された、オリジナルメディアデータセットの構築を促進する。
いくつかの実施形態では、プライバシフィルタリングは、解読のために複数の要因を要求する技法を使用して、視野または視野の一部を暗号化してもよい。いくつかの実施形態では、 1つのそのような要因は、時系列に従って変化する、一意のトークンである。そのような実施形態では、メディア画像またはビデオは、具体的デバイスまたはデバイスのグループ上のある時間周期に対応する、具体的トークンと併せて、ユーザ認可要因のみを使用することによって、解読され得る。いくつかの実施形態では、解読トークンは、トークンの読出が、例えば、監査または統制の目的のために記録されるように、デジタル的に記憶される。
一意のデータ構造(可変分解能を伴うビデオデータの伝送のため)
上記に詳述される視覚的知能SDKによって実装されるプライバシ特徴と同様に、視覚的知能SDK(またはプラットフォームによって提供される他のソフトウェア)はまた、より小さい画像のメディアデータセットを生成し、伝送のファイルサイズを低減させるために、特定のエリア(例えば、着目オブジェクト)をメディアデータセットから抽出してもよい(データセットの残りを除去する)。故に、モデルによって抽出されたより小さい画像はさらに、データ注釈をその中に含み、オリジナル視野内の抽出された画像の場所を識別し、着目されないデータが除去された、オリジナルメディアデータセットの構築を促進してもよい。伝送前に、着目されたないデータをメディアデータセットからの除去することによって、より小さいメディアデータセットが、ネットワークを経由して、有意に低減されたファイルサイズにおいて伝送され得る。図2を参照すると、H.264プロトコルを使用してビデオデータを表す、データファイルアーキテクチャ(205)は、本明細書に説明される技法による、画像検出および抽出のために必要とされない、有意な量のデータを含む。代わりに、データのスライス(または複数のスライス)(210)が、ビデオセグメントからの1つまたはそれを上回る着目領域をカプセル化する、コンテンツを含むように選択される。「スライス」210のコンテンツは、画像内の着目領域に関連する、種々のパラメータ215を含んでもよい。パラメータは、例えば、時間インデックス開始および終了、上、下、右、および左座標、ならびに抽出された画像自体、または、ある場合には、画像のダウンサンプリングされたバージョンを含んでもよい。
上記に詳述される視覚的知能SDKによって実装されるプライバシ特徴と同様に、視覚的知能SDK(またはプラットフォームによって提供される他のソフトウェア)はまた、より小さい画像のメディアデータセットを生成し、伝送のファイルサイズを低減させるために、特定のエリア(例えば、着目オブジェクト)をメディアデータセットから抽出してもよい(データセットの残りを除去する)。故に、モデルによって抽出されたより小さい画像はさらに、データ注釈をその中に含み、オリジナル視野内の抽出された画像の場所を識別し、着目されないデータが除去された、オリジナルメディアデータセットの構築を促進してもよい。伝送前に、着目されたないデータをメディアデータセットからの除去することによって、より小さいメディアデータセットが、ネットワークを経由して、有意に低減されたファイルサイズにおいて伝送され得る。図2を参照すると、H.264プロトコルを使用してビデオデータを表す、データファイルアーキテクチャ(205)は、本明細書に説明される技法による、画像検出および抽出のために必要とされない、有意な量のデータを含む。代わりに、データのスライス(または複数のスライス)(210)が、ビデオセグメントからの1つまたはそれを上回る着目領域をカプセル化する、コンテンツを含むように選択される。「スライス」210のコンテンツは、画像内の着目領域に関連する、種々のパラメータ215を含んでもよい。パラメータは、例えば、時間インデックス開始および終了、上、下、右、および左座標、ならびに抽出された画像自体、または、ある場合には、画像のダウンサンプリングされたバージョンを含んでもよい。
低減されたファイルサイズはさらに、ユーザ環境のエッジデバイスにおいて、高分解能で、着目オブジェクトを含有する、メディアデータセットのエリアを伝送する一方、視野の残りを低分解能で伝送することによって、遂行されてもよい。デジタルメディアデータセットの高分解能および低分解能エリアは、オリジナルメディアデータセットより有意に小さいファイルサイズを伴う、低減されたメディアデータセットとして伝送されてもよい。上記に説明される再構築と同様に、低減されたメディアデータセットはさらに、データ注釈をその中に含み、オリジナル視野内の高分解能画像および低分解能画像の場所を識別し、高分解能における着目オブジェクトのみを含有するエリアを伴う、オリジナルメディアデータセットの構築を促進してもよい。ビデオファイルは、ビデオファイルのフレーム毎に、ファイル低減および構築プロセスを繰り返してもよい。
本明細書に説明されるようなプラットフォームのAI/ML訓練システムはさらに、ユーザの環境のエッジデバイスおよび他のハードウェアによって収集されたリアルタイムデータと関連付けられる、データを使用して、事前に訓練されたモデルがさらに訓練される能力を提供してもよい。上記に説明されるように、いったんモデルが、AI/ML訓練システムによって識別されると、適応放散(例えば、持続的転移学習方法)と呼ばれる訓練方法を使用して、さらに訓練または別様に最適化されてもよい。代替として、適応放散は、例えば、連合学習技法によって、すでにユーザの環境のハードウェアに分散されている、ANNモデル上で実施されてもよい。
いくつかの実施形態によると、かつ図3を参照すると、ユーザの環境は、プラットフォーム100のAI/ML訓練システム120のデータ記憶装置に基づいて、または別様に、そこから供給される、ANNモデルを含有してもよい。品質保証(QA)サンプリングデータ(「訓練データ」)が、モデルから収集され、精査モジュールに伝送され(ステップ305)、初期ANN/AIモデルに関する初期訓練セットとして使用されてもよい(ステップ310)。モデルは、次いで、展開され、結果が、現場内のその使用から収集されることができる(ステップ315)。QAサンプリングデータは、自動化された精査プロセスおよび/または人間精査(例えば、ユーザによって精査される)を使用して、精査されてもよい(ステップ320)。自動化された精査プロセスは、ANNモデルによって実行され、QAサンプリングデータからの関連(例えば、正しい)データを識別してもよい。代替として、人間(例えば、ユーザ)が、正確度に関して、QAサンプリングデータを精査し、結果を正しいかまたは正しくないかのいずれかとして手動でマーキングしてもよい。同様に、人間は、ANNモデルと併せて、QAデータを精査し、QAサンプリングデータの人間精査を促してもよい。精査されたQAサンプリングデータ(例えば、正しいとしてマークされるデータ)は、訓練データとして記憶される、または別様に、再訓練の間、更新をANNモデルに適用するために、データ記憶装置内に記憶される訓練データの中に組み込まれてもよい。いったん訓練データが、更新されると、更新されたANNモデルが、生成される、または別様に、そこから訓練されてもよい(ステップ325)。プラットフォームは、更新されたANNモデルをユーザの環境のハードウェアに分散させ、ユーザの特定のユースケースのためにより良好な訓練されたモデルを提供してもよい。
いくつかの実施形態によると、かつ図4を参照すると、上記に説明されるような適応放散プロシージャが、ユーザ環境のハードウェアの異なるデバイスのために提供される、または別様に、異なるように実装されてもよい。例えば、QAサンプルデータは、ANNモデルによって精査され、精査後、特定のデバイスの個々の訓練データと関連付けられる、データ記憶装置に提供されてもよい。上記に説明される訓練と同様に、更新された訓練データは、ANNモデル、人間、またはそれらの組み合わせによって精査されてもよい。データ記憶装置内に記憶される精査されたQAサンプルデータは、とりわけ、明度、背景複雑性、着目オブジェクトのサイズまたは幾何学形状、およびデバイスと関連付けられるデータ(例えば、統計的デバイス情報)等、メディアデータセットと関連付けられる、フィードバックデータまたは他のメディア情報と相関されてもよい。ANNモデルは、精査されたQAサンプルデータを選択し、1つまたはそれを上回る標的デバイスのためのANNモデルを再訓練またはさらに更新してもよい。故に、各特定のデバイスは、その特定のデバイスから受信された精査されたQAサンプルデータのみを使用して、更新またはさらに更新されたモデル訓練を受信してもよい。代替として、QAサンプルデータは、デバイスの特定のグループのための訓練データと関連付けられる、データ記憶装置に提供され、デバイスのグループが、デバイスのその特定のグループから受信された精査されたQAサンプルデータのみを使用して訓練およびさらに更新されたモデルを受信することを可能にしてもよい。
より具体的には、QAサンプルデータが、具体的ユースケースを表す、種々のソースから収集および/または受信され(ステップ405)、初期AIモデルが、収集されたデータを使用して訓練される(ステップ410)。以前のユースケースのように、AIモデルは、ユースケースに対応する現場の中に展開され、結果が、収集される(ステップ415)。本実施形態では、結果は、別個に収集および記憶される、または別様に、異なるデバイスもしくは展開に由来すると識別されることができる(ステップ420)一方、他のインスタンスでは、データは、単一データセットの中にまとめられることができる。結果は、次いで、自動化されたプロセス、人間精査、または両方の組み合わせのいずれかを使用して、正確度に関して精査される(ステップ425)。いったん正確かつ十分であると見なされると、画像および関連付けられる結果は、補正され、更新された訓練データセットを作成するために使用され(ステップ430)、あるインスタンスでは、データセットは、具体的データセットが具体的デバイスまたはデバイスのグループに割り当てられるように、分断されることができる(ステップ440)。グループ化は、カメラの製造業者、型式、および/またはモデル、その中でデバイスが使用される環境(例えば、屋外対屋内に設置された画像、夜間画像対日中画像等に関する訓練セット)等のいくつかの共通点、および/または顔認識対文字認識等の機能的ユースケース共通点に基づくことができる。いったん更新されると、訓練データセットが、具体的デバイスに関して作成され、それらは、次いで、具体的デバイスのために更新されたAIモデルを訓練するために使用される(ステップ450)。プロセスは、次いで、新しいAIモデルが現場内で展開および使用され、新しいデータが、収集され、プロセスが繰り返されるにつれて、経時的に反復し、特定のデバイスおよび/またはユースケースに特有の持続的に改良されたAIモデルをもたらす。
上記に説明される訓練に加え、プラットフォームはさらに、ユーザ環境の全てのデバイスに関するモデルを監視し、それぞれを自動的に再訓練する、再訓練保守モジュールを提供してもよい。再訓練保守モジュールは、ANNまたは他のモデルを組み込み、それに関連付けられる監視基準を決定してもよい。例えば、再訓練保守モジュールは、ベイズ最適化を使用して、再訓練保守モジュールが品質保証および品質制御目的のためにQAサンプルデータを読み出す頻度を決定してもよい。さらに、再訓練保守モジュールはさらに、ANNモデルまたは他のモデルを用いて、ユーザの環境のデバイスが訓練のためにグループ化または別様に編成されるべき方法を決定してもよい。例えば、再訓練保守モジュールは、デバイスに関連するそのユースケースまたは他のデータに基づいて、各デバイスグループのサイズを最適化してもよい。デバイスは、デバイスグループ毎に、その中の各ANNモデルを最も効果的に訓練するために、精査されたQAサンプルデータ(例えば、補助訓練データ)を共有してもよい。
本明細書に説明される主題および動作の実装は、デジタル電子回路内、または本明細書に開示される構造およびその構造均等物を含む、コンピュータソフトウェア、ファームウェア、もしくはハードウェア内に、またはそれらのうちの1つまたはそれを上回るものの組み合わせにおいて、実装されることができる。本明細書に説明される主題の実装は、1つまたはそれを上回るコンピュータプログラム、すなわち、データ処理装置による実行のために、またはその動作を制御するために、コンピュータ記憶媒体上にエンコードされたコンピュータプログラム命令の1つまたはそれを上回るモジュールとして実装されることができる。代替として、または加えて、プログラム命令は、データ処理装置による実行のために好適な受信機装置への伝送のための情報をエンコードするために生成される、人工的に生成されて伝搬される信号、例えば、機械生成電気、光学、または電磁信号上にエンコードされることができる。
コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基板、ランダムもしくはシリアルアクセスメモリアレイもしくはデバイス、またはそれらのうちの1つまたはそれを上回るものの組み合わせである、もしくはそれらの中に含まれることができる。さらに、コンピュータ記憶媒体は、伝搬される信号ではないが、コンピュータ記憶媒体は、人工的に生成されて伝搬される信号内にエンコードされたコンピュータプログラム命令のソースまたは宛先であることができる。コンピュータ記憶媒体はまた、1つまたはそれを上回る別個の物理的コンポーネントまたは媒体(例えば、複数のCD、ディスク、または他の記憶デバイス)である、もしくはその中に含まれることができる。
本明細書に説明される動作は、データ処理装置によって、1つまたはそれを上回るコンピュータ可読記憶デバイス上に記憶される、または他のソースから受信されたデータに行われる動作として実装されることができる。
用語「データ処理装置」は、データ処理のための全ての種類の装置、デバイス、および機械を包含し、一例として、プログラマブルプロセッサ、コンピュータ、チップ上のシステム、または前述の複数のものもしくは組み合わせを含む。装置は、特殊目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置はまた、ハードウェアに加え、当該コンピュータプログラムのための実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想機械、またはそれらのうちの1つまたはそれを上回るものの組み合わせを構成する、コードを含むことができる。装置および実行環境は、種々の異なるコンピューティングモデルインフラストラクチャ、例えば、ウェブサービス、分散型コンピューティング、およびグリッドコンピューティングインフラストラクチャを実現することができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとしても知られる)は、コンパイラ型またはインタープリタ型言語、宣言型または手続型言語を含む、プログラミング言語の任意の形態で書き込まれることができ、スタンドアロンプログラムまたはモジュール、コンポーネント、サブルーチン、オブジェクト、もしくはコンピューティング環境において使用するために好適な他の単位としてを含む、任意の形態で展開されることができる。コンピュータプログラムは、必要ではないが、ファイルシステム内のファイルに対応してもよい。プログラムは、他のプログラムまたはデータ(例えば、マークアップ言語リソース内に記憶される1つまたはそれを上回るスクリプト)を保持するファイルの一部内、当該プログラムに専用の単一ファイル内、または複数の協調ファイル(例えば、1つまたはそれを上回るモジュール、サブプログラム、またはコードの一部を記憶する、ファイル)内に記憶されることができる。コンピュータプログラムは、1カ所に位置する、または数箇所を横断して分散され、通信ネットワークによって相互接続される、1つのコンピュータまたは複数のコンピュータ上で実行されるように展開されることができる。
本明細書に説明されるプロセスおよび論理フローは、1つまたはそれを上回るコンピュータプログラムを実行する1つまたはそれを上回るプログラマブルプロセッサによって行われ、入力データに作用し、出力を生成することによってアクションを行うことができる。プロセスおよび論理フローはまた、特殊目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって行われることができ、装置はまた、そのようなものとして実装されることができる。
コンピュータプログラムの実行のために好適なプロセッサは、一例として、汎用および特殊目的マイクロプロセッサの両方ならびに任意の種類のデジタルコンピュータの任意の1つまたはそれを上回るプロセッサを含む。概して、プロセッサは、命令およびデータを読取専用メモリまたはランダムアクセスメモリもしくは両方から受信するであろう。コンピュータの不可欠な要素は、命令に従ってアクションを実施するためのプロセッサと、命令およびデータを記憶するための1つまたはそれを上回るメモリデバイスとを含む。概して、コンピュータはまた、データを記憶するための1つまたはそれを上回る大容量記憶デバイス、例えば、磁気、磁気光ディスク、もしくは光ディスクを含む、またはからデータを受信する、そこにデータを転送する、もしくは両方を行うように動作可能に結合されるであろう。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、例えば、いくつか挙げると、携帯電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(例えば、ユニバーサルシリアルバス(USB)フラッシュドライブ)内に内蔵されることができる。コンピュータプログラム命令およびデータを記憶するために好適なデバイスは、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、一例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、磁気光ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完される、またはその中に組み込まれることができる。
本明細書に使用される語句および専門用語は、説明を目的としており、限定として見なされるべきではない。本明細書および請求項に使用されるような不定冠詞「a」ならびに「an」は、そうでないことが明確に示されない限り、「少なくとも1つ」を意味するように理解されるべきである。本明細書および請求項に使用されるような語句「および/または」は、そのように結合された要素、すなわち、いくつかの場合には結合的に存在し、他の場合には離接的に存在する要素の「一方または両方」を意味するように理解されるべきである。「および/または」を用いて列挙された複数の要素は、同一の方式で、すなわち、そのように結合された要素のうちの「1つまたはそれを上回るもの」として解釈されるべきである。具体的に識別されるそれらの要素に関連するかどうかにかかわらず、「および/または」節によって具体的に識別される要素以外の他の要素も、随意に存在し得る。したがって、非限定的実施例として、「~を備える(comprising)」等の非限定的言語と併用されるとき、「Aおよび/またはB」の言及は、一実施形態では、Aのみ(随意に、B以外の要素を含む)を指し、別の実施形態では、Bのみ(随意に、A以外の要素を含む)を指し、また別の実施形態では、AおよびBの両方(随意に、他の要素を含む)等を指し得る。
本明細書および請求項に使用されるように、「または」は、上記に定義されるような「および/または」と同一の意味を有するように理解されるべきである。例えば、リスト内の項目を分離するとき、「または」もしくは「および/または」は、包括的であるとして、すなわち、いくつかの要素またはそのリストのうちの少なくとも1つ(但し、1つを上回るものも含む)および随意に付加的な列挙されていない項目の包含として解釈されるものとする。「~のうちの1つのみ」もしくは「~のうちの厳密に1つ」または請求項において使用されるとき、「~から成る」等のそうでないことが明確に示される用語のみが、いくつかの要素またはそのリストの厳密に1つの要素の包含を指すであろう。概して、使用されるような用語「または」は、「いずれか」、「~のうちの1つ」、「~のうちの1つのみ」、または「~のうちの厳密に1つ」等の排他性の用語によって先行されると、排他的代替(すなわち、「両方ではないが、一方または他方」)を示すようにのみ解釈されるものとする。請求項において使用されるとき、「~から本質的に成る」は、特許法の分野において使用されるようなその通常の意味を有するものとする。
本明細書および請求項に使用されるように、1つまたはそれを上回る要素のリストに関する語句「少なくとも1つ」は、要素のリスト内の要素のうちの1つまたはそれを上回るものから選択される少なくとも1つの要素を意味するように理解されるべきであるが、必ずしも、要素のリスト内に具体的に列挙されるあらゆる要素のうちの少なくとも1つを含むわけではなく、要素のリスト内の要素の任意の組み合わせを除外するわけではない。本定義はまた、具体的に識別されるそれらの要素に関連するかどうかにかかわらず、語句「少なくとも1つ」が指す要素のリスト内の具体的に識別される要素以外の要素が随意に存在し得ることを可能にする。したがって、非限定的実施例として、「AおよびBのうちの少なくとも1つ」(または同じく、「AまたはBのうちの少なくとも1つ」もしくは同じく、「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、いかなるBも存在しない、随意に、1つを上回るAを含む少なくとも1つのA(および随意に、B以外の要素を含む)を指し、別の実施形態では、いかなるAも存在しない、随意に、1つを上回るBを含む少なくとも1つのB(および随意に、A以外の要素を含む)を指し、また別の実施形態では、随意に、1つを上回るAを含む少なくとも1つのAおよび、随意に、1つを上回るBを含む少なくとも1つのB(および随意に、他の要素を含む)等を指し得る。
「including(~を含む)」、「comprising(~を備える)」、「having(~を有する)」、「containing(~を含有する)」、「involving(~を伴う)」、およびそれらの変形例の使用は、その後に列挙される項目および付加的項目を包含することを意味する。
請求項要素を修正するための請求項における「第1」、「第2」、「第3」等の序数用語の使用は、それ自体では、1つの請求項要素の別のものに対する任意の優先順位、優先度、もしくは順序、または方法の行為が実施される時間的順序を含意しない。序数用語は、単に、ある名称を有する1つの請求項要素を(序数用語の使用がなければ)同一の名称を有する別の要素から区別し、請求項要素を区別するための標識として使用される。
別個の実施形態の文脈に説明される特徴はまた、単一実施形態において組み合わせて提供されてもよい。逆に言えば、簡潔にするために、単一実施形態の文脈に説明される、種々の特徴はまた、別個に、または任意の好適な副次的組み合わせにおいて、提供されてもよい。本出願人は、本明細書によって、新しい請求項が、本願またはそこから派生される任意のさらなる出願の特許審査の間、そのような特徴および/またはそのような特徴の組み合わせに対して策定され得ることを通知する。説明されるデバイスおよびシステムの特徴は、対応する方法の中に組み込まれ/その中で使用され、その逆も同様であり得る。
Claims (61)
- ユーザデバイスを横断した分散のためのデバイス特有の人工ニューラルネットワーク(ANN)モデルを生成するための方法であって、前記方法は、
プロセッサによって、サンプルデータセットをユーザ環境の前記ユーザデバイスから受信することであって、前記サンプルデータセットは、メディアデータと、前記ユーザデバイス上で実行されるデバイス特有のANNモデルによる予測とを備える、ことと、
前記プロセッサによって、前記サンプルデータセットを訓練データ記憶装置に書き込むことと、
前記プロセッサによって、データ記憶装置内において、ユースケースデータセットを識別することであって、前記ユースケースデータセットは、少なくとも訓練データパラメータを備える、ことと、
前記プロセッサによって、前記訓練データ記憶装置内において、前記ユースケースデータセット内に提供される訓練データパラメータを満たす訓練データを前記サンプルデータセットから識別することと、
前記プロセッサによって、前記データ記憶装置内において、前記デバイス特有のANNモデルの記憶されたインスタンスを識別することと、
前記プロセッサによって、前記訓練データに基づいて、更新されたデバイス特有のANNモデルを前記デバイスANNモデルの記憶されたインスタンスのそれぞれから生成することと
を含む、方法。 - 前記ユーザデバイスは、複数の画像捕捉デバイスを備える、請求項1に記載の方法。
- 前記メディアデータは、画像データを備え、前記ANNモデルの前記画像データへの適用は、前記画像データ内の着目オブジェクトの識別を促進する、請求項1または請求項2に記載の方法。
- 前記訓練データパラメータは、メディアデータパラメータと、デバイスパラメータとを含む、請求項1、請求項2、または請求項3に記載の方法。
- 前記メディアデータパラメータは、色インデックス、明度インデックス、コントラストインデックス、画像温度、色調、1つまたはそれを上回る色相値、およびガンマ値のうちの1つまたはそれを上回るものを含む、請求項4に記載の方法。
- 前記デバイスパラメータは、利用可能なメモリ、処理速度、画像分解能、および捕捉フレームレートのうちの1つまたはそれを上回るものを含む、請求項4または請求項5に記載の方法。
- 前記ユースケースデータセットは、特定のユースケースに特有である、請求項1または請求項2-6のいずれかに記載の方法。
- 前記ユースケースは、環境側面と、機能的側面とを備える、請求項7に記載の方法。
- 前記ユースケースの機能的側面は、顔認識を備える、請求項8に記載の方法。
- 前記ユースケースの環境側面は、屋外環境内における前記デバイスの設置、屋内環境内における前記デバイスの設置、照明良好環境内における前記デバイスの設置、または照明不良環境内における前記デバイスの設置のうちの1つを備える、請求項8または請求項9に記載の方法。
- 前記デバイス特有のANNモデルによって生成される予測は、前記メディアファイルが着目オブジェクトを含有する尤度を示す画像毎の定量的画像顕著性メトリックを備える、請求項1または請求項2-10のいずれかに記載の方法。
- 少なくとも部分的に、前記画像毎の定量的画像顕著性メトリックに基づいて、閾値モデル正確度を達成するために必要である最小数の画像を決定することをさらに含む、請求項11に記載の方法。
- デバイス特有のパラメータおよび訓練データのライブラリを維持することをさらに含み、前記更新されたデバイス特有のANNモデルを生成することはさらに、前記デバイス特有のパラメータおよび訓練データに基づく、請求項1または請求項2-12のいずれかに記載の方法。
- 前記プロセッサによって、前記デバイス特有の更新されたANNモデルをそれと関連付けられる前記ユーザデバイスの少なくともサブセットに分散させることをさらに含む、請求項1または請求項2-13のいずれかに記載の方法。
- ユーザデバイスを横断した分散のためのデバイス特有の人工ニューラルネットワーク(ANN)モデルを生成するためのシステムであって、前記システムは、
1つまたはそれを上回るプロセッサと、
前記1つまたはそれを上回るプロセッサと結合されるメモリであって、前記1つまたはそれを上回るプロセッサは、前記メモリ内に記憶される複数のモジュールを実行し、前記複数のモジュールは、
命令をユーザから受信するユーザインターフェースであって、前記命令は、1つまたはそれを上回るサンプルデータセットをユーザ環境の前記ユーザデバイスから識別し、前記サンプルデータセットは、メディアデータと、前記ユーザデバイス上で実行されるデバイス特有のANNモデルによる予測とを備える、ユーザインターフェースと、
前記サンプルデータセットを備えるデータ記憶装置と、
ビジネスロジックモジュールであって、前記ビジネスロジックモジュールは、実行されると、(i)前記データ記憶装置内に記憶されるユースケースデータセットを識別し、前記ユースケースデータセットは、少なくとも訓練データパラメータを備え、(ii)前記ユースケースデータセット内に提供される訓練データパラメータを満たす訓練データを前記サンプルデータセットから識別し、(iii)前記データ記憶装置内に記憶されるデバイス特有のANNモデルを識別する、ビジネスロジックモジュールと、
人工知能機械学習モジュールであって、前記人工知能機械学習モジュールは、実行されると、前記訓練データに基づいて、更新されたデバイス特有のANNモデルを前記デバイスANNモデルの記憶されたインスタンスのそれぞれから生成する、人工知能機械学習モジュールと
を備える、メモリと
を備える、システム。 - 前記ユーザデバイスは、複数の画像捕捉デバイスを備える、請求項15に記載のシステム。
- 前記メディアデータは、画像データを備え、前記ANNモデルの前記画像データへの適用は、前記画像データ内の着目オブジェクトの識別を促進する、請求項16に記載のシステム。
- 前記訓練データパラメータは、メディアデータパラメータと、デバイスパラメータとを含む、請求項15、請求項16、または請求項17に記載のシステム。
- 前記メディアデータパラメータは、色インデックス、明度インデックス、コントラストインデックス、画像温度、色調、1つまたはそれを上回る色相値、およびガンマ値のうちの1つまたはそれを上回るものを含む、請求項18に記載のシステム。
- 前記デバイスパラメータは、利用可能なメモリ、処理速度、画像分解能、および捕捉フレームレートのうちの1つまたはそれを上回るものを含む、請求項18または請求項19に記載のシステム。
- 前記ユースケースデータセットは、特定のユースケースに特有である、請求項15または請求項16-20のいずれかに記載のシステム。
- 前記ユースケースは、環境側面と、機能的側面とを備える、請求項21に記載のシステム。
- 前記ユースケースの機能的側面は、顔認識を備える、請求項22に記載のシステム。
- 前記ユースケースの環境側面は、屋外環境内における前記デバイスの設置、屋内環境内における前記デバイスの設置、照明良好環境内における前記デバイスの設置、または照明不良環境内における前記デバイスの設置のうちの1つを備える、請求項22または請求項23に記載のシステム。
- 前記デバイス特有のANNモデルによって生成される予測は、前記メディアファイルが着目オブジェクトを含有する尤度を示す画像毎の定量的画像顕著性メトリックを備える、請求項15または請求項16-24のいずれかに記載のシステム。
- 前記人工知能機械学習モジュールはさらに、少なくとも部分的に、前記画像毎の定量的画像顕著性メトリックに基づいて、閾値モデル正確度を達成するために必要である最小数の画像を決定する、請求項25に記載のシステム。
- デバイス特有のパラメータおよび訓練データのライブラリをさらに備え、人工知能機械学習モジュールは、前記デバイス特有のパラメータおよび訓練データに基づいて、前記更新されたデバイス特有のANNモデルを生成する、請求項15または請求項16-26のいずれかに記載のシステム。
- 前記デバイス特有の更新されたANNモデルをそれと関連付けられる前記ユーザデバイスの少なくともサブセットに分散させるための展開モジュールをさらに備える、請求項15または請求項16-27のいずれかに記載のシステム。
- エッジデバイス上におけるデバイス特有の訓練された人工ニューラルネットワーク(ANN)モデルの実行を最適化するための方法であって、前記方法は、
プロセッサによって、第1の訓練されたANNモデルおよび第2のANNモデルを受信することであって、前記第1のANNモデルおよび前記第2のANNモデルはそれぞれ、異なる推定を入力データ上で実行し、前記第1のANNモデルの出力は、前記第2のANNモデルへの入力としての役割を果たす、ことと、
前記第1のANNモデル、前記第2のANNモデル、および制御フロー実行命令を組み合わせられたソフトウェアパッケージの中にマージすることと、
前記制御フロー命令に従って、その上での実行のために、前記組み合わせられたソフトウェアパッケージをエッジデバイスに展開することと
を含む、方法。 - 前記第1の訓練されたANNモデルおよび第2の訓練されたANNモデルはそれぞれ、個別の分析基準と、ユースケースデータとを備え、前記プロセッサは、少なくとも部分的に、その中の前記分析基準に基づいて前記第1および第2のANNモデルを選択する、請求項29に記載の方法。
- 前記第1のANNモデルアーキテクチャおよび前記第2のANNモデルアーキテクチャに基づいて、親ANNをメタアーキテクチャとして生成することをさらに含み、前記メタアーキテクチャは、それが単一ANNモデルとして実行するように、前記エッジデバイスに送達される、請求項29または請求項30に記載の方法。
- 前記エッジデバイスは、カメラを備える、請求項29、請求項30、または請求項31に記載の方法。
- 前記カメラ上での前記第1のANNモデルおよび第2のANNモデルの実行は、前記カメラ上で捕捉された画像ファイル内の着目オブジェクトを識別する、請求項32に記載の方法。
- エッジデバイス上におけるデバイス特有の訓練された人工ニューラルネットワーク(ANN)モデルの実行を最適化するためのシステムであって、前記システムは、
1つまたはそれを上回るプロセッサと、
前記1つまたはそれを上回るプロセッサと結合されるメモリであって、前記1つまたはそれを上回るプロセッサは、前記メモリ内に記憶されるコンピュータ実行可能命令を実行し、前記コンピュータ実行可能命令は、実行されると、
データ記憶装置内において、第1の訓練されたANNモデルおよび第2のANNモデルを識別することであって、前記第1のANNモデルおよび前記第2のANNモデルはそれぞれ、異なる推定を入力データ上で実行し、前記第1のANNモデルの出力は、前記第2のANNモデルへの入力としての役割を果たす、ことと、
前記第1のANNモデル、前記第2のANNモデル、および制御フロー実行命令を組み合わせられたソフトウェアパッケージの中にマージすることと、
分散モジュールによって、前記制御フロー命令に従って、その上での実行のために、前記組み合わせられたソフトウェアパッケージをエッジデバイスに展開することと
を行わせる、メモリと
を備える、システム。 - 前記第1の訓練されたANNモデルおよび第2の訓練されたANNモデルはそれぞれ、個別の分析基準と、ユースケースデータとを備え、前記プロセッサは、少なくとも部分的に、その中の前記分析基準に基づいて前記第1および第2のANNモデルを選択する、請求項34に記載のシステム。
- 前記命令の実行はさらに、前記第1のANNモデルアーキテクチャおよび前記第2のANNモデルアーキテクチャに基づいて、親ANNをメタアーキテクチャとして生成し、前記メタアーキテクチャは、それが単一ANNモデルとして実行するように、前記エッジデバイスに送達される、請求項34または請求項35に記載のシステム。
- 前記エッジデバイスは、カメラを備える、請求項34、請求項35、または請求項36に記載のシステム。
- 前記カメラ上での前記第1のANNモデルおよび第2のANNモデルの実行は、前記カメラ上で捕捉された画像ファイル内の着目オブジェクトを識別する、請求項37に記載のシステム。
- 画像ファイル内の着目オブジェクトを識別するための方法であって、前記方法は、
1つまたはそれを上回る画像ファイルを受信することであって、各画像ファイルは、潜在的に、着目オブジェクトを含む、ことと、
非バイナリグラウンドトゥルースラベルを各画像ファイルに適用することであって、前記非バイナリグラウンドトゥルースラベルは、特定のピクセルが前記着目オブジェクトの一部であることの尤度を示すピクセル特有の顕著性値の分布を備える、ことと、
x軸、y軸、およびz軸を有する3次元顕著性表面マップを生成することであって、x軸およびy軸値は、前記画像内のピクセルの場所を定義し、z軸値は、前記ピクセル特有の顕著性値である、ことと、
曲線形状を曲線形状のライブラリから選択し、前記曲線形状を前記顕著性表面マップに適用し、前記曲線形状と前記3次元表面との間の適合を決定することと、
前記適合に基づいて、前記画像ファイルが前記着目オブジェクトを含むかどうかを決定することと
を含む、方法。 - 前記曲線形状は、前記着目オブジェクトに基づいて選択される、請求項39に記載の方法。
- 前記曲線形状は、ガウス分布、ポワソン分布、およびハイブリッド分布のうちの1つから選択される、請求項39または請求項40に記載の方法。
- 前記画像ファイルを人工ニューラルネットワーク(ANN)を訓練する際に使用するための画像ファイルのライブラリに追加することをさらに含む、請求項39、請求項40、または請求項41に記載の方法。
- 前記ANNは、後続メディアファイル内の着目オブジェクトを識別するように訓練される、請求項40、請求項41、または請求項42に記載の方法。
- 前記ANNは、後続メディアファイル内のオブジェクトをセグメント化するように訓練される、請求項40または請求項41-43のいずれかに記載の方法。
- 画像ファイル内の着目オブジェクトを識別するためのシステムであって、前記システムは、
1つまたはそれを上回るプロセッサと、
前記1つまたはそれを上回るプロセッサと結合されるメモリであって、前記1つまたはそれを上回るプロセッサは、前記メモリ内に記憶されるコンピュータ実行可能命令を実行し、前記コンピュータ実行可能命令は、実行されると、
1つまたはそれを上回る画像ファイルを受信することであって、各画像ファイルは、潜在的に、着目オブジェクトを含む、ことと、
非バイナリグラウンドトゥルースラベルを各画像ファイルに適用することであって、前記非バイナリグラウンドトゥルースラベルは、特定のピクセルが前記着目オブジェクトの一部であることの尤度を示すピクセル特有の顕著性値の分布を備える、ことと、
x軸、y軸、およびz軸を有する3次元顕著性表面マップを生成することであって、x軸およびy軸値は、前記画像内のピクセルの場所を定義し、z軸値は、前記ピクセル特有の顕著性値である、ことと、
曲線形状を曲線形状のライブラリから選択し、前記曲線形状を前記顕著性表面マップに適用し、前記曲線形状と前記3次元表面との間の適合を決定することと、
前記適合に基づいて、前記画像ファイルが前記着目オブジェクトを含むかどうかを決定することと
を行わせる、メモリと
を備える、システム。 - 前記曲線形状は、前記着目オブジェクトに基づいて選択される、請求項45に記載のシステム。
- 前記曲線形状は、ガウス分布、ポワソン分布、およびハイブリッド分布のうちの1つから選択される、請求項45または請求項46に記載のシステム。
- 前記命令の実行はさらに、前記画像ファイルを人工ニューラルネットワーク(ANN)を訓練する際に使用するための画像ファイルのライブラリに追加する、請求項45、請求項46、または請求項47に記載のシステム。
- 前記ANNは、後続メディアファイル内の着目オブジェクトを識別するように訓練される、請求項48に記載のシステム。
- 前記ANNは、後続メディアファイル内のオブジェクトをセグメント化するように訓練される、請求項48または請求項49に記載のシステム。
- ビデオデータの伝送のための画像データを記憶するための方法であって、前記方法は、
複数の標準的ビデオデータフォーマットのうちの1つにおけるビデオデータをエッジデバイスにおいて受信することと、
複数の画像スライスを前記ビデオデータから抽出することであって、前記画像スライスは、画像と、前記ビデオデータ内の画像スライスの時間的場所を示す開始インデックス時間および終了インデックス時間と、前記画像内の着目領域の2次元座標を記述する着目領域パラメータとを備える、ことと
を含む、方法。 - 前記ビデオデータの受信および前記画像スライスの抽出は、エッジデバイス上で実行される、請求項51に記載の方法。
- 1つまたはそれを上回る人工ニューラルネットワークを前記エッジデバイス上で使用して、前記画像スライスを分析し、前記着目領域および前記着目領域が着目オブジェクトを含むかどうかを決定することをさらに含む、請求項52に記載の方法。
- 前記画像スライスが着目オブジェクトを含む場合、各画像スライスを高分解能として識別し、そうでなければ、前記画像スライスを低分解能として識別することをさらに含む、請求項53に記載の方法。
- その上で前記画像が捕捉された前記エッジデバイスに特有の訓練データセットの人工ニューラルネットワーク内への含有のために、前記高分解能画像スライスを人工知能機械学習モジュールに伝送することをさらに含む、請求項54に記載の方法。
- 前記標準的ビデオデータフォーマットは、H.264データフォーマットを備える、請求項51または請求項52-55のいずれかに記載の方法。
- ビデオデータの伝送のための画像データを記憶するためのシステムであって、前記方法は、
1つまたはそれを上回るプロセッサと、
前記1つまたはそれを上回るプロセッサと結合されるメモリであって、前記1つまたはそれを上回るプロセッサは、前記メモリ内に記憶されるコンピュータ実行可能命令を実行し、前記コンピュータ実行可能命令は、実行されると、
複数の標準的ビデオデータフォーマットのうちの1つにおけるビデオデータをエッジデバイスにおいて受信することと、
複数の画像スライスを前記ビデオデータから抽出することであって、前記画像スライスは、画像と、前記ビデオデータ内の画像スライスの時間的場所を示す開始インデックス時間および終了インデックス時間と、前記画像内の着目領域の2次元座標を記述する着目領域パラメータとを備える、ことと
を行わせる、メモリと
を備える、システム。 - 前記ビデオデータの受信および前記画像スライスの抽出は、エッジデバイス上で実行される、請求項57に記載のシステム。
- 前記コンピュータ実行可能命令の実行はさらに、1つまたはそれを上回る人工ニューラルネットワークを前記エッジデバイス上で使用して、前記画像スライスを分析し、前記着目領域および前記着目領域が着目オブジェクトを含むかどうかを決定する、請求項58に記載のシステム。
- 前記コンピュータ実行可能命令の実行はさらに、前記画像スライスが着目オブジェクトを含む場合、各画像スライスを高分解能として識別し、そうでなければ、前記画像スライスを低分解能として識別する、請求項59に記載のシステム。
- 前記コンピュータ実行可能命令の実行はさらに、その上で前記画像が捕捉された前記エッジデバイスに特有の訓練データセットの人工ニューラルネットワーク内への含有のために、前記高分解能画像スライスを人工知能機械学習モジュールに伝送する、請求項60に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023178050A JP2023176023A (ja) | 2020-05-08 | 2023-10-16 | 分散型データ分析のためのシステムおよび方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063021735P | 2020-05-08 | 2020-05-08 | |
US63/021,735 | 2020-05-08 | ||
PCT/IB2021/053953 WO2021224895A1 (en) | 2020-05-08 | 2021-05-10 | Systems and methods for distributed data analytics |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023178050A Division JP2023176023A (ja) | 2020-05-08 | 2023-10-16 | 分散型データ分析のためのシステムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023524134A true JP2023524134A (ja) | 2023-06-08 |
Family
ID=78412789
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022567287A Pending JP2023524134A (ja) | 2020-05-08 | 2021-05-10 | 分散型データ分析のためのシステムおよび方法 |
JP2023178050A Pending JP2023176023A (ja) | 2020-05-08 | 2023-10-16 | 分散型データ分析のためのシステムおよび方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023178050A Pending JP2023176023A (ja) | 2020-05-08 | 2023-10-16 | 分散型データ分析のためのシステムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (4) | US11275970B2 (ja) |
EP (1) | EP4147170A4 (ja) |
JP (2) | JP2023524134A (ja) |
AU (1) | AU2021268278A1 (ja) |
WO (1) | WO2021224895A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11275970B2 (en) * | 2020-05-08 | 2022-03-15 | Xailient | Systems and methods for distributed data analytics |
US20220351020A1 (en) * | 2021-04-30 | 2022-11-03 | International Business Machines Corporation | Deploying parallelizable deep learning models by adapting to the computing devices |
GB2611765B (en) * | 2021-10-08 | 2024-01-31 | Samsung Electronics Co Ltd | Method, system and apparatus for monocular depth estimation |
CN114676372B (zh) * | 2022-04-13 | 2023-07-25 | 一点灵犀信息技术(广州)有限公司 | 网页游戏的数据处理方法、装置、电子设备及存储介质 |
US20240097992A1 (en) * | 2022-09-20 | 2024-03-21 | Servicenow, Inc. | Smart Detection for Determination of Database Accuracy |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0205000D0 (en) * | 2002-03-04 | 2002-04-17 | Isis Innovation | Unsupervised data segmentation |
US7599894B2 (en) * | 2005-03-04 | 2009-10-06 | Hrl Laboratories, Llc | Object recognition using a cognitive swarm vision framework with attention mechanisms |
US9530221B2 (en) * | 2012-01-06 | 2016-12-27 | Pelco, Inc. | Context aware moving object detection |
US9208567B2 (en) * | 2013-06-04 | 2015-12-08 | Apple Inc. | Object landmark detection in images |
US20150089399A1 (en) * | 2013-09-26 | 2015-03-26 | Polis Technology Inc. | System and methods for real-time formation of groups and decentralized decision making |
US9466009B2 (en) * | 2013-12-09 | 2016-10-11 | Nant Holdings Ip. Llc | Feature density object classification, systems and methods |
US10007867B2 (en) * | 2016-04-04 | 2018-06-26 | Google Llc | Systems and methods for identifying entities directly from imagery |
US10049307B2 (en) * | 2016-04-04 | 2018-08-14 | International Business Machines Corporation | Visual object recognition |
GB2554633B (en) * | 2016-06-24 | 2020-01-22 | Imperial College Sci Tech & Medicine | Detecting objects in video data |
US20180060731A1 (en) * | 2016-08-29 | 2018-03-01 | Nec Laboratories America, Inc. | Stage-wise mini batching to improve cache utilization |
CN106886995B (zh) * | 2017-01-13 | 2019-09-20 | 北京航空航天大学 | 多线性示例回归器聚合的图像显著对象分割方法 |
EP3602489B1 (en) | 2017-03-28 | 2023-08-23 | HRL Laboratories, LLC | Machine-vision method to classify input data based on object components |
US10521691B2 (en) * | 2017-03-31 | 2019-12-31 | Ebay Inc. | Saliency-based object counting and localization |
CN111295669A (zh) | 2017-06-16 | 2020-06-16 | 马克波尔公司 | 图像处理系统 |
AU2018316801B2 (en) * | 2017-08-16 | 2023-12-21 | Mako Surgical Corp. | Ultrasound bone registration with learning-based segmentation and sound speed calibration |
US10440276B2 (en) * | 2017-11-02 | 2019-10-08 | Adobe Inc. | Generating image previews based on capture information |
US11756668B2 (en) * | 2017-11-12 | 2023-09-12 | Aleph Bot Ltd | Systems methods devices circuits and computer executable code for tracking evaluating and facilitating a medical procedure |
US10140553B1 (en) * | 2018-03-08 | 2018-11-27 | Capital One Services, Llc | Machine learning artificial intelligence system for identifying vehicles |
JP6719497B2 (ja) | 2018-03-12 | 2020-07-08 | 株式会社 日立産業制御ソリューションズ | 画像生成方法、画像生成装置及び画像生成システム |
US10592780B2 (en) * | 2018-03-30 | 2020-03-17 | White Raven Ltd. | Neural network training system |
AU2018425665B2 (en) * | 2018-06-01 | 2023-06-01 | Motion Metrics International Corp. | Method, apparatus and system for monitoring a condition associated with operating heavy equipment such as a mining shovel or excavator |
CN110245659B (zh) | 2019-05-21 | 2021-08-13 | 北京航空航天大学 | 基于前背景相互关系的图像显著对象分割方法及装置 |
US20200394458A1 (en) * | 2019-06-17 | 2020-12-17 | Nvidia Corporation | Weakly-supervised object detection using one or more neural networks |
KR102222011B1 (ko) * | 2019-07-29 | 2021-03-04 | 주식회사 코어라인소프트 | 의료용 인공 신경망의 분석 결과를 평가하는 의료용 인공 신경망 기반 의료 영상 분석 장치 및 방법 |
US11361552B2 (en) * | 2019-08-21 | 2022-06-14 | Micron Technology, Inc. | Security operations of parked vehicles |
KR102201858B1 (ko) * | 2019-08-26 | 2021-01-12 | 엘지전자 주식회사 | 인공지능 기반 영상 편집 방법 및 지능형 디바이스 |
EP4062369A4 (en) * | 2019-11-20 | 2023-08-30 | Xailient | SYSTEMS AND METHODS FOR OBJECT DETECTION AND RECOGNITION |
US10873578B1 (en) * | 2019-12-09 | 2020-12-22 | Evan Chase Rose | Biometric authentication, decentralized learning framework, and adaptive security protocols in distributed terminal network |
US11423616B1 (en) * | 2020-03-27 | 2022-08-23 | Facebook Technologies, Llc. | Systems and methods for rendering avatar with high resolution geometry |
US11275970B2 (en) * | 2020-05-08 | 2022-03-15 | Xailient | Systems and methods for distributed data analytics |
US20220405574A1 (en) * | 2021-06-18 | 2022-12-22 | International Business Machines Corporation | Model-aware data transfer and storage |
JP2023084047A (ja) | 2021-12-06 | 2023-06-16 | 株式会社ジャパンディスプレイ | 表示装置 |
US20230326183A1 (en) * | 2022-04-12 | 2023-10-12 | Western Digital Technologies, Inc. | Data Collection and Classifier Training in Edge Video Devices |
-
2021
- 2021-05-07 US US17/314,465 patent/US11275970B2/en active Active
- 2021-05-10 JP JP2022567287A patent/JP2023524134A/ja active Pending
- 2021-05-10 WO PCT/IB2021/053953 patent/WO2021224895A1/en unknown
- 2021-05-10 EP EP21800158.4A patent/EP4147170A4/en active Pending
- 2021-05-10 AU AU2021268278A patent/AU2021268278A1/en active Pending
- 2021-09-13 US US17/473,564 patent/US12045720B2/en active Active
- 2021-09-13 US US17/473,685 patent/US20210406607A1/en active Pending
- 2021-09-13 US US17/473,467 patent/US20210406605A1/en active Pending
-
2023
- 2023-10-16 JP JP2023178050A patent/JP2023176023A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021224895A1 (en) | 2021-11-11 |
AU2021268278A1 (en) | 2022-12-08 |
US11275970B2 (en) | 2022-03-15 |
JP2023176023A (ja) | 2023-12-12 |
US20210406605A1 (en) | 2021-12-30 |
EP4147170A1 (en) | 2023-03-15 |
US20210406607A1 (en) | 2021-12-30 |
EP4147170A4 (en) | 2024-06-05 |
US20210350180A1 (en) | 2021-11-11 |
US20210406606A1 (en) | 2021-12-30 |
US12045720B2 (en) | 2024-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023524134A (ja) | 分散型データ分析のためのシステムおよび方法 | |
CN110651310B (zh) | 估计对象密度和/或流量的深度学习方法及相关方法和软件 | |
US9195908B2 (en) | Snow classifier context window reduction using class t-scores and mean differences | |
Balia et al. | A deep learning solution for integrated traffic control through automatic license plate recognition | |
CN117596755A (zh) | 一种物联网路灯智能控制方法及系统 | |
Hu et al. | Edge-based video analytics: A survey | |
Shuai et al. | Large scale real-world multi-person tracking | |
CN111325186B (zh) | 视频处理方法、装置、介质及系统 | |
KR102546193B1 (ko) | 컬러 정보를 이용한 학습 데이터 분류 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
Wang et al. | ATG-PVD: ticketing parking violations on a drone | |
Rana et al. | Selection of object detections using overlap map predictions | |
Flohr | Vulnerable road user detection and orientation estimation for context-aware automated driving | |
Ogawa et al. | Identifying Parking Lot Occupancy with YOLOv5 | |
CN117015815A (zh) | 图像的选择性编校 | |
WO2007112295A1 (en) | Method and apparatus for predicting the accuracy of a virtual scene based on incomplete information in video | |
Singh et al. | Evaluating the Performance of Ensembled YOLOv8 Variants in Smart Parking Applications for Vehicle Detection and License Plate Recognition under Varying Lighting Conditions | |
Messina et al. | An optimized pipeline for image-based localization in museums from egocentric images | |
Srivastava | Machine Learning Based Crowd Behaviour Analysis and Prediction | |
CN118071867B (zh) | 将文本数据转换为图像数据的方法和装置 | |
KR102546198B1 (ko) | 물리적 요인 기반 학습 데이터 분류 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102599196B1 (ko) | 학습 데이터 생성에 관한 작업 비용 예측 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
KR102531917B1 (ko) | 경계선 이식을 통한 어노테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
Costa et al. | Leveraging artificial intelligence to annotate marine benthic species and habitats | |
Rathee | Safety Screening of Auckland's Harbour Bridge Movable Concrete Barrier | |
Hetu et al. | Perennial simulation of a legacy traffic model: Implementation, considerations, and ramifications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240815 |